Realmente, o fato de os arquivos já estarem compactados não é o problema crucial. É isso: a compressão em geral só funciona se os dados tiverem algum tipo de redundância. Isso é praticamente sempre o caso de arquivos descompactados - no entanto, não é necessariamente óbvio o que é a redundância. Algoritmos de compressão de propósito geral visam principalmente o tipo de coisa óbvia em arquivos de texto: muitas palavras aparecem não apenas uma vez, mas muitas vezes de forma idêntica, talvez frases de palavras podem ser combinadas, etc. Os algoritmos são muito bons generalizando isso para qualquer coisa, desde listas de números de telefone codificados em ASCII sobre poesia chinesa até código de máquina binária, mas eles possivelmente não podem funcionar para qualquer tipo de dados. Em particular, os arquivos de mídia são conceitualmente dados analógicos , em uma representação digital barulhenta. Isso significa que realmente não existe nenhum tipo de redunción de texto: alguns motivos podem ser recorrentes, mas sempre com uma configuração ligeiramente diferente do ruído do sensor. É por isso que todos os formatos de imagem / AV compactados usam algumas transformações habilmente escolhidas como sua primeira etapa de codificação, normalmente baseada em DCT ou wavelets . Essas transformações, a grosso modo, movem as porções de imagem e as porções de ruído em locais diferentes, para que possam ser separadas e, com a compactação com perdas, você retenha apenas as informações que considera mais "importantes", que não incluem o ruído. boa informação "tem muita redundância. (Isso não é realmente como funciona, mas mais ou menos.)
Se os compressores de uso geral usassem essas transformações, o efeito seria o oposto: a maioria das informações digitais seriam classificadas erroneamente como algum tipo de ruído, porque falta a estrutura "suave" encontrada em sinais analógicos. E após a compressão de vídeo com perdas, obviamente, nem a suavidade analógica nem a recorrência digital podem ser encontradas (se fosse, os codecs usariam outro bzip-stage ou algo parecido!)