ZFS e desduplicação de dados FLAC

1

Estou experimentando usar o ZFS para desduplicar uma grande biblioteca de arquivos FLAC. O propósito disso é duplo:

  1. Reduzir a utilização do armazenamento
  2. Reduzir a largura de banda necessária para sincronizar a biblioteca com o armazenamento na nuvem

Muitos desses arquivos são das mesmas faixas de música, mas de diferentes mídias físicas. Isso significa que, na maior parte, eles são os mesmos e geralmente estão próximos do mesmo tamanho, o que me faz pensar que eles deveriam se beneficiar da desduplicação em nível de bloco.

No entanto, no meu teste, não estou vendo bons resultados. Quando eu criar um pool e adicionar três dessas faixas (músicas idênticas de mídia de origem diferente) zpool list reports 1.00 dedupe. Se eu copiar todos os arquivos (fazer duplicatas exatas das três) subidas de desduplicação, sei que está habilitado e funcionando, mas não está encontrando nenhuma duplicação na coleção original de arquivos.

Meu primeiro pensamento foi que talvez alguns dos dados de cabeçalho variáveis (tags de metadados, etc.) possam estar desalinhando a maior parte dos dados nesses arquivos (os quadros de áudio), mas até mesmo tornando os dados de cabeçalho consistentes entre os três. os arquivos não parecem ter impacto na deduplicação.

Estou pensando em usar rotas alternativas (testando outros sistemas de arquivos de desduplicação, além de alguns códigos personalizados), mas como já estamos usando o ZFS e eu gosto das opções de replicação do ZFS, prefiro usar o ZFS dedupe para este projeto; mas talvez simplesmente não seja capaz de funcionar bem com esse tipo de dados.

Qualquer feedback sobre o ajuste que possa melhorar o desempenho da dedução para esse tipo de conjunto de dados ou a confirmação de que a dedução do ZFS não é a ferramenta certa para este trabalho são bem-vindos.

    
por jasongullickson 15.10.2012 / 17:08

1 resposta

4

Eu não sei sobre o ZFS, mas o codec FLAC tem muitos parâmetros diferentes, e a estrutura dentro de um arquivo FLAC não é alinhada por byte em geral. Assim, qualquer ligeira alteração nas configurações provavelmente dará um fluxo muito diferente. Você sabe se os arquivos "idênticos" foram flacados com o mesmo software, a mesma versão de software e as mesmas configurações, na mesma arquitetura?

Supondo que haja algumas diferenças no bytestream (o que explicaria seu resultado 1.0), uma maneira de testar isso seria descompactar e recompactar todos os arquivos FLAC na mesma máquina. (Claro que esta operação não elimina nenhum dado, desde que os metadados sejam mantidos).

    
por 15.10.2012 / 19:11