Deduplicação de vários tipos de arquivos em várias fontes

0

Estamos diante de uma situação em que os dados foram copiados para vários meios externos e estamos passando por um exercício para consolidar os dados. Os dados são compostos de arquivos binários, áudio, vídeo, arquivos compactados, máquinas virtuais, bancos de dados, etc.

  1. É uma prática recomendada copiar todos os arquivos para uma única fonte antes de desduplicar os dados ou é normal executar o procedimento em várias mídias?

  2. É melhor executar a desduplicação no nível do arquivo ou no nível do bloco? Estou ciente das diferenças técnicas, mas não estou claro por que você escolheria uma sobre a outra. Estamos após precisão em oposição ao desempenho

EDITAR

Quando digo copy, quero dizer que copiamos cada fonte para uma única unidade ou NAS. Cada fonte seria representada por um diretório. Todos os dados estão atualmente armazenados em discos rígidos externos. O objetivo é desduplicar os dados e ter uma única fonte de verdade.

    
por Motivated 27.02.2014 / 17:45

1 resposta

0

Ferramentas como o rsync podem gerenciar as operações de comparação e a movimentação de bits para frente e para trás, mas você terá que fornecer sua própria lógica sobre qual versão dos dados é canônica.

Is it best to run file-level or block-level deduplication?

Esta parte da sua pergunta é fácil, pelo menos: você nunca deve precisar se preocupar com o que está acontecendo no nível do bloco.

    
por 27.02.2014 / 19:38