Assistência de deduplicação

Question

Assistência de deduplicação

1

Nós consolidamos algumas unidades e sistemas NAS de um ex-colega antes que os discos falhassem (alguns realmente mostraram sinais de degradação). Agora, sabemos que o colega fez "RAID by hand", também conhecido como "copiar coisas entre os discos" ... e ter um conjunto de dados de 16 TB como resultado, com cada disco sendo despejado em um diretório separado em um backup com RAID5. NAS.

Então eu fui em frente e deixei fdupes rodar nos dados, mostrando 9TB de duplicatas em talvez um total de arquivos. O problema é: ele não produziu uma lista, e muitos dos arquivos duplicados, na verdade, são cópias legítimas (por exemplo, ativos de fontes copiados repetidamente entre projetos). Existe alguma ferramenta de software de linha de comando (isso é importante, pois por motivos de desempenho eu tenho que executá-la diretamente no NAS via acesso ssh) que pode ajudar a identificar árvores de diretórios que são enganados?

Para piorar: alguns dos dados vieram de discos HFS + Apple e outros de um antigo NAS baseado em Linux, acessado via SMB / CIFS de Macs. Embora a codificação de nomes de arquivo pareça boa, o despejo de dados de origem NAS tem shitloads de .AppleDouble arquivos. Portanto, a ferramenta deve ser capaz de ignorar todas as coisas relacionadas à Apple (Spotlight, recurso forks, thumbnails).

linux deduplication

por Marco Schuster 29.06.2018 / 12:43

0 respostas

Tags linux deduplication

No Google Cloud, a tela GNU acaba de sair sem nenhuma mensagem - Ubuntu e Debian terraform aws identity_source