Nós consolidamos algumas unidades e sistemas NAS de um ex-colega antes que os discos falhassem (alguns realmente mostraram sinais de degradação). Agora, sabemos que o colega fez "RAID by hand", também conhecido como "copiar coisas entre os discos" ... e ter um conjunto de dados de 16 TB como resultado, com cada disco sendo despejado em um diretório separado em um backup com RAID5. NAS.
Então eu fui em frente e deixei fdupes
rodar nos dados, mostrando 9TB de duplicatas em talvez um total de arquivos. O problema é: ele não produziu uma lista, e muitos dos arquivos duplicados, na verdade, são cópias legítimas (por exemplo, ativos de fontes copiados repetidamente entre projetos). Existe alguma ferramenta de software de linha de comando (isso é importante, pois por motivos de desempenho eu tenho que executá-la diretamente no NAS via acesso ssh) que pode ajudar a identificar árvores de diretórios que são enganados?
Para piorar: alguns dos dados vieram de discos HFS + Apple e outros de um antigo NAS baseado em Linux, acessado via SMB / CIFS de Macs. Embora a codificação de nomes de arquivo pareça boa, o despejo de dados de origem NAS tem shitloads de .AppleDouble
arquivos. Portanto, a ferramenta deve ser capaz de ignorar todas as coisas relacionadas à Apple (Spotlight, recurso forks, thumbnails).
Tags linux deduplication