Rapidamente manter banco de dados de sha256sums? [fechadas]

1

Eu tenho muitos discos diferentes (principalmente discos rígidos) que armazenam vários arquivos. Eu quero saber que eles são todos backup de alguma forma. Dado que eu tenho terabytes de arquivos de alguma forma (backups de backups aparentemente) eu não quero apenas fazer backup de tudo em novas mídias mais uma vez. Eu gostaria de manter alguma forma de banco de dados de arquivos e usá-lo para identificar rápida e facilmente todos os arquivos em X que ainda não existem em Y para Y, e idealmente também

  1. lista todos os arquivos no X que não são duplicados / copiados em outra mídia
  2. Desduplique arquivos em X
  3. lista todos os arquivos que não estão duplicados no armazenamento off-line / WORM / externo
  4. idealmente, também combine JPGs por data de EXIF.

O primeiro passo para isso seria manter uma base de banco de dados dos hashes de arquivos em todos os discos rígidos. Então, como eu manteria um banco de dados de hashes de muitos terabytes de arquivos?

A princípio, parece que hashdeep seria suficiente, mas parece não ter de atualizar uma base de dados existente. atualizar o banco de dados exigiria a varredura de muitos terabytes de arquivos. du -ab é rápido o suficiente, e filename + filesize dá uma boa indicação se dois arquivos são duplicados ; no entanto, ter hashes seria claramente mais confiável.

    
por gmatht 16.03.2014 / 13:54

1 resposta

0

Talvez não haja uma maneira fácil de fazer isso, e scripts consideráveis são necessários. Se assim for, eu vou manter os scripts em:      link

No momento, isso não faz muito mais do que analisar a saída de du para adivinhar quais arquivos são novos e calcular quantos MB os novos arquivos exclusivos exigiriam para arquivar. Uma melhor solução seria preferida.

    
por 16.03.2014 / 13:54