Diffing um disco rígido inteiro, ferramentas disponíveis?

3

um existente pergunta semelhante a esta que não foi respondida no contexto apropriado (um maciço volume de dados para comparar), então estou tentando novamente aqui.

Estou usando SuperDuper para manter uma cópia clonada do disco rígido interno do meu Mac em um disco externo dirigir. Devido às medidas de integridade de dados incorporadas nesse programa, é possível que seu volume de destino exija muito mais espaço do que a unidade de origem, mas isso não faz sentido.

O que eu quero fazer é executar uma comparação de "pasta" no nível do volume. No mais grosseiro, quero essencialmente diff -r /Volumes/MacintoshHD /Volumes/BackupDrive e ter uma interface de navegação decente para trabalhar com o resultados. O grande problema com isto é que estes são discos de 1 TB contendo cerca de 800 GB de dados e na ordem de 3,1 milhões ficheiros individuais. Eu tentei muitas ferramentas de diff, e nenhuma delas parece ser capaz de lidar com uma quantidade tão grande de dados. Aqui está uma breve lista de aplicativos que totalmente e totalmente falham com isso:

  • diff (linha de comando). Como ele transmite seus resultados para o console, isso é mais "confiável" do que os outros, mas produz um volume avassalador de saída de texto inutilizável (não há interface amigável para "navegar" pelas diferenças).

  • FileMerge (do Dev Tools da Apple). Com conjuntos de arquivos menores, a interface funciona muito bem, mas nessa escala enorme ela fica pendurada por muitas horas tentando digitalizar e, eventualmente, travar antes de terminar.

  • Caleidoscópio . Após muitas horas de varredura sem uma barra de progresso precisa, ela eventualmente mostrará uma janela de comparação A / B, mas deixará o lado 'B' aleatoriamente completamente se você tentar navegar, forçando-o a começar de novo. (O que não faz sentido, porque apenas soltará o lado B.)

  • Araxis Merge . Veio o mais próximo de tudo que eu tentei. De fato, produziu uma comparação, mas foi significativamente mais lenta, tanto para gerá-lo quanto para navegá-lo, a ponto de ser intolerável. Quando você está falando sobre 18 horas de tempo de varredura antes de começar a trabalhar com o conjunto de dados, e 20-40 segundos trava toda vez para tentar alterar diretórios no diff, velocidade e estabilidade fazem uma grande diferença.

Então, minha pergunta é: Há alguma ferramenta de comparação projetada especificamente para comparações massivas? Como as pessoas "normalmente" comparam grandes conjuntos de dados medidos em gigabytes de três dígitos? Há talvez ferramentas forenses que minhas pesquisas não encontraram? Em particular, estou apenas preocupado com as diferenças, não com as partes idênticas. Eu espero que haja uma porcentagem relativamente pequena de mudança, talvez 1-5%, então uma ferramenta que "jogue fora" as semelhanças teria uma enorme vantagem com um conjunto de dados tão grande.

    
por beporter 17.06.2014 / 15:51

1 resposta

0

DupScan (para Mac) encontrará todos os arquivos duplicados. Tem muitas opções para comparar arquivos, sendo a soma de verificação uma delas.

O resultado do

DupScan é uma lista de arquivos com o número de duplicatas e uma maneira fácil de removê-los.

Claro ... o que você fizer levará horas.

    
por 17.06.2014 / 16:10