Por que não desduplicar archive2
, archive3
e archive4
e, em seguida, sincronizar archive2
a archive1
?
Eu tenho quatro grandes coleções semelhantes de arquivos de sites. Eles são cópias arquivadas de uma árvore de diretórios semelhante de tempos diferentes no passado.
Eu quero mesclar todos eles para a coleção mais recente, archive1. Devido à falta de conhecimento da Internet há 15 anos, algumas árvores de sites contêm arquivos necessariamente idênticos para funcionar (.css, páginas vazias, marcadores de local, etc.). Além disso, alguns arquivos foram corrompidos em arquivos de 0 byte e quero substituí-los por versões do archive2 para cima.
$ fdupes archive1/ archive2/ archive3/ archive4/ -rNdn
deve fazer basicamente a coisa certa, mas também detectará duplicatas dentro do próprio archive1.
Qual é a melhor maneira de excluir cópias duplicadas de meus arquivos, sem excluir as duplicatas dentro do archive1?
PS: Estou ciente da pergunta que, em parte, aborda a questão de acompanhamento de copiando versões não duplicadas em archive1.
Tags bash diff rsync comparison deduplication