Quais formatos de arquivo de arquivamento fornecem proteção de recuperação contra corrupção de arquivos?

10

Eu uso meu HDD externo para fazer backup de meus arquivos, colocando-os em grandes arquivos.

Eu tenho milhares de arquivos minúsculos e os coloco em arquivos de 500 MB a 4,2 GB de tamanho antes de enviá-los para o disco rígido externo. Mas, uma falha no disco rígido destrói todo o arquivo ou apenas um arquivo no arquivo? Temo que um bit invertido possa inutilizar grandes partes do arquivo.

Coisas como verificações de CRC podem alertá-lo sobre a existência de corrupção, mas estou mais interessado na capacidade de recuperar os arquivos não danificados de um arquivo corrompido. Quais formatos de arquivo de arquivamento forneceriam a melhor capacidade de recuperação de tais falhas, seja pelo design nativo da estrutura de arquivamento ou pela existência de ferramentas de recuperação suplementares? Existe alguma diferença nessa capacidade entre os arquivos zip e iso?

    
por sevenkul 28.03.2014 / 08:52

3 respostas

8

Dado que um dano em uma parte do diretório de qualquer arquivo poderia potencialmente inutilizar todo o arquivo, sua melhor opção seria adicionar uma etapa separada ao processo de backup para gerar os chamados arquivos de paridade . No caso de um bloco de dados no arquivo original ser danificado, ele pode ser reconstruído pela combinação de dados do arquivo de paridade com blocos válidos do arquivo original.

A variável seria o dano que você gostaria de reparar. Se você quiser proteger contra um único bit flip, seu arquivo de paridade terá apenas 1 bit de tamanho. Se você quer algo em um tom de tamanho de setor de disco, então obviamente vai custar mais a você.

Existe uma grande teoria por trás disso (veja Forward Error Correction ) e é amplamente usada na prática. Por exemplo, é assim que os CDs podem suportar certo grau de riscos e como os telefones celulares podem manter uma qualidade de chamadas razoável em relação às conexões com perdas.

Para encurtar a história, dê uma olhada nos arquivos .par .

    
por 28.03.2014 / 09:17
4

O Bup [1] faz o backup de coisas e adiciona automaticamente redundância de paridade, tornando o bit-rot extremamente improvável. Falha de disco catastrófica ainda é uma coisa, então podemos usá-lo com o git-anexo.

git-annex [2] gerencia arquivos armazenados em muitos repositórios, alguns dos quais podem ser armazenados em seu computador, thumb-drives, ssh login, alguns serviços em nuvem ou um repositório de backup bup [3], permitindo o fluxo de dados do arquivo praticamente transparente por solicitação ou automaticamente em qualquer repositório que você tenha configurado. Também é um projeto de software livre e de código aberto que foi criado em Haskell com versões em execução em muitas plataformas, incluindo linux, mac, windows e android.

[1] link

[2] link

[3] link

    
por 28.03.2014 / 11:54
3

But, does one harddisk failure destroy the whole archive or only one file in the archive?

Se realmente não houver alternativa para copiar tudo como um grande arquivo, você provavelmente terá que tomar uma decisão entre usar um arquivo compactado ou descompactado.

O conteúdo de arquivos descompactados, como tarballs , ainda pode ser detectado com o software de recuperação de arquivos, mesmo que o arquivo O próprio arquivo não pode mais ser lido (por exemplo, devido a um cabeçalho corrompido).

O uso de arquivos compactados pode ser perigoso, pois alguns podem se recusar a extrair arquivos se ocorrer um erro de soma de verificação, o que pode ser causado mesmo que apenas um bit do arquivo morto seja alterado.

É claro que é possível minimizar o risco não armazenando centenas de arquivos em um arquivo compactado, mas centenas de arquivos compactados em um arquivo não compactado.

gzip *
tar cf archive.tar *.gz

Embora eu nunca tenha visto muitos arquivos gzipados em um arquivo tar na vida selvagem antes. Apenas o oposto é popular (ou seja, arquivos tar.gz).

Is there any difference between zip and iso files?

O ZIP é um arquivo compactado (principalmente, mas não necessariamente) e o ISO é um formato que indica dados brutos copiados em uma base de baixo nível de um disco ótico para um arquivo. Este último pode conter literalmente tudo.

    
por 28.03.2014 / 13:08