Boas práticas de criação de archive redundante para armazenamento em nuvem de longo tempo

3

Eu quero criar um arquivo digital de fotos, documentos e outras coisas importantes para armazenar na nuvem (provável Amazon Glacier). De preferência, um ano por arquivo, até 10 gigabytes cada. Quero garantir que os erros de armazenamento e de transferência de rede não quebrem nada, por isso quero incluir uma sobrecarga de dados de recuperação sólida.

Você tem alguma das melhores práticas recomendadas e ferramentas aqui? RAR com dados de recuperação? Vale a pena armazenar cada soma de verificação de arquivo junto com o arquivo? Alguma outra sugestão?

    
por Tomek Z. 21.08.2012 / 11:33

3 respostas

2

Se você quiser incluir dados de recuperação adicionais com seus backups, poderá usar as soluções do tipo Parchive . Você especifica a quantidade de dados de redundância / recuperação que deseja gerar e como (se houver) dividi-los. O benefício de usar esse método é que ele é agnóstico em relação aos métodos reais de backup e armazenamento que você escolhe. Você pode usar zip ou tar ou o Backup do Windows ou qualquer outra coisa que gere arquivos e os alimente através das ferramentas da Parchive para gerar arquivos de recuperação adicionais.

Lembre-se de que os serviços Amazon Glacier e S3 têm capacidade de gerar soma de verificação de arquivos, portanto, depois de fazer upload de um arquivo, você pode comparar as somas de verificação locais e remotas para garantir que o arquivo seja transferido sem erros.

Além disso, é isso que a Amazon tem a dizer sobre esse assunto:

Durable – Amazon Glacier is designed to provide average annual durability of 99.999999999% for an archive. The service redundantly stores data in multiple facilities and on multiple devices within each facility. To increase durability, Amazon Glacier synchronously stores your data across multiple facilities before returning SUCCESS on uploading archives. Unlike traditional systems which can require laborious data verification and manual repair, Glacier performs regular, systematic data integrity checks and is built to be automatically self-healing.

Isso significa que há apenas uma probabilidade de 0,00000000001 (1e-11) de qualquer um de seus arquivos serem poof ao longo de um único ano. Dito de outra forma, se você armazenar 100 bilhões de arquivos no Glacier por um ano, pode esperar perder um deles.

Se você deseja uma garantia adicional, considere enviar seus dados para várias regiões do Glacier ou para um provedor de serviços totalmente diferente em outra região geográfica.

    
por 07.09.2012 / 14:31
0

Geralmente, se você não confia totalmente na confiabilidade do seu meio de armazenamento, você deseja introduzir sua própria redundância com capacidade de reparo.

Uma maneira bruta e rápida de fazer isso é simplesmente fazer o upload de tudo duas vezes. Você provavelmente não quer fazer isso.

Está envolvido, mas se você dividir seus arquivos em pequenos blocos e criar arquivos "par2" usando uma ferramenta como QuickPar . ( aqui está um tutorial ), então acredito que, se um arquivo estiver faltando, ele poderá ser recuperado. Isso geralmente é usado para aumentar a confiabilidade dos arquivos binários transferidos e "recuperados" através da Usenet (que nunca foi realmente projetado para fazer isso), mas pode ser usado em qualquer lugar que você queira ter esse nível de redundância.

    
por 07.09.2012 / 14:45
0

Existem alternativas ao antigo formato PAR: DVDisaster , DAR e pyFileFixity (que eu desenvolvi). Mas os serviços em nuvem devem ter seu próprio sistema para preservação de dados, é claro, porque com o espaço de armazenamento que eles oferecem, a taxa de corrupção de dados aumenta assustadoramente alta, portanto, em qualquer caso, você deve estar seguro.

    
por 28.12.2016 / 01:15