Detectando corrupção de dados, por isso não estamos fazendo backup de arquivos corrompidos

3

Estou pensando em integridade de dados, atualmente faço backup de cerca de 2 TB de dados e sempre tenho um backup de dados de um ano atrás.

Minha preocupação é que, se um arquivo se tornar corrompido em nosso servidor de arquivos de produção, ninguém notaria, porque alguns arquivos não são acessados por muitos anos e, se houvesse corrupção, eu estaria fazendo o backup de um arquivo corrompido.

Não sei como devo lidar com esse problema. Existe uma maneira de detectar a corrupção de dados? Ou é a única solução para armazenar backups mais antigos no caso de algo ficar corrompido e não ser percebido?

    
por Sean Bannister 20.02.2012 / 05:38

2 respostas

7

Na minha experiência, cada tipo de arquivo precisa de suas próprias verificações para determinar se algo está de fato corrompido. Os dados são apenas pontos e traços em seu núcleo, e o que determina "corrupção" é totalmente dependente de arquivos. Você precisará determinar quais tipos de arquivos são mais importantes e, em seguida, determinar se é razoavelmente possível criar automação que verifique a consistência do tipo de arquivo. Essa será uma tarefa difícil, já que as especificações do tipo de arquivo mudam com o tempo e você encontra formatos proprietários que não têm uma maneira fácil de determinar a corrupção de maneira programática.

Além disso, a corrupção de dados é apenas uma parte do problema. Às vezes, os arquivos podem estar errados de uma perspectiva humana, mas consistentes de uma perspectiva da estrutura de dados. Se alguém edita por engano um arquivo - os dados estão bem do ponto de vista da corrupção.

Em última análise, você precisa se sentar com a liderança do negócio e determinar quais são os ativos de dados mais importantes para a empresa. Em seguida, determine por quanto tempo esses itens precisam ser retidos e com que nível de recall. Eles querem uma recuperação point-in-time bem granulada para quatro anos no passado? Talvez apenas para determinados arquivos, mas não para outros?

Considerando que você só tem 2 TB para backup, um esquema de backup de fita GFS usando cartuchos LTO4 pode permitir que você alcance muitos anos com relativamente poucas fitas. Isto é, obviamente, totalmente dependente da rotatividade de dados. Se você tem muitos bits ocupados, então você terá mais fitas. Ainda assim, 2TB é uma partícula relativa que o LTO4 ou até mesmo o armazenamento em disco de commodity bocejaria para manter alguns anos de dados.

Não é uma tarefa fácil proteger ativos digitais. Mantenha os Tums à mão.

    
por 20.02.2012 / 05:50
3

Esta é uma das razões pelas quais o ZFS é tão grande que não há mais corrupção de dados . O compartilhamento de sistemas de arquivos ZFS no CIFS é bastante simples.

    
por 20.02.2012 / 12:14