Na minha experiência, cada tipo de arquivo precisa de suas próprias verificações para determinar se algo está de fato corrompido. Os dados são apenas pontos e traços em seu núcleo, e o que determina "corrupção" é totalmente dependente de arquivos. Você precisará determinar quais tipos de arquivos são mais importantes e, em seguida, determinar se é razoavelmente possível criar automação que verifique a consistência do tipo de arquivo. Essa será uma tarefa difícil, já que as especificações do tipo de arquivo mudam com o tempo e você encontra formatos proprietários que não têm uma maneira fácil de determinar a corrupção de maneira programática.
Além disso, a corrupção de dados é apenas uma parte do problema. Às vezes, os arquivos podem estar errados de uma perspectiva humana, mas consistentes de uma perspectiva da estrutura de dados. Se alguém edita por engano um arquivo - os dados estão bem do ponto de vista da corrupção.
Em última análise, você precisa se sentar com a liderança do negócio e determinar quais são os ativos de dados mais importantes para a empresa. Em seguida, determine por quanto tempo esses itens precisam ser retidos e com que nível de recall. Eles querem uma recuperação point-in-time bem granulada para quatro anos no passado? Talvez apenas para determinados arquivos, mas não para outros?Considerando que você só tem 2 TB para backup, um esquema de backup de fita GFS usando cartuchos LTO4 pode permitir que você alcance muitos anos com relativamente poucas fitas. Isto é, obviamente, totalmente dependente da rotatividade de dados. Se você tem muitos bits ocupados, então você terá mais fitas. Ainda assim, 2TB é uma partícula relativa que o LTO4 ou até mesmo o armazenamento em disco de commodity bocejaria para manter alguns anos de dados.
Não é uma tarefa fácil proteger ativos digitais. Mantenha os Tums à mão.