Os discos rígidos possuem vários métodos de correção de erros para evitar a corrupção de dados. Os discos rígidos são divididos em setores, dos quais alguns podem se tornar completamente não graváveis / ilegíveis ou retornar dados errados por meio da corrupção de dados - vamos chamar a primeira corrupção do setor ruim e a última corrupção silenciosa de dados .
Corrupção do setor inválida
A primeira corrupção já é tratada pelo próprio drive através de uma infinidade de maneiras. Na fábrica, cada unidade fabricada é testada para setores defeituosos, que são colocados em uma Lista de Defeitos Primários (p-list) . Durante o uso normal do drive, os sistemas internos podem encontrar mais setores defeituosos através do desgaste normal - estes são colocados na Grown Defect List (g-list) . Algumas unidades têm ainda mais listas, mas estas são as mais comuns.
O próprio drive contesta esses erros ao remapear o acesso aos setores dos discos rígidos para sobressalentes setores sem notificar o sistema operacional. No entanto, toda vez que um remapeamento acontece, os valores apropriados no sistema SMART dos discos rígidos são aumentados, indicando um desgaste crescente do disco rígido. O indicador a ser procurado é SMART 5 - Contagem de setores realocados, enquanto outros importantes são 187 (erros não corrigidos relatados), 197 (contagem de setor pendente atual) e 198 (incorrigível off-line).
Para encontrar setores defeituosos, os discos rígidos usam códigos internos de correção de erros (ECC) , que podem ser usados para determinar a integridade dos dados em um setor específico. Dessa forma, ele pode verificar erros de gravação e leitura em um setor e atualizar a lista g, se necessário.
Fontes
Corrupção silenciosa de dados
Como temos bastante verificação de integridade de dados interna, a corrupção silenciosa de dados deve ser muito rara - afinal, como os discos rígidos têm a tarefa de persistir dados com segurança, eles devem fazer isso trabalho corretamente.
Para manter a quantidade de corrupção de dados silenciosa fora de um usuário solicitado ler ou escrever mínimo, os sistemas RAID periodicamente verificam os ECCs das unidades completas para atualizar a lista-g ( depuração de dados ). Se ocorrer um erro, os dados são reconstruídos a partir de outro membro do RAID após a verificação dos setores ECC.
No entanto, toda a correção de dados e verificação de integridade deve ser feita em algum lugar - o firmware. Erros nesses programas de baixo nível ainda podem levar a problemas, assim como problemas mecânicos e falsos positivos. Um exemplo seria uma gravação não verificada, em que o firmware relata erroneamente uma gravação bem-sucedida, enquanto a gravação real da unidade de disco rígido não ocorreu ou estava com falha (uma discrepância de identidade ).
Existem alguns estudos sobre a ocorrência estatística dessas falhas, em que uma verificação de integridade de dados do sistema de arquivos relatou uma falha sem que a unidade subjacente relatasse um problema, mostrando assim uma corrupção de dados silenciosa.
TLDR : menos de 0,3% em discos de consumo e menos de 0,02% em discos corporativos continham em média discrepâncias de identidade em um período de 17 meses, com 1,5 milhão de discos verificados (365 discos no total tinham discrepâncias de identidade) - veja a Tabela 10 e a Seção 5 em esta publicação .
Fontes