Quão confiável são os dados HDD SMART?

6

Com base nos dados SMART , você pode avaliar a integridade de um disco, pelo menos essa é a ideia. Se eu, por exemplo, executar sudo smartctl -H /dev/sda no meu laptop ArchLinux, ele diz que o disco rígido passou nos autotestes e que deve ser "saudável" com base nisso.

Minha pergunta é como essa informação é confiável ou, mais especificamente:

  • Se, de acordo com os dados SMART, este disco estiver em bom estado, quais são as probabilidades de o disco falhar de repente apesar de isto? Isso pressupõe que a falha não se deve a algum evento catastrófico que poderia ter sido previsto de maneira impossível, como o laptop caindo no chão, fazendo com que os cabeçotes da unidade atingissem o disco.
  • Se os dados do SMART não dizem que o disco está em boa forma, quais são as chances de o disco falhar dentro de algum tempo? É possível que haja falsos positivos e quão comuns são estes?

Claro, eu mantenho backups, não importa o quê. Eu sou principalmente curioso.

    
por andahlst 30.06.2013 / 17:53

4 respostas

8

Na minha experiência (20 anos em servidores operacionais, deve ter lidado com cerca de 5.000 discos em todos os servidores que eu lidei) o SMART é útil, mas não é uma panacéia.

Se você receber erros do SMART, substitua o disco o mais rápido possível. As chances são muito altas que, com 4-8 semanas, o disco terá sérios problemas. (O estudo do Google mencionado com freqüência a esse respeito se correlaciona muito bem com minha experiência pessoal.) Normalmente você tem uma semana ou 2 antes que o disco se torne realmente problemático.

Se você não receber nenhum erro SMART, o disco ainda poderá falhar sem qualquer aviso, embora isso seja muito raro nos servidores. Eu vejo pode ser 3 ou 4 casos por ano. Enquanto substituímos unidades por causa de erros SMART em cerca de 25 / mês.
Isso pode fazer com que os discos do servidor geralmente façam parte de um array de raid e vejam um padrão contínuo de leitura / gravação em todo o disco. Isso faz com que cada parte do disco seja "exercitada" (e verificada) regularmente.
A maior chance de falha de um disco (sem aviso prévio) está na inicialização se um servidor tiver sido substituído por algum tempo após ter sido executado continuamente por meses / anos.

Em equipamentos de consumo (sem servidor, notebook / desktop), tenho visto muitos discos com erros de leitura que, de alguma forma, não acabam em dados SMART, mesmo que o Windows registre esses erros no log de eventos. (A SMART registrou apenas depois de um chkdsk completo do Windows.)
Isso me leva a acreditar que, em muitos discos de consumo, os limites do SMART são muito baixos. Isso pode ser intencional para manter os números de RMA baixos neste negócio feroz. Muitos consumidores não notarão o bloqueio ocasional ocasional até que seja tarde demais. (Quantos consumidores sabem onde encontrar o log de eventos? Esse é o único lugar onde você pode ver erros de disco no Windows.) Na minha experiência, se um disco do consumidor tiver problemas (SMART ou outro), copie seus dados e substitua-os imediatamente. No momento em que dá esses erros já está morto.

    
por 01.07.2013 / 09:35
2

É bastante confiável, mas não abrange todos os tipos de modos de falha que uma unidade pode ter.

Usar alguma forma de RAID ajudará a proteger você em um número maior de cenários.

Eu diria que em todos os meus servidores, apenas 20% das minhas falhas de disco são resultado de S.M.A.R.T. dados.

O modo como os servidores da HP apresentam essa informação faz parecer que há várias métricas usadas para determinar a integridade do disco e o status da falha.

    
por 30.06.2013 / 18:03
1

Há um artigo sobre um estudo feito em HDDs usado no Google que está disponível em link que essencialmente conclui que

Our results confirm the findings of previous smaller population studies that suggest that some of the SMART parameters are well-correlated with higher failure robabilities. We find, for example, that after their first scan error, drives are 39 times more likely to fail within 60 days than drives with no such errors. First errors in reallocations, offline reallocations, and probational counts are also strongly correlated to higher failure probabilities. Despite those strong correlations, we find that failure prediction models based on SMART parameters alone are likely to be severely limited in their prediction accuracy, given that a large fraction of our failed drives have shown no SMART error signals whatsoever.

Já foram realizados outros estudos que também concluíram que os dados do SMART são úteis, mas têm suas limitações para prever falhas de unidade.

Minha experiência pessoal é que o status geral inteligente aguarda muitos erros antes de marcar a unidade como ruim. Os parâmetros individuais são úteis e alguns são terríveis avisos de falhas imanentes no primeiro erro, mas nem todos são provas conclusivas de que um disco está ruim ou está indo mal em breve. Leia o link . para uma descrição dos atributos mais comuns.

Embora se o status geral do SMART for ruim, o disco está definitivamente ruim.

Em um RAID que possui discos redundantes, se eu executar 2 verificações de consistência e correções seguidas e encontrar erros no segundo passe, não irei mais usar esse HDD e tentar uma substituição de garantia. Meu raciocínio é que a 1ª passagem encontra e corrige quaisquer inconsistências e a 2ª passagem deve voltar limpa. Se isso não acontecer, significa que o HDD não pode armazenar dados mesmo nessas poucas horas.

    
por 01.07.2013 / 04:52
0

O monitoramento das informações do SMART é uma boa maneira de saber se um disco está "indo mal", mas eu não o usaria para garantir que o disco esteja em bom estado (conteste o verbage dos relatórios). Um problema com o SMART é que ele só informa quando um disco teve um problema no passado. Isso pode ajudá-lo a determinar se um disco vai morrer em você e permitir que você substitua o disco se um limite for atingido. Os discos podem ter falhas mecânicas catastróficas sem problemas anteriores. Existem muitos casos em que um disco falhará, mesmo que os testes SMART nunca tenham mostrado nenhum problema (ou marcado como passando). Por isso, sempre uso o teste SMART como uma visão do histórico do disco para fazer uma troca de disco preventiva antes que haja um problema, não como uma maneira de saber se um disco é bom.

Além disso, perguntar como é "confiável" o teste SMART: se você usar a pontuação geral de integridade, receberá uma média que não será tão "confiável" quanto analisar manualmente os componentes individuais do teste e decidir por si mesmo quais ações precisam ser tomadas. Por exemplo, tive muitos discos que retornam um teste SMART saudável, mas, após uma inspeção mais aprofundada, podemos ver que eles tiveram disparadores de calor excessivos no teste SMART, não o suficiente para marcá-los como informações ruins, mas suficientes para me dizer que: a) o disco ficou quente no passado b) se o disco ainda estiver no mesmo sistema, então talvez eu deva fazer algo sobre isso.

O ponto crucial é que, sempre que você contar com um relatório automatizado para fornecer informações "confiáveis", estará se abrindo à possibilidade de obter informações incorretas.

    
por 01.07.2013 / 07:58