SMART me avisa mas eu não confio

Question

SMART me avisa mas eu não confio

#1 resposta do (6 votos)
#2 resposta do (5 votos)
#3 resposta do (4 votos)
#4 resposta do (1 votos)
#5 resposta do (1 votos)
#6 resposta do (1 votos)

6

Eu tenho um servidor com quatro discos rígidos Samsung. Todas as unidades são do mesmo modelo e foram compradas em conjunto. As unidades são SAMSUNG HE753LJ com firmware 1AA01113.

Estou recebendo erros da SMART, mas tenho a sensação de que o smartctl não entende o valor que ele obtém do disco rígido.

Veja o resultado de um teste SMART:

asgard:~# smartctl -H /dev/sdb
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
Failed Attributes:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  3 Spin_Up_Time            0x0007   001   001   011    Pre-fail  Always   FAILING_NOW 60340

Não confio na SMART porque:

Já faz mais de um ano que todos os discos estão prestes a falhar em menos de 24 horas. Nada explodiu ainda.
Wikipedia diz que " Spin-Up Time é o tempo médio de rotação do spindle (de zero RPM a totalmente operacional [millisecs]). " Isso significaria que as unidades precisam de cerca de um minuto para serem reativadas?!

Gostaria de seguir o conselho do smartctl e alterar esses discos, mas não confio nos resultados que li.

O que você acha disso? O que você faria?

Obrigado pela sua ajuda.

hardware monitoring smart linux

por SamK 18.02.2010 / 11:21

6 respostas

6

Eu tinha uma unidade sobressalente que ainda posso inicializar por causa dessa falha. A SMART verifica cada inicialização e exige uma reinicialização por software, há anos, mas é apenas um despejo, não um disco do sistema! Portanto, embora os erros SMART possam persistir por um longo tempo, eles devem SEMPRE ser levados em conta na produção, pois os riscos superam em muito os benefícios de custo, tempo e integridade dos dados. Google estudou 100,00 discos e encontrou :

SMART data (Self-Monitoring, Analysis and Reporting Technology) can be useful in determining whether a drive is going to fail. Up to 30 percent of drives that indicated SMART errors eventually failed, and the probability of crash gets worse and worse the longer an "erroring" drive is left in service. That said, many drives exhibit SMART errors at some point in their lives.

Portanto, nem sempre é um indicador robusto. No entanto, o erro SMART aumenta significativamente a probabilidade de uma falha de disco no tempo imediatamente após a detecção inicial:

Work at Google on over 100,000 drives has shown little overall predictive value of S.M.A.R.T. status as a whole, but suggests that certain sub-categories of information which some S.M.A.R.T. implementations track do correlate with actual failure rates – specifically, in the 60 days following the first scan error on a drive, the drive is, on average, 39 times more likely to fail than it would have been had no such error occurred.

Então, estatisticamente, seu disco provavelmente está OK, já que ultrapassou o limite de 60 dias.

Despite those strong correlations, we find that failure prediction models based on SMART parameters alone are likely to be severely limited in their prediction accuracy, given that a large fraction of our failed drives have shown no SMART error signals whatsoever

Mas você está disposto a continuar assumindo o risco? Eu mudaria o disco o mais rápido possível para evitar ter que acordar cedo.

por 18.02.2010 / 12:51

5

SMART overall-health self-assessment test result: FAILED!

Essa parte não é interpretada pelo smartctl (supondo que eu entendi corretamente, é claro) - essa unidade disse ao smartctl que não está feliz com seu estado atual (por qualquer motivo) e o smartctl está ecoando esse aviso para você. Mesmo que esteja interpretando erroneamente a leitura do tempo de spin-up, não acho que esteja fazendo qualquer interpretação na leitura do "teste de autoavaliação".

Eu sugiro que você mova seus dados para fora dessa unidade o mais rápido possível, de preferência antes dos próximos ciclos de energia, caso o problema seja real e possa piorar.

por 18.02.2010 / 11:53

1

Execute um DST nos discos e substitua-os adequadamente.

por 18.02.2010 / 11:32

1

Eu mudaria os discos imediatamente sem pensar muito sobre isso. Você estaria no lado seguro, os discos são baratos e você vai dormir melhor. Seu tempo gasto para diagnosticar os discos provavelmente vale mais do que os próprios discos.

por 18.02.2010 / 11:36

1

Certifique-se de ter a última cópia dos utilitários inteligentes, não apenas os incluídos no seu sistema operacional. Os utilitários inteligentes são atualizados com frequência e alguns dos erros relatados por unidades específicas são resolvidos.

O estudo do Google foi muito informativo. 30% do disco com erros SMART eventualmente falham. Isso não é probabilidades que eu seria vontade de lidar. Isso significa 9% de chance de que dois discos falhem e seu RAID nesse ponto seja destruído.

Eu tive problemas parecidos com alguns discos da Seagate alguns anos atrás. Nós compramos cerca de 8 discos ao mesmo tempo e todos eles eram do mesmo lote. Cerca de 3 anos, uma unidade foi. 18 horas depois, outra unidade foi, 24 horas depois, uma terceira unidade foi.

por 18.02.2010 / 13:40

Tags hardware monitoring smart linux

O que são opções de armazenamento externo SAS (Promise, Infortrend, SuperMircro,…)? Equivalente ao openSuse “zypper ps” em outras distros?

score 4 · Accepted Answer

All drives are the same model and have been bought together.

Esta é uma bomba-relógio.

Com base na mensagem da SMART e na citação acima, você deve alterar os discos imediatamente.

Como os discos foram comprados juntos e são do mesmo modelo, eles provavelmente terão os mesmos pontos fracos, e provavelmente todos falharão simultaneamente sob a mesma condição ...

O conceito principal do RAID é que os discos falham em momentos diferentes, dando a você a oportunidade de trocar um disco de cada vez e evitar a perda de dados.

Outros relataram falha simultânea de uma matriz inteira de discos idênticos em uma configuração RAID, proveniente do mesmo lote de produção e, portanto, sujeitos à mesma fraqueza.

Eu não posso enfatizar isso o suficiente: você precisa começar a trocar suas unidades!