Como interpreto os resultados do HDD S.M.A.R.T?

53

Meu laptop começou a se tornar pouco confiável e, por algum motivo, comecei a suspeitar que meu disco rígido estava começando a falhar. Depois de um pouco de caça na internet, encontrei o Utilitário de Disco do Ubuntu no menu Sistema e executei os longos diagnósticos da SMART a partir disso.

No entanto, como a documentação do Utilitário de Disco é muito ruim ( palimpsest ?), não sei como interpretar os resultados:

Por exemplo, a Taxa de erros de leitura é superior a 50 milhões (!), mas a Avaliação é classificada como "Boa".

Então, alguém se importaria de me explicar como interpretar os resultados desses testes (especialmente os números Normalizado, Pior, Limiar e Valor)? E talvez me diga o que eles acham dos resultados que obtive para o meu disco rígido? (Obrigado)

    
por Marty 07.01.2011 / 00:46

3 respostas

45

Você tem uma boa descrição de como a SMART funciona na wikipedia . Mas uma introdução rápida:

  • Valor: este é o valor bruto que o controlador reporta. Normalmente, é fácil entender o valor (como o poder em horas ou a temperatura), mas às vezes não é (como a taxa de erro de leitura). Diferentes fabricantes podem usar diferentes estruturas e significados para esses dados.

  • Normalizado: Este é o valor acima normalizado para que um valor mais alto seja sempre melhor. Portanto, um 114 em taxas de leitura / erro é melhor que 113. Novamente, como seu disco rígido converte dados brutos em valores normalizados é específico do fornecedor.

  • Pior: O pior valor normalizado que sua unidade teve no passado (em que 99 é provavelmente a configuração de fábrica).

  • Limite: Quando o valor normalizado é menor do que esse valor, é provável que a unidade falhe.

Então, o seu disco rígido parece estar ok. O valor da taxa de erro de leitura não é o tempo que sua unidade falhou, mas alguma estrutura de dados que depende do fabricante do disco.

    
por Javier Rivera 07.01.2011 / 09:38
21

Sim, geralmente o valor bruto da taxa de erro de leitura é um absurdo. Os valores que você deseja monitorar são a contagem de setor realocada, contagem pendente e offline incorrigível. Essas são a contagem de setores defeituosos que foram, estão esperando para serem ou não podem ser corrigidos, e os valores brutos geralmente fazem sentido e são a contagem de setores.

Se a leitura de um setor falhar, ficará pendente. Na próxima vez que você tentar gravar nesse setor, a unidade tentará reescrevê-lo e, se isso funcionar, tudo voltará ao normal. Se não for possível escrever corretamente o setor, ele realocará o setor do pool sobressalente. Se ele não puder fazer isso (talvez já tenha usado o pool sobressalente?), Ele se tornará offline_uncorrectable e tentará ler ou gravar nele apenas erros.

    
por psusi 07.01.2011 / 16:46
8
psusi prega isto.

Se você ler as folhas de dados (white papers), diga em seagate.com você verá como os HDDs são feitos, testados e como eles realmente funcionam. Não há HDD perfeito, nunca foi, nunca será, (história e fato). Nos velhos tempos, tivemos que inserir os setores defeituosos no controlador do HDD a partir de uma lista em papel que veio na nova caixa da unidade, para que o controlador os ignore.

As unidades modernas têm correção de erros. Desde o primeiro dia, os setores são ruins.

Então, eles os mapeiam, isso significa que o disco pula setores defeituosos. Na verdade, eles são "logicamente trocados" - o setor defeituoso é mapeado para um novo e bom setor de cilindros sobressalentes (ele tem cilindros de reserva - pense em cilindros como pistas). Isso tudo é transparente para o mundo externo - exceto pelo utilitário SMART.

Cada fabricante pode fazer o que quiser, então alguns definem as contagens de erro como zero, mesmo que haja 10 setores defeituosos assim que a unidade for fabricada.

Existe uma regra de 3 vezes no firmware da unidade - ele lê um setor 3 vezes e, se todas as 3 vezes for ruim, pode fazer uma "recalibragem" na hora e ler mais 3 vezes. Se a unidade ainda não estiver ok, mapeará esse setor para um dos setores sobressalentes. Isso é profundo no firmware, mas acontece continuamente em segundo plano, tudo transparente para o usuário.

Se o fabricante decidir relatar erros brutos sempre que houver 3 leituras ruins ou após a calibragem ser feita por eles. Então, como ele diz acima, não é importante a menos que você tenha muitos impulsos do mesmo tipo e veja algumas tendências estranhas.

Ponto 2: todos os HDD têm erros de leitura naturais, você também pode aprender isso na Seagate, se quiser. mas todos eles têm erros na hora. e são lidos novamente e geralmente passam o teste para erros de CRC. se não, o DRIVE tenta trocá-lo. se você executar o disco legal, ele durará muito tempo e você nunca ficará sem cilindros sobressalentes. mas olhe para isso como psusi diz a você!

Estou digitando isso, em um PC antigo, executando um dos primeiros HDs de 1GB já feitos. e ainda é bom. (im backup) (sem falta de refrigeração nunca ...) calor é o assassino # 1 e surtos de energia, eu corro um no-break. Felicidades e bom dia. Eu espero que isso ajude.  (já vi um disco rígido DatA General crash? e encher a sala com grandes quantidades de lã de alumínio, pistas encaracoladas? muito divertido naquela época ... nunca um momento de tédio ....

    
por jtgh 15.04.2014 / 17:21