Como interpreto dados SMART para discos SAS?

2

Estou no processo de substituir alguns discos SATA com falha por novos discos SAS. A matriz de raid da qual um dos discos com falha faz parte está em processo de resilvering. À medida que isso avança, posso ver a taxa de correção de erros de gravação no disco novo lenta, mas aumentada de forma constante. Esta é minha primeira exposição ao hardware SAS, e não estou familiarizado com a saída smartctl, já que estou acostumado com a grande tabela que os discos SATA produzem.

O disco é um HGST Ultrastar de 2 TB, conectado por meio de um IBM M1015 HBA, no modo de passagem.

Como exatamente devo interpretar os dados SMART abaixo? A crescente taxa de erro corrigida deve me preocupar? E quanto ao campo Invocações de Algoritmos de Correção?

  Device: HITACHI  HUS723020ALS640  Version: A222
Serial number:         xxxxxxxx
Device type: disk
Transport protocol: SAS
Local Time is: Thu Jul 11 15:42:30 2013 MDT
Device supports SMART and is Enabled
Temperature Warning Enabled
SMART Health Status: OK

Current Drive Temperature:     44 C
Drive Trip Temperature:        85 C
Manufactured in week 29 of year 2012
Recommended maximum start stop count:  50000 times
Current start stop count:      2 times
Elements in grown defect list: 0
Vendor (Seagate) cache information
  Blocks sent to initiator = 149833037905920

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:          0        0         0         0          6          0.565           0
write:         0      400         0       400         51       1034.246           0
verify:        0        0         0         0         37          0.000           0

Non-medium error count:        0
    
por Jeff Shattock 12.07.2013 / 02:04

1 resposta

3

Erros atrasados são erros que retardam outras solicitações. Os erros corrigidos do ECC não são uma grande preocupação em unidades SCSI / SAS, temos unidades implantadas com centenas de milhões delas e elas ainda funcionam bem. As invocações de algoritmo de correção são um pouco mais sérias, elas podem exigir a releitura / regravação do disco e a repetição do cálculo de ECC.

É difícil dizer se o número de erros que você tem é preocupante ou não. Não existe um padrão, cada fabricante tem o seu próprio e o mantém proprietário. Normalmente você pode baixar um utilitário no site do fabricante para obter informações adicionais.

Para Hitachi o link é: link

Você pode ler mais sobre os diferentes erros aqui: link

    
por 12.09.2013 / 21:36