S.M.A.R.T - Contagem de falhas preditivas


Estou monitorando meu controlador IBM ServeRAID M5015 para status RAID com a MegaCLI, tenho isso em um dos discos:

Enclosure Device ID: 252
Slot Number: 6
Enclosure position: 0
Device Id: 14
Sequence Number: 2
Media Error Count: 32
Other Error Count: 0
Predictive Failure Count: 18
Last Predictive Failure Event Seq Number: 8119
PD Type: SAS
Raw Size: 279.396 GB [0x22ecb25c Sectors]
Non Coerced Size: 278.896 GB [0x22dcb25c Sectors]
Coerced Size: 278.464 GB [0x22cee000 Sectors]
Firmware state: Online, Spun Up
SAS Address(0): 0x5000c50042c319c9
SAS Address(1): 0x0
Connected Port Number: 5(path0)
Inquiry Data: IBM-ESXSST9300653SS     B6336XN04HC10525B633
IBM FRU/CRU: 81Y9671
FDE Capable: Not Capable
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None
Device Speed: 6.0Gb/s
Link Speed: 6.0Gb/s
Media Type: Hard Disk Device
Drive:  Not Certified
Drive Temperature :33 Celsius

O que isso significa exatamente? Não consigo encontrar uma descrição exata, existe uma maneira de ter mais detalhes? O array RAID tem o estado ótimo.

Contagem de erros de mídia: 32

Contagem de falhas preditivas: 18

Existe um caminho através da CLI para ligar o LED frontal para que eu saiba fisicamente qual disco eu preciso substituir?

por Bastien974 21.02.2012 / 17:48

3 respostas


Existem erros no seu disco. S.M.A.R.T. significa Tecnologia de auto-monitoramento, análise e relatórios

Os erros específicos que você mencionou se correlacionam com a degradação mecânica da unidade. Você pode usar esse relatório para obter uma substituição de garantia da IBM. A unidade eventualmente falhará.

por 21.02.2012 / 18:06

De um documento da Seagate:

Predictive failures

S.M.A.R.T. signals predictive failures when the drive is performing unacceptably for a period of time. The firmware keeps a running count of the number of times the error rate for each attribute is unacceptable. To accomplish this, a counter is incremented each time the error rate is unacceptable and decremented (not to exceed zero) whenever the error rate is acceptable. If the counter continually increments such that it reaches the predictive threshold, a predictive failure is signaled. This counter is referred to as the Failure

History Counter. There is a separate Failure History Counter for each attribute.

Aqui está para localizar o disco defeituoso:

MegaCli -PdLocate -start -physdrv\[E:S] -aA
  • E: Enclosure
  • S: Slot
  • A: adaptador
por 21.02.2012 / 19:28

A unidade está falhando fisicamente neste momento. A coisa mais importante para se preocupar agora é ter um bom backup de seus dados e um plano para obter essa unidade substituída o mais rápido possível.

por 21.02.2012 / 18:13