Informações rápidas: Dell R410 com unidades de 2x500 GB no adaptador RAID1 no H700
Recentemente, uma das unidades na matriz RAID1 no servidor falhou, vamos chamá-la de Unidade 0. O controlador RAID a marcou como falha e a colocou offline. Substitui o disco defeituoso por um novo (a mesma série e fabricante, apenas maior) e configurei o novo disco como hot spare.
Reconstrua a partir da unidade 1 iniciada imediatamente e após 1,5 hora recebi a mensagem de que a unidade 1 falhou. O servidor não estava respondendo (kernel panic) e precisou ser reinicializado. Dado que meia hora antes desta reconstrução do erro foi de cerca de 40%, eu estimei que a nova unidade ainda não está em sincronia e tentei reiniciar apenas com a unidade 1.
O controlador RAID reclamou um pouco sobre a falta de matrizes RAID, mas encontrou um array RAID externo na Unidade 1 e eu o importei. Servidor inicializado e executado (de RAID degradado).
Veja os dados SMART para discos.
Drive 0 (aquele que falhou primeiro)
ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE
1 Raw_Read_Error_Rate POSR-K 200 200 051 - 1
3 Spin_Up_Time POS--K 142 142 021 - 3866
4 Start_Stop_Count -O--CK 100 100 000 - 12
5 Reallocated_Sector_Ct PO--CK 200 200 140 - 0
7 Seek_Error_Rate -OSR-K 200 200 000 - 0
9 Power_On_Hours -O--CK 086 086 000 - 10432
10 Spin_Retry_Count -O--CK 100 253 000 - 0
11 Calibration_Retry_Count -O--CK 100 253 000 - 0
12 Power_Cycle_Count -O--CK 100 100 000 - 11
192 Power-Off_Retract_Count -O--CK 200 200 000 - 10
193 Load_Cycle_Count -O--CK 200 200 000 - 1
194 Temperature_Celsius -O---K 112 106 000 - 31
196 Reallocated_Event_Count -O--CK 200 200 000 - 0
197 Current_Pending_Sector -O--CK 200 200 000 - 0
198 Offline_Uncorrectable ----CK 200 200 000 - 0
199 UDMA_CRC_Error_Count -O--CK 200 200 000 - 0
200 Multi_Zone_Error_Rate ---R-- 200 198 000 - 3
E a unidade 1 (a unidade que foi relatada como saudável do controlador até que a reconstrução tenha sido tentada)
ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE
1 Raw_Read_Error_Rate POSR-K 200 200 051 - 35
3 Spin_Up_Time POS--K 143 143 021 - 3841
4 Start_Stop_Count -O--CK 100 100 000 - 12
5 Reallocated_Sector_Ct PO--CK 200 200 140 - 0
7 Seek_Error_Rate -OSR-K 200 200 000 - 0
9 Power_On_Hours -O--CK 086 086 000 - 10455
10 Spin_Retry_Count -O--CK 100 253 000 - 0
11 Calibration_Retry_Count -O--CK 100 253 000 - 0
12 Power_Cycle_Count -O--CK 100 100 000 - 11
192 Power-Off_Retract_Count -O--CK 200 200 000 - 10
193 Load_Cycle_Count -O--CK 200 200 000 - 1
194 Temperature_Celsius -O---K 114 105 000 - 29
196 Reallocated_Event_Count -O--CK 200 200 000 - 0
197 Current_Pending_Sector -O--CK 200 200 000 - 3
198 Offline_Uncorrectable ----CK 100 253 000 - 0
199 UDMA_CRC_Error_Count -O--CK 200 200 000 - 0
200 Multi_Zone_Error_Rate ---R-- 100 253 000 - 0
Nos logs de erro estendidos do SMART, encontrei:
O Drive 0 tem apenas um erro
Error 1 [0] occurred at disk power-on lifetime: 10282 hours (428 days + 10 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER -- ST COUNT LBA_48 LH LM LL DV DC
-- -- -- == -- == == == -- -- -- -- --
10 -- 51 00 18 00 00 00 6a 24 20 40 00 Error: IDNF at LBA = 0x006a2420 = 6956064
Commands leading to the command that caused the error were:
CR FEATR COUNT LBA_48 LH LM LL DV DC Powered_Up_Time Command/Feature_Name
-- == -- == -- == == == -- -- -- -- -- --------------- --------------------
61 00 60 00 f8 00 00 00 6a 24 20 40 00 17d+20:25:18.105 WRITE FPDMA QUEUED
61 00 18 00 60 00 00 00 6a 24 00 40 00 17d+20:25:18.105 WRITE FPDMA QUEUED
61 00 80 00 58 00 00 00 6a 23 80 40 00 17d+20:25:18.105 WRITE FPDMA QUEUED
61 00 68 00 50 00 00 00 6a 23 18 40 00 17d+20:25:18.105 WRITE FPDMA QUEUED
61 00 10 00 10 00 00 00 6a 23 00 40 00 17d+20:25:18.104 WRITE FPDMA QUEUED
Mas a unidade 1 tem 883 erros. Eu vejo apenas alguns últimos e todos os erros que eu posso ver são assim:
Error 883 [18] occurred at disk power-on lifetime: 10454 hours (435 days + 14 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER -- ST COUNT LBA_48 LH LM LL DV DC
-- -- -- == -- == == == -- -- -- -- --
01 -- 51 00 80 00 00 39 97 19 c2 40 00 Error: AMNF at LBA = 0x399719c2 = 966203842
Commands leading to the command that caused the error were:
CR FEATR COUNT LBA_48 LH LM LL DV DC Powered_Up_Time Command/Feature_Name
-- == -- == -- == == == -- -- -- -- -- --------------- --------------------
60 00 80 00 00 00 00 39 97 19 80 40 00 1d+00:25:57.802 READ FPDMA QUEUED
2f 00 00 00 01 00 00 00 00 00 10 40 00 1d+00:25:57.779 READ LOG EXT
60 00 80 00 00 00 00 39 97 19 80 40 00 1d+00:25:55.704 READ FPDMA QUEUED
2f 00 00 00 01 00 00 00 00 00 10 40 00 1d+00:25:55.681 READ LOG EXT
60 00 80 00 00 00 00 39 97 19 80 40 00 1d+00:25:53.606 READ FPDMA QUEUED
Com esses erros, existe alguma maneira de reconstruir o RAID, ou devo fazer backup, desligar o servidor, substituir discos por novos e restaurá-lo? O que acontece se eu dd disco defeituoso para um novo do Linux em execução em USB / CD?
Além disso, se alguém tiver mais experiências, quais poderiam ser as causas desses erros? Controlador de baixa qualidade ou discos? Os discos têm cerca de 1 ano de idade, mas é inacreditável para mim que ambos morram em tão pouco tempo.