Eu tenho recebido algumas falhas de RAID5 por algum tempo quando estou sob carga pesada. Eu sempre fui capaz de forçar a remontagem da matriz após uma reinicialização, e a contagem de eventos entre os discos perdidos e o não descartado é sempre menor que 20.
Após algumas investigações, acho que percebi que o problema não está no próprio disco (eles geralmente aparecem juntos ao mesmo tempo), mas no controlador.
Aqui está uma extração do log dmesg quando isso acontece (nesse caso, isso aconteceu enquanto forçava uma checagem na matriz): link
Depois de ter falhado assim, ambas as unidades / dev / sde e / dev / sdf parecem estar inacessíveis, como um smartctl -a / dev / sde desiste disto:
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-37-generic] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net
Vendor: /5:0:0:0
Product:
User Capacity: 600,332,565,813,390,450 bytes [600 PB]
Logical block size: 774843950 bytes
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
Mesmo que um disco de 600PB seja legal, ele é de apenas 1,5 TB.
Eu tenho 3 dos discos RAID que estão conectados às portas ATA na placa-mãe, e 2 discos estão conectados em um controlador ATA externo (PCIex). Das falhas no log, tenho motivos para acreditar que é o controlador que tem problemas.
O que eu poderia fazer para corrigir isso? Alterar cabos ATA? Alterar algumas configurações? Sou bem novo no linux.
Dados do smartctl:
Model Family: Western Digital Caviar Green (Adv. Format)
Device Model: WDC WD15EARS-00MVWB0
Serial Number: WD-WMAZA2091111
LU WWN Device Id: 5 0014ee 6ab49271f
Firmware Version: 51.0AB51
sdf mostra essas estatísticas:
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 171 169 051 Pre-fail Always - 34595
3 Spin_Up_Time 0x0027 253 253 021 Pre-fail Always - 1016
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 78
5 Reallocated_Sector_Ct 0x0033 162 162 140 Pre-fail Always - 735
7 Seek_Error_Rate 0x002e 200 199 000 Old_age Always - 0
9 Power_On_Hours 0x0032 070 070 000 Old_age Always - 22178
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 76
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 43
193 Load_Cycle_Count 0x0032 199 199 000 Old_age Always - 3415
194 Temperature_Celsius 0x0022 118 110 000 Old_age Always - 32
196 Reallocated_Event_Count 0x0032 001 001 000 Old_age Always - 691
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 6
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 2
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 199 189 000 Old_age Offline - 319
Enquanto o sde não mostra quaisquer realocações ou erros de leitura:
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 253 253 021 Pre-fail Always - 925
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 73
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 070 070 000 Old_age Always - 22178
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 71
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 38
193 Load_Cycle_Count 0x0032 199 199 000 Old_age Always - 3378
194 Temperature_Celsius 0x0022 114 106 000 Old_age Always - 36
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
Os discos são realmente verdes, não acho que seria um problema quando eu os comprei.
O que parece estranho para mim é que, sob carga, normalmente ambos os discos saem do array. O disco defeituoso poderia de alguma forma "entrar em cascata" para o outro no mesmo controlador ATA?
De qualquer forma, acho que tenho que comprar pelo menos uma nova unidade.
Editar:
engraçado que eu disse geralmente ambas as unidades morrem ao mesmo tempo; depois de verificar esta manhã eu só percebi apenas sdf derrubado da matriz, e tem sido há algum tempo, como a diferença de contagem ainda é de cerca de 4000. Nesse caso, suponho que não faz sentido tentar adicioná-lo de volta para a matriz, eu precisa encontrar um sobressalente rapidamente.