Recentemente, recebi um erro de IO em um dos meus membros do RAID5; em um array de 3 discos fakeRAID. Eu não percebi na época - só havia uma mensagem em /var/log/kern.log
- então eu continuei rodando a máquina daquela partição por um bom tempo.
O BIOS / Intel RAID Manager não detectou nenhum problema, mas quando optei por inicializar a partir dessa partição, /
estava sendo montado como somente leitura.
Agora estou inicializando de uma partição de recuperação e acabei de executar e2fsck -c -y
na partição, que detectou alguns erros, incluindo: "Blocos com várias declarações", "Desdobrado inode", "Inodes gratuitos" conte errado para o grupo #xxx ", etc. Ele também reproduziu o erro de IO em kern.log
, então o dmraid degradou o array e agora posso dizer facilmente qual unidade falhou.
Agora, o que fazer com a unidade desonesta? Eu receberei um avanço de RMA, mas isso leva cerca de 5 dias, então, nesse meio tempo, eu preciso de uma máquina de corrida, e um volume RAID5 degradado não é um bom carma!
As mensagens que estou vendo de dmesg
são: -
ata3.00: exception Emask 0x10 SAct 0x1 SErr 0x280100 action 0x6 frozen
ata3.00: irq_stat 0x08000000, interface fatal error
ata3: SError: { UnrecovData 10B8B BadCRC }
ata3.00: failed command: READ FPDMA QUEUED
ata3.00: cmd 60/00:00:00:0b:0c/01:00:14:00:00/40 tag 0 ncq 131072 in
res 40/00:04:00:0b:0c/00:00:14:00:00/40 Emask 0x10 (ATA bus error)
ata3.00: status: { DRDY }
ata3: hard resetting link
ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata3.00: configured for UDMA/133
sd 2:0:0:0: [sdb]
Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
sd 2:0:0:0: [sdb]
Sense Key : Aborted Command [current] [descriptor]
Descriptor sense data with sense descriptors (in hex):
72 0b 00 00 00 00 00 0c 00 0a 80 00 00 00 00 00
14 0c 0b 00
sd 2:0:0:0: [sdb]
Add. Sense: No additional sense information
sd 2:0:0:0: [sdb] CDB:
Read(10): 28 00 14 0c 0b 00 00 01 00 00
end_request: I/O error, dev sdb, sector 336333568
ata3: EH complete
device-mapper: dm-raid45: CRITICAL: io error on device /dev/sdb in region=336329728; DEGRADING RAID set
device-mapper: dm-raid45: further device error messages suppressed
Estou certo em pensar que (dos erros dmesg
acima) que apenas algumas regiões da unidade são ruins? Em caso afirmativo, posso continuar a usar a unidade enquanto evito esses blocos ruins? Estou inclinado a formatar a unidade e reconstruí-la, até que uma substituição chegue. Isso é uma má ideia?
Além disso, os testes SMART parecem estar bem em todos os discos RAID ...