Erro de E / S no membro RAID5. O que fazer com os blocos defeituosos?

2

Recentemente, recebi um erro de IO em um dos meus membros do RAID5; em um array de 3 discos fakeRAID. Eu não percebi na época - só havia uma mensagem em /var/log/kern.log - então eu continuei rodando a máquina daquela partição por um bom tempo.

O BIOS / Intel RAID Manager não detectou nenhum problema, mas quando optei por inicializar a partir dessa partição, / estava sendo montado como somente leitura.

Agora estou inicializando de uma partição de recuperação e acabei de executar e2fsck -c -y na partição, que detectou alguns erros, incluindo: "Blocos com várias declarações", "Desdobrado inode", "Inodes gratuitos" conte errado para o grupo #xxx ", etc. Ele também reproduziu o erro de IO em kern.log , então o dmraid degradou o array e agora posso dizer facilmente qual unidade falhou.

Agora, o que fazer com a unidade desonesta? Eu receberei um avanço de RMA, mas isso leva cerca de 5 dias, então, nesse meio tempo, eu preciso de uma máquina de corrida, e um volume RAID5 degradado não é um bom carma!

As mensagens que estou vendo de dmesg são: -

ata3.00: exception Emask 0x10 SAct 0x1 SErr 0x280100 action 0x6 frozen
ata3.00: irq_stat 0x08000000, interface fatal error
ata3: SError: { UnrecovData 10B8B BadCRC }
ata3.00: failed command: READ FPDMA QUEUED
ata3.00: cmd 60/00:00:00:0b:0c/01:00:14:00:00/40 tag 0 ncq 131072 in
         res 40/00:04:00:0b:0c/00:00:14:00:00/40 Emask 0x10 (ATA bus error)
ata3.00: status: { DRDY }
ata3: hard resetting link
ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata3.00: configured for UDMA/133
sd 2:0:0:0: [sdb]
Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
sd 2:0:0:0: [sdb]
Sense Key : Aborted Command [current] [descriptor]
Descriptor sense data with sense descriptors (in hex):
        72 0b 00 00 00 00 00 0c 00 0a 80 00 00 00 00 00
        14 0c 0b 00
sd 2:0:0:0: [sdb]
Add. Sense: No additional sense information
sd 2:0:0:0: [sdb] CDB:
Read(10): 28 00 14 0c 0b 00 00 01 00 00
end_request: I/O error, dev sdb, sector 336333568
ata3: EH complete
device-mapper: dm-raid45: CRITICAL: io error on device /dev/sdb in region=336329728; DEGRADING RAID set
device-mapper: dm-raid45: further device error messages suppressed

Estou certo em pensar que (dos erros dmesg acima) que apenas algumas regiões da unidade são ruins? Em caso afirmativo, posso continuar a usar a unidade enquanto evito esses blocos ruins? Estou inclinado a formatar a unidade e reconstruí-la, até que uma substituição chegue. Isso é uma má ideia?

Além disso, os testes SMART parecem estar bem em todos os discos RAID ...

    
por Alex Leach 11.12.2012 / 14:29

1 resposta

1

Eu apenas esperaria pelo RMA. Se você tentar reformatar e reconstruir o array, você estará colocando pressão extra nos dois bons discos (provavelmente) sem um bom motivo que seja arriscado. Se for um servidor, deixe o disco lá para o fluxo de ar até que o novo disco chegue.

    
por 12.12.2012 / 04:25

Tags