Erros de HDD ao construir o Software-RAID5

1

Eu quero construir meu novo NAS com o CentOS 6 ou o Scientific Linux 6, mas não sou capaz de criar o RAID5. Eu criei um novo dispositivo RAID usando o mdadm, mas depois de algumas horas de trabalho, o mdadm marcou um ou dois discos rígidos como falhas e degradou o array. Cada vez que marcava diferentes discos rígidos como falha. Eu tentei no Fedora 13, CentOS 5.5 e Scientific Linux 6.0. Todos os componentes são novos e o S.M.A.R.T. valores não mostram erros.

... after many errors ...
ata6.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
ata6.00: failed command: READ DMA EXT
ata6.00: cmd 25/00:00:ff:2d:5c/00:01:90:00:00/e0 tag 0 dma 131072 in
        res 40/00:14:e7:45:46/00:00:90:00:00/40 Emask 0x4 (timeout)
ata6.00: status: { DRDY }
ata6: hard resetting link
ata6: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata6.00: configured for UDMA/133
sd 6:0:0:0: [sdd] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
sd 6:0:0:0: [sdd] Sense Key : Aborted Command [current] [descriptor]
Descriptor sense data with sense descriptors (in hex):
       72 0b 00 00 00 00 00 0c 00 0a 80 00 00 00 00 00 
       00 00 00 e6 
sd 6:0:0:0: [sdd] Add. Sense: No additional sense information
sd 6:0:0:0: [sdd] CDB: Read(10): 28 00 90 5c 2d ff 00 01 00 00
end_request: I/O error, dev sdd, sector 2421960191
raid5:md0: read error not correctable (sector 2421960128 on sdd1).
raid5: Disk failure on sdd1, disabling device.
raid5: Operation continuing on 4 devices.
raid5:md0: read error not correctable (sector 2421960136 on sdd1).
...

O que poderia causar esses problemas?

Meu sistema:
Mainboard: Intel DH57JG
CPU: Intel Core i3-540
RAM: Corsair XMS3 2GB DDR3
PSU: Seasonic S12II-330Bronze
Controladores SATA: 4x a bordo, 2x Controlador PCIe com Chipset JMB363
HDDs: 6x Western Digital WD20EARS

O registro da última tentativa: no registro abreviado , log completo

    
por Dani31 26.03.2011 / 00:37

2 respostas

1

Os WD20EARS são os modelos Caviar Green, certo?

Eu me pergunto se eles estão "sendo verdes" e desmoronando após um período de inatividade, fazendo com que o mdadm pense que eles morreram. Isso provavelmente também levaria em conta a saída de unidades diferentes.

Sei que alguns discos rígidos da WD têm problemas em matrizes RAID, porque o firmware faz alguma verificação de erros e não responde rápido o suficiente, então o host considera que ele está com falha. Eu só realmente ouvi falar sobre isso em matrizes RAID de hardware, mas também pode ser aplicável neste cenário.

No final das contas, os discos do consumidor que fazem qualquer tipo de RAID nunca serão perfeitos e sua quilometragem pode variar.

    
por 26.03.2011 / 01:22
0

(Eu sou o mesmo Dani31 como acima, mas eu perdi meu usuário [escreveu a entrada em um live-cd])

Eu li muitas coisas sobre o WD20EARS por causa da resposta de Ben Pilbrow e mudei algumas coisas:

  • eu configurei o tempo de ciclo de carga para 300s com wdidle3
  • e formatou os discos corretamente (com setores 4K) usando fdisk -c -u /dev/sdX

Após essas alterações, o processo de construção foi duas vezes mais rápido, mas falhou novamente. Desta vez, foi a mesma unidade que causou o aborto (eu acho que eram nomes de unidade diferentes porque eu usei diferentes distribuições).

Eu olhei para os logs de kernel e vi muitos erros de leitura, então eu iniciei badblocks nesta unidade e os mesmos erros apareceram nos logs de kernel.

Eu baixei a ferramenta Data Lifeguard Diagnostics da Western Digital e iniciei o Extended Test na unidade. O resultado foi "muitos erros encontrados - substitua a unidade".

Acho que o problema será resolvido depois que eu tiver a minha nova unidade.
Obrigado pela sua ajuda!

    
por 29.03.2011 / 00:13

Tags