Por que um volume RAID-0 falha aleatoriamente com unidades saudáveis?

3

Eu tive um par de 5 anos de garantia WD Velociraptors hardware retirado em um controlador de placa-mãe intel ICH8R por cerca de 1,5 anos.

No outro dia, o volume falhou aleatoriamente durante nenhuma atividade específica e o BIOS do RAID indicou que uma das unidades falhou.

Fiz diagnósticos extensivos com o Spinrite e o WD Diag em cada unidade e eles não detectaram problemas de superfície, nenhum erro de setor e nenhum aviso SMART.

Em seguida, recriou o volume com as mesmas unidades, restaurou a partir do backup e está funcionando bem por duas semanas sem problemas.

O que aconteceu?

As minhas unidades estão bem? Pode haver algo insalubre com uma das minhas unidades que os diags não estão pegando?

    
por Matias Nino 20.08.2009 / 17:25

3 respostas

3

Você se deparou com o pior problema com arrays de distribuição apenas. O RAID0 é completamente implacável com qualquer interrupção de IO. Se alguma unidade bobbles você precisará reconstruir a matriz a partir do zero. É por isso que quase sempre RAID nível 1 ou superior.

Muitas coisas podem fazer com que uma unidade tenha problemas temporários de E / S: flutuações de energia, aquecimento, vibração e conexões sujas são apenas algumas. A poeira no sistema pode se acumular e causar problemas de fluxo de ar e acúmulo de calor. A poeira também pode funcionar em conexões.
Você pode querer limpar o interior da sua máquina para remover a poeira e lama que acumulam e re-assentam todas as conexões da unidade. Meça a temperatura interna, não apenas na placa do sistema, mas perto ou entre as unidades. Adicione fluxo de ar se a temperatura estiver muito quente. Isso deve resolver o calor e as conexões sujas como um problema.

Os problemas de energia são um animal diferente todos juntos. Se você tem energia e filtragem adequadas, isso não deve ser um problema. Se você estiver pendurando a máquina fora da rede elétrica sem qualquer tipo de condicionamento de linha ou UPS, você está apenas pedindo por problemas.

    
por 20.08.2009 / 17:48
2

Ocasionalmente, eu vi drives / RAID controllers saírem da unidade simplesmente porque eles não responderam a uma solicitação de controladores em um período razoável de tempo.

  • Seus cabos SATA estão firmes e não bloqueado de qualquer maneira? Recoloque-os e verifique as extremidades para qualquer dobrado, danificado, ou cabos crimpados.

  • Você está executando o BIOS mais recente?

  • Você está executando os drivers mais recentes (no Windows)?

Eu acredito que versões mais antigas dos drivers naquele chipset específico tinham algum problema relacionado ao RAID, embora eu não consiga encontrar os detalhes.

Você também pode tentar usar as portas 3-5 (consulte documentação da Intel ) Se tudo mais falhar, considere um controlador de ataque 3ware.

    
por 20.08.2009 / 17:39
2

I did extensive diagnostics with Spinrite and WD Diag on each drive and they picked up NO surface issues, no sector errors, and no SMART warnings.

Essa é uma quantidade impressionante de solução de problemas que tenho que admitir, afinal eu ficaria surpreso ao pensar que algo estava errado com os discos rígidos. Mas depois de ler seu post um pouco mais, acho que encontrei o problema.

Intel ICH8R motherboard controller

Agora, como você está indo para velocidade em vez de redundância de dados, vejo porque usar o controlador on-board parece atraente, mas na realidade quase todos RAID on-board controladores (especialmente para placas-mãe de classe consumidor ) são uma porcaria. Highpoint, Intel, nVidia ... tudo porcaria.

Para o ponto de Rik sobre poder, esse é realmente um bom ponto. Flutuações no poder podem ter um efeito adverso nos computadores em geral, mas também nos discos rígidos. Pode ser mais fácil & mais barato para usar um no-break (fonte de alimentação ininterrupta) para o seu computador lidar com o problema de energia.

Are my drives okay? Can there be something unhealthy with one of my drives that the diags are not picking up?

Como você executa o RAID 0, eu diria que há sempre um risco de algo dar errado. Ainda bem que você tem uma imagem de backup em outro lugar. Eu tenho que dizer que duvido que algo esteja errado com seus discos. Rodar o Spinrite, o WDDiag e procurar informações do SMART é bem completo. Em toda probabilidade, eu culparia o controlador de bordo. Eu executei RAID por software, RAID de controlador on-board (ambos anos atrás) e RAID de hardware agora e posso, sem dúvida, dizer que software e on-board foram um completo desperdício do meu tempo. Eu não posso falar especificamente para o RAID 0, mas se eu tivesse que adivinhar qual era o problema, eu olharia para o controlador.

Se o dinheiro não é um problema, eu diria obter um controlador RAID de hardware além de um no-break. Controladores RAID de 2 portas não são muito caros e ironcialmente suficientes, eu nunca executo o RAID 0, então não posso atestar como um controlador RAID melhor (da 3Ware, Areca, LSI, Adaptec, etc.) faria, mas estou mais certeza de que um controlador RAID PCIe de um dos fabricantes que listei seria menos provável para corromper aleatoriamente o seu array separado.

    
por 20.08.2009 / 18:20