Como determinar a causa de matrizes RAID com falha

1

Eu tenho que investigar um aumento recente nos arrays RAID-1 (Mirror) com falha que estamos encontrando em nosso PC park instalado (10K + PC's).

O problema é duplo: uma parte de ser uma fase piloto que começamos com Solid-State-Drives (SSD's). Nós lançamos cerca de 80 PCs com 2x SSD Kingston V300 de 60GB em RAID-1. Nestas instalações, vemos uma taxa de falha de 10-15% ao longo de um período de máx. 3 meses, o que é inaceitável. Isso está em uma plataforma de PC com um controlador RAID SATA Intel ICH7R integrado

A segunda parte é que também estamos vendo um aumento alarmante de falhas em uma plataforma existente com os discos rígidos Seagate Barracuda recentes. Esses sistemas são baseados em plataformas P4 antigas e estão usando o controlador Promise FastTrak TX2300 SATA RAID. Estamos usando esses sistemas com os mesmos controladores RAID há mais de sete anos, mas é apenas com os HDs da Seagate usados recentemente que estamos vendo uma taxa de falhas crescente.

Agora, para o problema: O que eu tenho com esses dois casos é que não consigo determinar o que causou a falha desse array RAID. Recebi exemplos de sistemas com falha para ambos os casos. O problema é que, ao investigar as unidades, ambas as unidades parecem funcionar bem, não relatam nenhum erro SMART e têm todos os arquivos legíveis (exceto, claro, os arquivos criados após a falha da matriz).

Ao apagar os discos e recriar a matriz RAID, o sistema funciona perfeitamente no laboratório.

Existe alguma ferramenta que eu possa usar para analisar melhor esses discos? Eu poderia acreditar que eles estão funcionando bem na maioria das vezes, mas devido a um curto hickup são marcados como 'ruins' pelo controlador RAID. Também poderia ser o controlador RAID que está com defeito eu suponho? Como testar isso?

Ambos os sistemas mencionados são executados no Windows POSReady 2009 (Basicamente, Windows XP)

    
por Alex 22.11.2013 / 13:07

0 respostas