PERC H200i “ignorando” alguns discos no RAID 10, resultando em IO lenta

1

Eu tenho um Dell PE T710 com um PERC H200i que possui um único conjunto de discos SATA 6x de 500 GB e um hot spare.

Este servidor (e seus discos) estão funcionando perfeitamente há alguns anos. Hoje comecei a receber alertas de tempos de espera altos de I / O nesse servidor. Eu investiguei e a matriz de disco estava inexplicavelmente lenta. Não havia aplicativos empurrando mais do que um nível mínimo de IO, e em cerca de 22 MB / s de leitura ou escrita linear (usando dd) ele alcançaria a saturação e eu começaria a ver 100% de espera no topo. Este array já tinha capacidade para 250MB / s nessa mesma situação.

Nada foi alterado em hardware ou software por semanas.

De qualquer forma, parece um problema de hardware: observando a matriz fisicamente, vejo apenas atividade (LEDs piscando) em 4 dos 6 discos da matriz. No entanto, no OMSA, o array é relatado como totalmente funcional. Eu reiniciei, entrei na BIOS do controlador e, novamente, a matriz está bem em todas as aparências. Eu atualizei o f / w para 07.03.06.00 A10, e isso não ajudou.

"Piscando" os LEDs do HDD via OMSA funcionou, então não é como se fosse apenas um caso de LEDs ruins nas unidades aparentemente não funcionais.

Em seguida, iniciei uma verificação de consistência no array e, até o momento, ele não reclamou, mas ainda vejo apenas a atividade em 4 dos 6 discos.

Eu nunca vi isso antes, onde um controlador RAID aparentemente para de usar dois discos enquanto relata esses mesmos discos como sendo OK e parte do array.

Minha suposição é que preciso substituir o H200 e / ou esses discos.

No entanto, estou curioso para saber se alguém já viu esse comportamento antes e se há uma solução alternativa.

Existe alguma maneira de obter transparência na utilização real de um disco individual usando o H200?

Obrigado pelo seu tempo.

Editar: esses discos são certificados pela Dell, mas seu firmware nunca foi atualizado e foi por volta de 2013.

    
por s.co.tt 22.05.2016 / 04:02

1 resposta

0

A substituição dos dois discos "não responsivos" resolveu o problema. Os dois conjuntos de espelhos foram reconstruídos e agora todos os 6 discos estão mostrando a atividade apropriadamente. A velocidade de gravação linear foi de 257 MB / s após a conclusão da reconstrução, como deveria ser habitual para este array.

No entanto, quando testados em um compartimento USB, os dois discos "com falha" não tinham erros SMART e proporcionavam velocidades de R / W em torno de 100 MB / s, o que é esperado para discos SATA de 7200 RPM. Portanto, não posso dizer que eles falharam, mas sim que o controlador parou de usá-los.

Não encontrei uma maneira [no CentOS] de monitorar a utilização de disco individual, a não ser olhando fisicamente para os LEDs.

    
por 24.05.2016 / 05:14