Eu tenho um Dell PE T710 com um PERC H200i que possui um único conjunto de discos SATA 6x de 500 GB e um hot spare.
Este servidor (e seus discos) estão funcionando perfeitamente há alguns anos. Hoje comecei a receber alertas de tempos de espera altos de I / O nesse servidor. Eu investiguei e a matriz de disco estava inexplicavelmente lenta. Não havia aplicativos empurrando mais do que um nível mínimo de IO, e em cerca de 22 MB / s de leitura ou escrita linear (usando dd) ele alcançaria a saturação e eu começaria a ver 100% de espera no topo. Este array já tinha capacidade para 250MB / s nessa mesma situação.
Nada foi alterado em hardware ou software por semanas.
De qualquer forma, parece um problema de hardware: observando a matriz fisicamente, vejo apenas atividade (LEDs piscando) em 4 dos 6 discos da matriz. No entanto, no OMSA, o array é relatado como totalmente funcional. Eu reiniciei, entrei na BIOS do controlador e, novamente, a matriz está bem em todas as aparências. Eu atualizei o f / w para 07.03.06.00 A10, e isso não ajudou.
"Piscando" os LEDs do HDD via OMSA funcionou, então não é como se fosse apenas um caso de LEDs ruins nas unidades aparentemente não funcionais.
Em seguida, iniciei uma verificação de consistência no array e, até o momento, ele não reclamou, mas ainda vejo apenas a atividade em 4 dos 6 discos.
Eu nunca vi isso antes, onde um controlador RAID aparentemente para de usar dois discos enquanto relata esses mesmos discos como sendo OK e parte do array.
Minha suposição é que preciso substituir o H200 e / ou esses discos.
No entanto, estou curioso para saber se alguém já viu esse comportamento antes e se há uma solução alternativa.
Existe alguma maneira de obter transparência na utilização real de um disco individual usando o H200?
Obrigado pelo seu tempo.
Editar: esses discos são certificados pela Dell, mas seu firmware nunca foi atualizado e foi por volta de 2013.