Eu tenho um HP Proliant DL380 G7 com HP SmartArray P812 W 1G-BBWC, que está conectado a um gabinete de armazenamento D2600 com 1 cabo mini-sas. Todas as versões do firwmware são as mais recentes (incluindo os discos). Há também o backplane interno conectado à porta SAS interna.
Há um array de armazenamento RAID 5 (em discos SATA de 3 * 4 TB) e três matrizes RAID 1, em discos SATA de 1 TB. Além disso, há discos SAS internos de 2,5 polegadas conectados à porta interna do controlador. 3 X 300GB Raid 5 e 2 X 300GB RAID 1. Esse problema parece afetar discos e discos "internos" no gabinete do D2600.
Estou tendo alguns problemas de desempenho muito estranhos nesse sistema que não consigo rastrear.
O servidor está executando o ESXi 6 a partir de um dispositivo de armazenamento USB HP Enterprise interno.
Com baixa carga de disco, não há problema. Aqui é onde os problemas começam. Se eu copiar um arquivo de benchmark de um array de disco para outro, inicialmente ele começa em 250mb / s por um período de tempo aleatório (entre 10 e 45 segundos). Depois disso, o disco IO cai consideravelmente e se torna muito aleatório. (veja a imagem).
Gráfico de ajuste de HD
Se o carregamento do IO continuar, a transferência cai para 0 e o array para de responder completamente.
Simultaneamente, o host ESX registra o seguinte:
Device naa.bla performance has deteriorated. I/O latency increased from average value of 5134 microseconds to 434632 microseconds.
Uma caixa do Linux no mesmo servidor mostra os seguintes resultados:
insira a descrição da imagem aqui
Notável é a latência de 1800ms!
Se a matriz parar de responder completamente, a única maneira de recuperar é reiniciar o host. Isso ocorre em todos os arrays, não importa se é interno ou externo. Eu tentei um segundo D2600 e um cabo SAS diferente. Nenhuma mudança. Desativar o cache de gravação do Windows ou o cache de disco nas próprias unidades não faz diferença.
Estou completamente preso neste estágio e arrancando meu cabelo, qualquer ajuda seria muito apreciada!