Esxi com iSCSI SAN fica lento com várias VMs em execução

5

Eu tenho um servidor com ESXi 5 e armazenamento de rede conectado por iSCSI (4x1Tb Raid-Z em freenas). Essas duas máquinas são conectadas umas às outras com Gigabit ethernet e um interruptor de procurve entre elas.

Depois de um tempo, se eu tenho muitos (4-5 ou mais) vms rodando, eles começam a ficar sem resposta (longos atrasos antes que algo aconteça). Estamos tentando encontrar a razão por trás disso.

Hoje, examinamos o esxtop e descobrimos que o DAVG desse iSCSI LUN permanece entre 70 e 80. Eu li que +30 é crítico!

O que poderia estar causando esses altos tempos de resposta?

    
por Esa Varemo 25.03.2012 / 20:45

1 resposta

7

Como você provavelmente já sabe, o DAVG refere-se à latência do disco e, sim, maior que 30 ms geralmente proporciona uma redução notável no desempenho e na capacidade de resposta. A latência pode ser causada por muitos problemas, mas antes de mais nada, os seus discos devem ser capazes de lidar com a carga de IO que você está jogando neles.

A carga de IO não se refere apenas ao número de IOs por segundo (IOPS), mas também ao padrão . E / S aleatória (padrão) é praticamente o que você espera de servidores virtualizados, portanto, sua configuração de disco precisa fazer bem de uma perspectiva de E / S aleatória. Infelizmente, o RAID-Z não se encaixa na conta. De acordo com o Oracle :

The situation of random inputs is one that needs special attention when considering RAID-Z.

Effectively, as a first approximation, an N-disk RAID-Z group will behave as a single device in terms of delivered random input IOPS. Thus a 10-disk group of devices each capable of 200-IOPS, will globally act as a 200-IOPS capable RAID-Z group. This is the price to pay to achieve proper data protection without the 2X block overhead associated with mirroring.

O Oracle diz aqui que um conjunto RAID-Z pode lidar com o mesmo número de IOPS aleatórios que um único disco no conjunto. Um único disco de 7,2k pode fazer cerca de 80 IOPS (e isso pode ser um número generoso, dependendo de quem você pergunta), de modo que em RAID-Z toda a sua matriz só pode fazer 80 IOPS aleatórios. Executar 5-7 servidores nessa pequena IOPS é uma receita para um péssimo desempenho.

Você veria um desempenho muito melhor se configurasse suas 4 unidades em um conjunto RAID-10. Se você precisar de mais de 2TB de capacidade RAW (que é o que você obteria no RAID-10), faça o RAID-5. Ou você terá um desempenho de E / S aleatório melhor que o RAID-Z nesse caso.

    
por 07.05.2012 / 16:07