Temos um sistema que está atualmente no Amazon Ec2. Eu uso o Amazon ELB agora para carregar o saldo em 12 instâncias em 2 zonas. Eu tenho feito alguns testes de carga com características diferentes:
1) uma rampa de usuários simultâneos de 0 a 10.000 durante 60 minutos.
2) uma rampa escalonada começando em 2.500 por 15 min, para 5.000 por 15 min, para 7.500 por 15 min, para 10.000 por 15 min.
Em ambos, meus servidores ficam em torno de 20-30% de CPU, 10-15% de rede e parecem funcionar bem, nosso aplicativo registra tudo como esperado e está respondendo muito rapidamente na máquina durante todo o teste. Meu tráfego Solicitações por segundo nessas máquinas parecem ser bastante espigadas e exibem um comportamento estranho. Um exemplo de servidores na zona 1 cairá de 200 a 400 solicitações por segundo, enquanto os servidores na zona 2 saltarão simultaneamente de 200 a 400 solicitações por segundo. Tudo isso enquanto ainda responde muito bem.
No entanto, os resultados que vejo do teste de carga externa são muito diferentes. Eu vejo muitos tempos limites e erros de redefinição de conexão. Esses tempos limites e erros de conexão são um pouco espinhosos também, o que significa que eu vou 5 minutos sem erros, então recebo uma pequena inundação deles e depois fico sem resposta por um tempo.
Estou suspeitando que o ELB possa estar se reequilibrando ou algo que esteja causando algum desse comportamento. Eu tentei me mover para apenas um hardware muito pesado rodando o HAPRoxy. Isso pareceu resolver alguns dos problemas na extremidade inferior da rampa de teste de carga, mas depois parecia que a rede passava fome e não podia ir muito além de 5-6K solicitações por segundo.
Eu estou querendo saber se alguém tem alguma idéia sobre o comportamento do Amazon ELB? Além disso, se houver alguma solução para isso? Isso pode incluir soluções completamente diferentes ...
Obrigado,
MikeD