Como podemos verificar a integridade / conectividade da instância ** do ELB **?

1

Por favor, note que esta questão é sobre o próprio ELB, não instâncias do EC2 por trás do ELB

Situação

Tivemos o seguinte problema de ELB recentemente:

  • 50% dos pedidos não chegaram ao nosso backend e parece que o próprio ELB também
  • O monitoramento do ELB via console da AWS não mostrou nada incomum (zero ELB 4xx e ELB 5xx)
  • As verificações externas
  • confirmaram que nossas instâncias de back-end do EC2 estavam funcionando bem e poderiam ser alcançadas

Nossa suposição é que a instância do EC2 em que o ELB está sendo executado apresentava problemas de conectividade. A correção ad hoc era criar um novo ELB (na frente do mesmo conjunto de instâncias do EC2) e alterar os registros DNS.

Perguntas

  • é algo que pode acontecer com frequência
  • existem ferramentas que podem detectar isso com rapidez suficiente (sempre assumimos que isso é nossa culpa e somente após uma verificação completa começamos a analisar a AWS)
  • existe uma maneira de evitar que isso aconteça
por Dmitry Mukhin 12.05.2015 / 11:12

1 resposta

0

As verificações de integridade do Route 53 suportam especificamente o monitoramento e o failover da integridade da instância do ELB.

Once enabled, Route 53 automatically configures and manages health checks for individual ELB nodes.

Route 53 DNS Failover is able to evaluate the health of the load balancer and the health of the application running on the EC2 instances behind it. In other words, if any part of the stack goes down, Route 53 detects the failure and routes traffic away from the failed endpoint.

link

Basicamente, isso contorna a questão de nós individuais do ELB não terem um IP fixo, e o fato de que pode ser difícil dizer se o seu aplicativo ou o próprio ELB está falhando.

Você deve poder usar isso para failover em um ELB separado na mesma região ou em uma região totalmente diferente. Você pode configurar a frequência de monitoramento do Route53 tão alta quanto uma vez a cada 10 segundos e o TTL nos registros do Random 53 Alias geralmente é de 60 segundos, o que deve lhe dar uma idéia sobre a rapidez com que o failover ocorrerá.

    
por 14.05.2015 / 01:08