Cegueira ARP aleatória e seletiva no VMWare ESXi 4.1

6

Temos vários servidores VMWare ESX espalhados pela nossa empresa, executando várias tarefas. Um host ESXi específico está exibindo um comportamento muito peculiar. Detectamos quando nosso sistema de monitoramento (Orion) nos notifica de que não é mais possível executar ping na caixa.

Ao pular no console local do convidado em questão, vemos que não é possível efetuar ping de nenhum novo endereço que ainda não esteja na tabela ARP.

No começo, pensamos que o problema estava relacionado apenas a um de nossos convidados, pois o problema parecia sempre acontecer a outro convidado, DevRedis . No entanto, esta tarde, o problema foi trocado e começou a acontecer no ApacheBox em vez de DevRedis.

Quando tive a sorte de pegar o problema, executei o tcpdump em ambos os lados da conexão (um dos lados sendo vmware, o outro lado sendo um servidor físico) e notei o seguinte curso de eventos:

  1. O convidado ApacheBox envia uma solicitação ARP para o endereço físico do servidor WindowsBeast
  2. Propostas WindowsBeast em que um ARP está de volta à rede, indicando seu endereço MAC físico.
  3. O ApacheBox nunca vê o ARP em resposta.

O host ESX em questão está executando o VMware ESXi, 4.1.0, 348481

Os dois convidados (DevRedis e ApacheBox) estão rodando o CentOS 6.3, mas estão executando duas versões separadas do kernel .el6.x86_64 e 2.6.32-279.el6.x86_64 ), então não tenho certeza se é um problema do CentOS.

Alguém tem alguma opinião sobre o que pode causar isso? Alguém já se deparou com isso antes?

    
por Peter Grace 09.10.2012 / 22:31

1 resposta

1

Parece que você pode ter uma colisão de MAC em suas mãos. O fato de as duas caixas estarem trocando é o que sugere isso para mim. Algo na camada vSwitch pode estar encaminhando pacotes incorretamente.

    
por 15.10.2012 / 22:56