Conectividade de host e VM intermitente no ESXi autônomo

2

Eu tenho um ESXi 5.5.0 b2143827 autônomo. Ele está sendo executado em um Dell R710 com 144 GB de RAM. Tem aproximadamente 20 VMs.

Neste momento, não consigo entrar no console por meio do cliente ou SSH do VMWare vSphere. Apenas age como se o servidor não existisse. O host retornará em momentos aparentemente aleatórios e eu posso acessar o host via SSH e o cliente vSphere, mas ele só sairá da rede novamente em um horário indeterminado no futuro. Eu posso acessá-lo através do console de emergência no próprio host físico ( Alt+F1 ).

No entanto, todas as VMs estão ativas e funcionando. Mas cerca de 10 vezes por dia, todas as VMs sairão da rede por 15 segundos a 5 minutos. Então eles voltarão bem e tudo continuará funcionando.

Eu fiz o seguinte:

  • Estava em uma compilação anterior, atualizei para b2143827. Isso não fez diferença
  • /sbin/services.sh restart - isso não ajuda a situação
  • Reiniciou o host físico. Isso não fez diferença.
  • No console físico ( Alt+F1 ), fiz ping de outro dispositivo físico na rede. Não descarta nenhum pacote.
  • No console físico, pinguei uma máquina virtual no host. Sofre aproximadamente 80% de perda
  • De uma máquina remota, posso fazer ping no endereço IP de gerenciamento com 0% de perda de pacotes
  • Em uma máquina remota, posso fazer ping em uma VM no host e ver o host claramente desligado e ligado na rede ocasionalmente
  • Eu assisti tail -f /var/log/hostd.log por um tempo e não vi nada desagradável acontecendo lá
  • O sistema está instalado em um cartão SD. Eu desliguei o servidor, DD d o cartão para outro cartão e, em seguida, inicializei-o no novo cartão. Mesmo problema.
  • Tentei um comutador de rede diferente
  • Executou o Dell Update Manager e atualizou cada firmware para a versão mais recente.

Eu estou em uma perda para onde ir a partir daqui. Este servidor tem funcionado sem falhas nos últimos 2.5 anos. O VMWare costumava ser instalado em uma unidade física, mas seis meses atrás ele foi movido para o cartão SD para que pudéssemos reconfigurar as unidades físicas.

    
por Mark Henderson 13.11.2014 / 22:12

2 respostas

1

Após 3 dias de solução ininterrupta, acabei descobrindo que o problema é ... aguarde ... nossa Cisco ASA se engana e transborda a rede com tráfego falso.

Como estávamos executando uma troca bastante básica e o ambiente do servidor é 100% virtualizado, não notamos nada dentro da pilha de rede.

O maior arenque vermelho que sofri aqui foi pingar o sistema operacional convidado do host. Eu teria pensado que isso era totalmente autônomo contra os NICs físicos, mas aparentemente não.

Eu acabei encontrando o problema espelhando a porta de gerenciamento no switch e observando o tráfego para / a partir dele com o Wireshark, e vendo o tráfego saindo da porta de origem, mas nunca, nunca, chegando ao destino. Como não consegui enxergá-lo dentro da própria rede, levei apenas mais 4 horas para isolar o ASA como fonte do problema.

Desde a remoção do ASA da rede, tudo foi tranquilo.

Acontece que o ASA não tinha se enganado, alguém tinha criado uma regra NAT desconfigurada que não tinha no-proxy-arp , então ele começou a responder a solicitações ARP em todo o / 24 interno. Excluindo essa regra e servindo uma bota firme na pessoa que a adicionou e agora temos o que, por que e quem.

Isso também explica por que a rede somente host não estava funcionando como esperado. O ASA estava respondendo à solicitação ARP, de modo que o host não sabia que era uma solicitação de rede somente de host.

    
por 19.11.2014 / 05:52
2

Sugiro atualizar o firmware das NICs Broadcom no seu servidor Dell PowerEdge. O fato de que você está vendo um problema de conectividade externa, além de pontos de pings específicos da VM em um problema da NIC.

  • Você pode tentar outro dispositivo NIC? ( este host tem quatro )
  • Quantos uplinks você tem do Standard vSwitch? ( você deve ter vários uplinks ao vivo )
  • Quão reproduzível é o problema?

Com relação à inicialização do SDHC, eu realmente defendo apenas o uso da inicialização do SD / USB em servidores ESXi que sejam membros de um cluster do vSphere e tenham armazenamento compartilhado. Devido ao modo de falha dessas placas no ESXi, não há vantagem em usá-las para inicializar sistemas independentes. Veja as diferenças entre os modos instaláveis e incorporados do ESXi.

    
por 16.11.2014 / 22:03