Servidor ESXi 5.5 que não responde

3

Eu tenho um host que faz parte de um cluster de quatro hosts no HA.

Em algum momento ontem, notei que o host parou de responder, no console do vsphere ele aparece em cinza (não responde) e todas as VMs aparecem como (inacessíveis). As próprias VMs ainda estão funcionando normalmente, posso fazer o desktop remoto para elas e tudo está funcionando. Existem servidores críticos nesta máquina. Eu tentei clicar com o botão direito no host e "Conectar" depois de algumas horas simplesmente falha. Não consigo mover as VMs, todas as ações estão esmaecidas. No host pressionando F2 me dá o prompt de login, depois de entrar minhas credenciais nada acontece. ALT + F1 não me deixa fazer nada, pois não está habilitado. O SSH não está ativado. Com o ALT + F11, posso ver que o hostd travou, provavelmente é esse o problema. Eu chamei o Vmware como tenho suporte total, mas depois de uma chamada muito curta, ele disse que não há nada a fazer, a não ser forçar o desligamento do host.

Eu preferiria não fazer isso, gostaria de reiniciar o hostd, mas parece que não tenho acesso. Eu tentei o PowerCLI, mas a conexão com o host expira. O Vsphere diretamente para o host também expira. Pinging o host funciona, então não há rede, pelo menos.

Alguém conhece alguma outra maneira de obter a concha?

Obrigado.

Mais informações: Executando ESXi 5.5.0 1331820, em um Dell PowerEdge R720, Dell PERC H710

Eu verifiquei o DRAC e o volume local está saudável. Na verdade, é apenas uma invasão 1, todas as VMs estão em uma SAN. A página de boas-vindas do vmware esxi funciona, mas se eu clicar em "navegar pelos armazenamentos de dados no inventário deste host", ele nunca será exibido. A multidão também parece estar funcionando corretamente "hostip / mob /? Moid = ServiceInstance & doPath = conteúdo";

Na consola ALT + F11: 2014-09-11T7: 15: 02.329Z cpu12: 57750311) hostd detectado como não responsivo

A mesma linha, horário e CPU diferentes 11 vezes.

    
por Enriquev 11.09.2014 / 17:06

1 resposta

2

Isso soa como um problema de armazenamento local para mim. Eu trabalhei em um ambiente com centenas de hosts ESXi que rodavam em armazenamento RAID local. Infelizmente, os controladores de armazenamento locais no hardware eram instáveis ... uma mistura tóxica de revisões incorretas de firmware LSI, backplanes defeituosos e hardware Supermicro.

Mas o comportamento que você descreve é indicativo de um problema de armazenamento local. Suas VMs em execução estão na RAM, a pilha de rede não é afetada, mas a capacidade de gerenciar o host fica comprometida. Seu login não funciona porque o host não pode ler do disco local. A mesma coisa para qualquer outro comando que exija acesso ao disco.

Sua melhor opção aqui é agendar um desligamento ordenado das VMs (a partir dos sistemas operacionais convidados). A partir daí, falha manualmente o host (desligamento, reinicialização, etc.) Deixe-o permanecer no modo de manutenção ou fora da seleção do cluster. Ative suas VMs e permita que elas sejam executadas em outro lugar no cluster do vSphere.

Se você estiver interessado em depurar os problemas do host, verifique o Dell DRAC para obter informações sobre o status do storage array. Isso vai te apontar na direção certa.

    
por 11.09.2014 / 17:29