pico da CPU com travamento VMware

4

Após um pico de uso da CPU, o servidor host do VMWare ESXi 5.5 não respondeu a DRAC, rede e associação de cluster.

O host é um módulo blade que é o Dell PowerEdge M820 em um chassi Dell M1000e com 4 x Xeon E5-4620s e 128 GB de RAM e SSDs locais no RAID 6.

Todas as VMs são Server 2008 R2. Há um servidor SQL que usa o RAID SSD para dados. Caso contrário, as VMs são armazenadas em um QNAP com um link de 10 Gbit.

Os recursos não estão muito comprometidos.

Nenhuma falha de hardware foi registrada ou indicada no módulo blade ou no QNAP.

O servidor precisou ser reinicializado a frio do DRAC do M1000e para se tornar funcional novamente.

Isto parece ser uma falha VMWare de algum tipo que bloqueou o hardware, no entanto, os registros pré-lockup estão faltando 3 meses antes de chutá-lo.

Desde a reinicialização - o hardware do VMWare e do servidor não relatou ou indicou nenhum problema.

Alguém mais experimentou algo assim? Alguma idéia, pensamentos, sugestões?

    
por Steven Walker 07.03.2014 / 20:03

2 respostas

5

Este é provavelmente um problema com sua (s) VM (s) Windows. Você pode nos dizer quais drivers de rede as VMs do Windows estão usando? Intel e1000? Intel e1000e? VMware vmxnet3?

Se eles não estão usando o VMware vmxnet3, você está se deparando com um bug horrível que se manifesta em falhas de host (PSODs). Veja o artigo da Base de Dados de Conhecimento correspondente # 2059053

Aqui está um rastreamento de uma falha em um host ESXi 5.5 após uma intensa atividade de rede entre um Windows Server 2008R2 e uma máquina virtual do Windows Server 2012.

A correção é migrar para o driver vmxnet3. Isso morde muitas pessoas porque e1000 / e1000e são os padrões ao criar máquinas virtuais do Windows.

observe as referências "e1000" no rastreio ...

    
por 07.03.2014 / 20:45
0

Na sua posição, eu abriria um ticket com a Dell e executaria todos os diagnósticos. Eles provavelmente irão direcioná-lo para atualizar todos os firmwares para a versão mais recente, se você ainda não estiver. Esta é geralmente uma boa ideia.

Eu também abriria um ticket com o VMware para o mesmo problema.

Você pode ter incorrido em um bug do sistema operacional ou em uma falha de hardware. Como alternativa, você pode simplesmente sinalizar esse sistema como "possível problema" e esperar para ver se isso acontece novamente.

/ Edit - ou você pode ouvir Ed e / ou verificar a VMware KB.

    
por 07.03.2014 / 20:37