CPU 100% intermitente em todas as VMs

4

Somos uma pequena loja, executando um Dell T420 (CPU dual, apenas um presente, 6 núcleos) com 32 GB de RAM como nosso servidor principal. Temos apenas 5 VMs, uma das quais é o nosso WSE 2012 DC.

Ocasionalmente, e a uma taxa para a qual não conseguimos estabelecer um padrão confiável, todas as nossas VMs atingem 100% da CPU. O anfitrião permanece quieto em 4-5%. Uma inicialização a quente do host não fornece alívio, mas uma inicialização a frio, pelo menos, coloca as coisas de volta na caixa até que o problema ocorra novamente.

Às vezes podemos tirar uma semana ou mais de mar calmo; às vezes apenas um dia. Um padrão não confiável parece ser que ele começa em algum momento durante um período ocioso prolongado, ou seja, durante a noite. Um exame dos registros de temperatura do servidor primeiro nos levou a suspeitar de superaquecimento, mas uma investigação mais aprofundada sobre incidentes recentes estragou essa liderança.

Também encontramos descrições de problemas semelhantes nos fóruns da Dell, com reivindicações de resolução, instalando a última rodada de atualizações da Dell. Nós recentemente nos engajamos em um projeto para fazer exatamente isso (como um aparte, foi uma grande aventura obter ~ 700GB de VHDs com segurança e depois de volta para aquela máquina), mas para nossa completa desolação não ajudou.

Estamos absolutamente confusos. O mesmo acontece com o suporte da Microsoft (ou pelo menos o suporte de primeiro nível é, embora eles tentem não agir como tal). Estou incluindo abaixo nossa saída SystemInfo.

Alguém sabe onde começar a procurar?

Obrigado

===================================

Host Name:                 SERVER1
OS Name:                   Microsoft Hyper-V Server 2012 R2
OS Version:                6.3.9600 N/A Build 9600
OS Manufacturer:           Microsoft Corporation
OS Configuration:          Standalone Server
OS Build Type:             Multiprocessor Free
Registered Owner:          Windows User
Registered Organization:   
Product ID:                06401-029-0000043-76293
Original Install Date:     4/3/2014, 4:07:15 PM
System Boot Time:          5/4/2014, 1:56:47 PM
System Manufacturer:       Dell Inc.
System Model:              PowerEdge T420
System Type:               x64-based PC
Processor(s):              1 Processor(s) Installed.
                           [01]: Intel64 Family 6 Model 45 Stepping 7 GenuineIntel ~2200 Mhz
                           [Intel(R) Xeon(R) CPU E5-2430 0 @ 2.20 GHz] (manually added)
BIOS Version:              Dell Inc. 2.1.2, 1/20/2014
Windows Directory:         C:\Windows
System Directory:          C:\Windows\system32
Boot Device:               \Device\HarddiskVolume1
System Locale:             en-us;English (United States)
Input Locale:              en-us;English (United States)
Time Zone:                 (UTC-09:00) Alaska
Total Physical Memory:     32,723 MB
Available Physical Memory: 12,716 MB
Virtual Memory: Max Size:  37,587 MB
Virtual Memory: Available: 17,129 MB
Virtual Memory: In Use:    20,458 MB
Page File Location(s):     C:\pagefile.sys
Domain:                    OIT
Logon Server:              \SERVER1
Hotfix(s):                 31 Hotfix(s) Installed.
                           [01]: KB2843630
                           [02]: KB2862152
                           [03]: KB2868626
                           [04]: KB2876331
                           [05]: KB2883200
                           [06]: KB2884846
                           [07]: KB2887595
                           [08]: KB2892074
                           [09]: KB2893294
                           [10]: KB2894179
                           [11]: KB2898514
                           [12]: KB2898871
                           [13]: KB2901101
                           [14]: KB2901128
                           [15]: KB2903939
                           [16]: KB2904266
                           [17]: KB2908174
                           [18]: KB2909210
                           [19]: KB2911106
                           [20]: KB2913760
                           [21]: KB2916036
                           [22]: KB2917929
                           [23]: KB2919394
                           [24]: KB2919442
                           [25]: KB2922229
                           [26]: KB2923300
                           [27]: KB2923768
                           [28]: KB2928193
                           [29]: KB2928680
                           [30]: KB2930275
                           [31]: KB2939087
Network Card(s):           3 NIC(s) Installed.
                           [01]: Broadcom NetXtreme Gigabit Ethernet
                                 Connection Name: NIC1
                                 DHCP Enabled:    No
                                 IP address(es)
                           [02]: Broadcom NetXtreme Gigabit Ethernet
                                 Connection Name: NIC2
                                 DHCP Enabled:    Yes
                                 DHCP Server:     192.168.1.12
                                 IP address(es)
                                 [01]: 192.168.1.135
                                 [02]: fe80::915b:8de0:712e:29f1
                           [03]: Hyper-V Virtual Ethernet Adapter
                                 Connection Name: vEthernet (External NIC 1_Internal)
                                 DHCP Enabled:    No
                                 IP address(es)
                                 [01]: 192.168.1.11
                                 [02]: fe80::2d35:f582:4958:9eb2
Hyper-V Requirements:      A hypervisor has been detected. Features required for Hyper-V will not be displayed.

== EDIT ======================

Eu encontrei a solução para esse problema; Esperei por mais de um ano para ter certeza de que não encontraríamos mais exemplos do problema.

Moderadores: gostaria de solicitar uma reabertura da pergunta para que eu possa postar a resposta.

    
por InteXX 08.05.2014 / 01:37

3 respostas

5

Após mais de um ano de espera para provar que a solução é válida, finalmente posso postar esta resposta.

As configurações padrão da BIOS da Dell têm os estados C ativados, o que coloca o computador no modo de baixa energia durante os períodos de inatividade. Isso é o que faz com que as VMs se transformem em 100% de uso da CPU em um host Hypervisor (VMWare, Citrix incluído).

A solução é definir a configuração do Perfil do Sistema no BIOS para Desempenho, em oposição a Desempenho por watt [SO] ou Desempenho por watt [DAPC] (sendo este último o padrão).

A documentação relevante da Dell, pp3:

link

E esta resposta de um dos poucos engenheiros de suporte da Dell que está familiarizado com o problema:

The short version is: C-States disable additional processor cores during idling times. For VMs that are tied to a core (this is OS controlled, I do not believe it's configurable), this could result in them locking up, as they're attemping to perform actions with resources that no longer exist in their eyes.

Generally speaking, C-States are generally used on items like backup servers, secondary role servers (Backup dns, dhcp, Domain controllers, etc) so that way the backup servers can remain on, but in a low power mode to save energy.

Addtional Documentation can be found here:

http://en.wikipedia.org/wiki/Advanced_Configuration_and_Power_Interface

Em poucas palavras, a energia inativa em um servidor Dell deve sempre ser desativada (definida como Desempenho) para hosts do hipervisor.

Obrigado a Eddy Simons, do Kitsap Bank, por me ajudar a encontrar essa solução.

    
por 10.08.2015 / 22:44
1

Não está claro qual é o problema; você já sabe disso. Não temos chance de dizer qual é a causa.

No entanto, você pode executar alguns testes:

  • Construa a VM 1

    • Executa uma tarefa intensiva de CPU nesta VM constantemente (Execute milhões de cálculos matemáticos complexos por segundo)
  • Criar VM 2

    • Executar uma tarefa intensiva de RAM nesta VM constantemente (Crie uma matriz gigante na memória, exclua-a, repita)
  • Construa a VM 3

    • Executa constantemente uma tarefa com DISK intensivo nesta VM
      (leitura / gravação / exclusão de milhões de linhas de / para um arquivo)
  • Construa a VM 4

    • Executar uma tarefa intensiva de REDE nesta VM constantemente (Copiar arquivos de / para um compartilhamento SMB)

Aguarde até que o problema ocorra novamente, observe os dados de desempenho em cada um desses servidores.
Qual foi o mais afetado?
Alguma coisa não foi afetada?

Meu palpite é que seus discos são ruins e a CPU está aguardando que as operações de E / S sejam concluídas antes de continuar, o que pode fazer com que alguns aplicativos simplifiquem a CPU.

    
por 08.05.2014 / 05:55
-2

Em poucas palavras, o estado C3 (configuração do BIOS) deve sempre ser desativado no servidor que hospeda o hipervisor. Esse comportamento não é exclusivo apenas para o dell server.

    
por 22.10.2015 / 21:49