Eu tive esse problema exato e estou convencido de que o chipset escamoso é o culpado. Veja abaixo os detalhes do plano de fundo.
Solução alternativa : limite e fixe seu Dom0 para usar apenas 1 ou 2 núcleos de CPU, conforme sugerido em link e link
Etapas de solução alternativa :
1: Em / etc / default / grub, adicione / modifique o GRUB_CMDLINE_XEN para conter:
GRUB_CMDLINE_XEN="dom0_max_vcpus=1 dom0_vcpus_pin"
(No meu Dom0, limito também a memória com: dom0_mem = 2048M e desativo o autobalooning)
2: execute update-grub
para atualizar o gerenciador de inicialização
3: Nos arquivos do seu DomU / etc / xen / .cfg , adicione o seguinte a cada DomU para mantê-lo fora da CPU 0:
cpus="all,^0"
(ou se você se limitar a 2 núcleos, use: cpus="all,^0-1"
)
4: Encerre suas DomUs e reinicie para obter as novas configurações do kernel. Seu Dom0 agora deve ter apenas uma VCPU mostrando em top
output
5: Redefina o sinal de "dias desde a última pane do kernel" em sua parede e cruze os dedos!
Antecedentes:
Uma história triste! Isso começou a acontecer comigo imediatamente após a atualização de um DomU ocupado para um novo PowerEdge R710 Dom0. Foi absolutamente solução de problemas brutal! Aconteceu com apenas um DomU rodando na caixa (então, ter 24 VMs não é sua causa raiz). Nada funcionava para pará-lo ou consertá-lo, ele acionava em horários de pico, e o erro mudava de ida e volta da "fila de transmissão esgotada" para erros, com o controlador RAID ficando somente para leitura. Eu tentei tudo na sua lista, incluindo a mudança para Intel NICs e1000 e um novo chassi físico R710. Eu brinquei em vão com o BIOS tentando obter o NIC e o RAID em um IRQ separado. Durante uma semana, o servidor explodiu várias vezes ao dia com importantes sites de prod. Foi realmente horrível em todos os sentidos: (
Finalmente, encontrei algum alívio seguindo as sugestões no final deste bug aqui: link . Embora não tenha sido a nossa descrição do bug (foi Dom0 não inicializa), era atual, Xen e um R710. Ele recomenda reduzir e fixar o Domus CPUS de acordo com o link .
Desesperado por qualquer tentativa, tentei e (ZOMG!) funcionou! Limitar o Dom0 a usar apenas duas CPUs, e fixar as DomUs para usar apenas os outros núcleos, fez com que o problema desaparecesse e ficasse ausente por mais de dois meses. Eu estava realmente certo de que isso resolveu o problema completamente, mas então tive o erro recorrente na semana passada. Eu vou tentar ir para apenas 1 CPU fixo para o Dom0 seguinte.
Estou convencido de que o problema é o manuseio de interrupções causado pelo chipset da Intel e nenhuma das soluções que encontramos no trabalho on-line. Isso é porque eles são todos de muitos anos atrás.