Ubuntu 16.04 (Xenial) bloqueio duro da CPU múltipla

1

Estou perseguindo esse problema há cerca de seis semanas, desde que fiz o upgrade para o Xenial. Inicialmente pensei que era aleatório, mas encontrou usando adaptadores seriais USB provocou o problema. Não importava se estava na placa USB2 ou em uma placa PCI-E USB3. Resultaria nas seguintes mensagens no console de texto e / ou no console serial (que eu tinha habilitado para uma porta serial de placa-ob):

NMI watchdog: Watchdog detected hard LOCKUP on cpu 0
NMI watchdog: Watchdog detected hard LOCKUP on cpu 2
NMI watchdog: Watchdog detected hard LOCKUP on cpu 3
NMI watchdog: Watchdog detected hard LOCKUP on cpu 4
NMI watchdog: Watchdog detected hard LOCKUP on cpu 5
NMI watchdog: Watchdog detected hard LOCKUP on cpu 6
NMI watchdog: Watchdog detected hard LOCKUP on cpu 8
NMI watchdog: Watchdog detected hard LOCKUP on cpu 11

etc.

A máquina tem 16 núcleos e todos travariam em rápida sucessão, exigindo uma reinicialização.

Eu estava executando o kernel mais recente (linux-image-4.4.0-72-generic). Eu tentei 4.8, mas foi afetado pelo bug MTU ( link ) . Eu tentei 4.10, mas isso tem algum tipo de bug KVM (também estou executando algumas VMs no host).

Eu tentei substituir a memória (mesmo que a memória ECC), substituindo a placa-mãe, substituindo as NICs, tudo em vão. Eu não consegui encontrar ninguém mais relatando o bloqueio de múltiplas CPUs não vinculado a um processo específico de usuário, então imaginei que eu tinha hardware ruim.

    
por Terry Hardie 17.05.2017 / 19:56

1 resposta

1

Eu segui as instruções para construir meu próprio kernel para 4.8 ( link ) e criei o linux-image-4.8.0 -53-genérico. Isso corrigiu meus bloqueios, problemas de MTU e nenhum pânico do KVM. Como perdi 6 semanas resolvendo isso, espero que outra pessoa ache útil.

    
por Terry Hardie 17.05.2017 / 19:58