Como posso detectar se um “watchdog NMI: BUG: soft lockup” é um problema de hardware ou software?

3

Bloqueio de software

dmesg reporta no meu laptop, já há algum tempo, NMI watchdog: BUG: soft lockup todas as vezes eu tento usar updatedb ou firefox . Amostras do que é relatado no link .

Perguntas relacionadas são

Eu também li / comentou  - link

Pergunta

Como posso detectar se é um problema de hardware ou, como acredito, confirmar que é um problema relacionado ao kernel / software?

Detalhes

Distribuição Linux

Funtoo-Linux , uma distribuição contínua

Kernels

Eu (pelo menos) observei o "BUG" enquanto usava as seguintes versões do kernel:

pf

  • 4.11_p4-pf
  • 4.8_p8
  • 4.5_p4

ck

  • 4.12.7-ck

debian

  • lts-4.9.30
  • 4.8.x
  • 4.7.8

Configuração

Eu uso uma configuração personalizada para compilar o kernel. É basicamente a mesma configuração que eu uso (d) por muito tempo, quando não havia nenhum problema de "bloqueio suave" ou qualquer coisa relacionada a um "cão de guarda".

Eu posso copiar e colar ou vincular o arquivo de configuração. No entanto, duas configurações importantes que eu encontrei mais para ser "obrigatório"

CONFIG_KALLSYMS=y
CONFIG_PREEMPT_NONE=y

ZFS

Eu observei o "BUG" ao usar as versões do ZoL

  • 0.6.5.11
  • 0.6.5.10
  • 0.6.5.9
  • 0.6.5.8
  • 0.6.5.3
por Nikos Alexandris 25.08.2017 / 10:56

1 resposta

1

Embora possa ser um problema de hardware, no entanto, devido à maturidade do código do código ZFS para Linux , e uma enorme quantidade de pessoas que se queixam da sua mesma mensagem em várias versões, estou inclinado a dizer que é um bug de software.

Houve vários bugs sobre condições de corrida no código ZFS, e a verdade é que ainda não é totalmente confiável sistemas de produção.

Se o seu notebook for um sistema de playground / teste, um bom teste do ZFS para descartar software ou problemas de hardware seria tentar o ZFS + FreeBSD , que tem uma base de código mais testada e estável.

Se você também teve no passado uma configuração estável conhecida com Linux + zfs, de acordo com seus comentários adicionais, pode ser uma boa idéia voltar e testá-lo, para excluir possíveis problemas .

Quanto a tentar depurar o código do kernel, você pode tentar sysdig mas se o sistema travar, é possível morre em você antes de vomitar logs que podem levar à raiz do problema (ou não).

    
por 25.08.2017 / 18:07