Diagnosticar hard lockup no Linux

2

Durante o mês passado, uma das minhas máquinas Debian Squeeze (Linux 2.6.32-bpo.5-amd64) travou duas vezes, hard . Nenhuma resposta ao ARP, console escuro, Caps Lock, Num Lock não funciona, Magic SysRq ineficaz. Alterar o kernel para 3.2.0-0.bpo.2-amd64 de backports também não ajudou.

A monitoração de temperatura e carga não mostra picos antes da falha.

Como devo diagnosticar e depurar esse problema?

netconsole é minha única aposta?

EDITAR: Eu já desativei o preenchimento de tela:

#/etc/console-tools/config
BLANK_TIME=0
POWERDOWN_TIME=0

e

setterm -blank 0

no console físico.

ATUALIZAÇÃO:

Desta vez, a tela ainda estava mostrando o prompt de login. Desde os últimos problemas eu executei um teste de carga de 6h com o teste BOINC (Prime 95) sem nenhum problema.

    
por Hubert Kario 25.07.2012 / 11:12

2 respostas

0

Como os problemas estavam acontecendo cada vez mais freqüentemente, o problema provavelmente foi causado por placa-mãe defeituosa ou menos provável, a CPU. Depois de substituir esses componentes, os problemas desapareceram.

    
por 02.11.2012 / 12:47
0

Encontrei duas soluções possíveis, relatarei se elas funcionaram. EDITAR: Eles não fizeram

Primeiro, o nmi_watchdog é ativado, adicionando nmi_watchdog=1 aos parâmetros de inicialização do kernel.

O segundo (obrigado @womble pela sugestão) foi forçando o ECC em

modprobe amd64_edac_mod ecc_enable_override=1 edac_op_state=1

Infelizmente, o suporte para a memória ECC DDR3 no kernel 2.6.32-bpo.5-amd64 (Debian squeeze) está ausente, eu tive que usar o 3.2 from backports.

Também adicionei essas opções aos parâmetros gerais do kernel:

echo options amd64_edac_mod ecc_enable_override=1 edac_op_state=1 > /etc/modprobe.d/amd64_edac_mod.conf
    
por 26.07.2012 / 20:12