Como os problemas estavam acontecendo cada vez mais freqüentemente, o problema provavelmente foi causado por placa-mãe defeituosa ou menos provável, a CPU. Depois de substituir esses componentes, os problemas desapareceram.
Durante o mês passado, uma das minhas máquinas Debian Squeeze (Linux 2.6.32-bpo.5-amd64) travou duas vezes, hard . Nenhuma resposta ao ARP, console escuro, Caps Lock, Num Lock não funciona, Magic SysRq ineficaz. Alterar o kernel para 3.2.0-0.bpo.2-amd64 de backports também não ajudou.
A monitoração de temperatura e carga não mostra picos antes da falha.
Como devo diagnosticar e depurar esse problema?
netconsole é minha única aposta?
EDITAR: Eu já desativei o preenchimento de tela:
#/etc/console-tools/config
BLANK_TIME=0
POWERDOWN_TIME=0
e
setterm -blank 0
no console físico.
ATUALIZAÇÃO:
Desta vez, a tela ainda estava mostrando o prompt de login. Desde os últimos problemas eu executei um teste de carga de 6h com o teste BOINC (Prime 95) sem nenhum problema.
Encontrei duas soluções possíveis, relatarei se elas funcionaram. EDITAR: Eles não fizeram
Primeiro, o nmi_watchdog é ativado, adicionando nmi_watchdog=1
aos parâmetros de inicialização do kernel.
O segundo (obrigado @womble pela sugestão) foi forçando o ECC em
modprobe amd64_edac_mod ecc_enable_override=1 edac_op_state=1
Infelizmente, o suporte para a memória ECC DDR3 no kernel 2.6.32-bpo.5-amd64 (Debian squeeze) está ausente, eu tive que usar o 3.2 from backports.
Também adicionei essas opções aos parâmetros gerais do kernel:
echo options amd64_edac_mod ecc_enable_override=1 edac_op_state=1 > /etc/modprobe.d/amd64_edac_mod.conf
Tags debugging linux server-crashes