Esta é uma arte.
Se puder, ative o console serial (você precisará do suporte do BIOS, poderá ativar o suporte ao GRUB e executar um TTY) e garantir que o syslog e o kernel gravem no console. Uma sessão de tela capturando isso em um arquivo em outro servidor pode ser útil.
O registro usual suspeita: /var/log/messages
, /var/log/syslog
, /var/log/kern.log
, /var/log/debug
. Observe que /var/log/dmesg
captura apenas o buffer de anel do kernel logo após a inicialização, portanto, provavelmente não terá muita informação.
Uma das coisas mais úteis a fazer é ativar o netconsole
, um serviço de registro no kernel. Você precisará de um servidor syslog em algum lugar (de preferência próximo) para capturar a saída. kdump
também pode ser útil supondo que os dados possam ser gravados com segurança no disco.
Se você ainda estiver perplexo, comece examinando os componentes de hardware (componentes de memória, CPU e placa-mãe são os principais suspeitos), trocando / desabilitando alguns ou todos esses, etc. Os drivers do kernel podem causar falhas, carregando / descarregando módulos podem revelar coisas.
As configurações do BIOS podem produzir problemas. Por exemplo: a Dell tinha um problema com as configurações "CSTATE" há alguns anos; a Intel tinha um problema de configuração entre northgate e southgate há alguns anos. Verifique com o seu fornecedor de BIOS / sistema sobre quaisquer configurações sugeridas ou atualizações de firmware.
Ao longo dos anos, tive travamentos / travamentos aleatórios devido a capacitores ruins, RAM ruim, BIOS, drivers samba, aceleradores de criptografia de hardware, elementos de fonte de alimentação / distribuição, fiação da placa-mãe, interrupções no fornecimento de energia e várias formas de operação erro / intervenção. Geralmente, comece com coisas fáceis / loggáveis e comece a eliminar componentes (hardware ou software) de possíveis candidatos.