Como diagnosticar o reinício do servidor ubuntu

3

Meu servidor Ubuntu (12.04), por vezes, reinicie sem notificação. Como posso verificar o que desencadeou a reinicialização do servidor?

    
por Gelin Luo 08.07.2012 / 03:18

2 respostas

6

Esta é uma arte.

Se puder, ative o console serial (você precisará do suporte do BIOS, poderá ativar o suporte ao GRUB e executar um TTY) e garantir que o syslog e o kernel gravem no console. Uma sessão de tela capturando isso em um arquivo em outro servidor pode ser útil.

O registro usual suspeita: /var/log/messages , /var/log/syslog , /var/log/kern.log , /var/log/debug . Observe que /var/log/dmesg captura apenas o buffer de anel do kernel logo após a inicialização, portanto, provavelmente não terá muita informação.

Uma das coisas mais úteis a fazer é ativar o netconsole , um serviço de registro no kernel. Você precisará de um servidor syslog em algum lugar (de preferência próximo) para capturar a saída. kdump também pode ser útil supondo que os dados possam ser gravados com segurança no disco.

Se você ainda estiver perplexo, comece examinando os componentes de hardware (componentes de memória, CPU e placa-mãe são os principais suspeitos), trocando / desabilitando alguns ou todos esses, etc. Os drivers do kernel podem causar falhas, carregando / descarregando módulos podem revelar coisas.

As configurações do BIOS podem produzir problemas. Por exemplo: a Dell tinha um problema com as configurações "CSTATE" há alguns anos; a Intel tinha um problema de configuração entre northgate e southgate há alguns anos. Verifique com o seu fornecedor de BIOS / sistema sobre quaisquer configurações sugeridas ou atualizações de firmware.

Ao longo dos anos, tive travamentos / travamentos aleatórios devido a capacitores ruins, RAM ruim, BIOS, drivers samba, aceleradores de criptografia de hardware, elementos de fonte de alimentação / distribuição, fiação da placa-mãe, interrupções no fornecimento de energia e várias formas de operação erro / intervenção. Geralmente, comece com coisas fáceis / loggáveis e comece a eliminar componentes (hardware ou software) de possíveis candidatos.

    
por 08.07.2012 / 04:11
2

Geralmente é muito difícil.

Alguns lugares para procurar:

  • A saída do comando dmesg (pode conter informações sobre falhas de hardware)
  • O conteúdo de /var/log/syslog (procure por uma linha dizendo que o syslog está iniciando e, em seguida, procure imediatamente antes dela)
  • O conteúdo de /var/log/messages (igual ao syslog)
  • O conteúdo de /var/log/auth.log (Procure por qualquer indicação de reinicialização intencional)
  • Possivelmente mais alguma coisa em /var/log/
por 08.07.2012 / 03:55

Tags