Como descobrir, porque um servidor trava, mas ainda é alcançável com ping

2

Um dos meus servidores, que é executado em um data center alemão, "trava" todas as noites, mas não consigo descobrir por quê. Nenhum erro foi encontrado em / var / log / messages e / var / log / syslog.

O servidor responde ao ping, mas todos os serviços estão inativos (ssh, apache, ...). Depois de um reset, tudo funciona normalmente.

Um teste de hardware foi executado. Parece ser um problema de software.

    
por Martin Schlagnitweit 20.06.2011 / 18:22

3 respostas

3

Eu deixo alguns comandos de criação de perfil de luz fazendo o registro em arquivos, para que você possa dar uma olhada no que deu errado depois do fato. Por exemplo:

nohup top -b -d 60 >> top.log & # runs every 60 seconds
nohup vmstat 5 >> vmstat.log &
nohup iostat 5 >> iostat.log &

nohup está lá, então eles não são mortos quando você perder a conexão com o servidor. Você também pode usar screen para isso.

Uma alternativa mais robusta aos dois últimos comandos seria configurar sar .

    
por 20.06.2011 / 18:59
1

Quando vejo problemas como esse, geralmente acaba sendo um problema com um cron job.

Verifique se o seu syslog está executando tarefas agendadas na mesma hora do dia em que o servidor trava. Além disso, verifique seu crontab raiz ( crontab -e ) e trabalhos em /etc/cron.daily para qualquer coisa que possa ser responsável.

    
por 20.06.2011 / 19:09
-2

Parece que a falha aleatória pode ser causada por um hardware defeituoso. Solicite à empresa de hospedagem que verifique se há algum erro no POST ou no LCD do servidor. Se for um servidor dell, talvez você queira instalar o gerenciador aberto, que informará se algum hardware está com defeito. Na minha experiência, um dimm de memória defeituoso pode causar reinicializações aleatórias do servidor. Dependendo do tipo de hardware que você está executando, deve ser possível para sua hospedagem fazer uma troca de chassi no servidor se o problema continuar.

    
por 20.06.2011 / 20:34