Como descobrir, porque um servidor trava, mas ainda é alcançável com ping

Question

Como descobrir, porque um servidor trava, mas ainda é alcançável com ping

#1 resposta do (3 votos)
#2 resposta do (1 votos)
#3 resposta do (-2 votos)

2

Um dos meus servidores, que é executado em um data center alemão, "trava" todas as noites, mas não consigo descobrir por quê. Nenhum erro foi encontrado em / var / log / messages e / var / log / syslog.

O servidor responde ao ping, mas todos os serviços estão inativos (ssh, apache, ...). Depois de um reset, tudo funciona normalmente.

Um teste de hardware foi executado. Parece ser um problema de software.

debian linux server-crashes

por Martin Schlagnitweit 20.06.2011 / 16:22

3 respostas

Tags debian linux server-crashes

v2v da caixa RHEL5 - problemas com a retenção do endereço MAC Como digitar / enviar hex em uma sessão do PuTTY

score 3 · Answer 1

Eu deixo alguns comandos de criação de perfil de luz fazendo o registro em arquivos, para que você possa dar uma olhada no que deu errado depois do fato. Por exemplo:

nohup top -b -d 60 >> top.log & # runs every 60 seconds
nohup vmstat 5 >> vmstat.log &
nohup iostat 5 >> iostat.log &

nohup está lá, então eles não são mortos quando você perder a conexão com o servidor. Você também pode usar screen para isso.

Uma alternativa mais robusta aos dois últimos comandos seria configurar sar .

score 1 · Answer 2

Quando vejo problemas como esse, geralmente acaba sendo um problema com um cron job.

Verifique se o seu syslog está executando tarefas agendadas na mesma hora do dia em que o servidor trava. Além disso, verifique seu crontab raiz ( crontab -e ) e trabalhos em /etc/cron.daily para qualquer coisa que possa ser responsável.

score -2 · Answer 3

Parece que a falha aleatória pode ser causada por um hardware defeituoso. Solicite à empresa de hospedagem que verifique se há algum erro no POST ou no LCD do servidor. Se for um servidor dell, talvez você queira instalar o gerenciador aberto, que informará se algum hardware está com defeito. Na minha experiência, um dimm de memória defeituoso pode causar reinicializações aleatórias do servidor. Dependendo do tipo de hardware que você está executando, deve ser possível para sua hospedagem fazer uma troca de chassi no servidor se o problema continuar.