como descobrir o motivo da operação anormal do sistema no linux?

0

Recentemente, um dos meus servidores da web tem um problema estranho de que a média de carga aumentou de 0.01 para 15.00+ e, em seguida, não consigo nem fazer logon no servidor via ssh com uma mensagem de erro "nenhuma rota para o host xxx.xx .xx.xx ". Mas o problema dura apenas alguns minutos. A situação surge cerca de duas ou três vezes por dia, o que é bastante irritante para mim. Na sua rede existem outros servidores implantados com o mesmo sistema operacional e serviços, eles funciona perfeitamente bem.Eu acho que é um problema do sistema.Então, como posso descobrir por que o problema surge? Qualquer comando do sistema para esse tipo de rastreio de problemas? A ajuda seria apreciada. (Sistema operacional: center os 5.2, com serviço da Web baseado em LNMP)

    
por SpawnST 07.11.2012 / 03:15

1 resposta

1

Verifique os seguintes arquivos

/var/log/syslog
/var/log/httpd/error_log

Existe também um gui System Log Viewer se você pode acessar a interface gráfica.

Você mencionou que a situação durará vários minutos. Isso pode indicar que o servidor realmente caiu e se reinicializou. Use o seguinte comando para ver se isso realmente acontece

last reboot

Se o servidor for realmente reinicializado, você verá linhas como segue

reboot   system boot  3.2.0-0.bpo.3-68 Fri Nov  2 18:25 - 21:46  (03:20)

Tente também

last -x

Próximo passo 1

Verifique o / var / log / syslog para o processo crash / kill e a mensagem do kernel em torno do período anormal. Isso pode dar mais alguma pista.

Próximo passo 2

A seguir, um último recurso, se você não puder sentar-se bem em frente a esse servidor e esperar que isso aconteça. USE CUIDADOSAMENTE

Em / etc / crontab , adicione a seguinte linha

#* * * * * root /usr/bin/top -b -n 1 | /usr/bin/head -n 15 >> /var/log/top.log

A cada 1 minuto , ele anexará o resumo do sistema com os 8 principais processos de cpu superiores a /var/log/top.log .

Está desativado com # na frente. Remova o # irá ativá-lo. Você pode querer mudar esse caminho para algum lugar que você tenha muito espaço se quiser mantê-lo funcionando durante a noite.

DESATIVE AQUI, DEPOIS DE REINICIAR A CONEXÃO Desative-o colocando o # de volta ou exclua a linha.

Verifique se / usr / bin / top e / usr / bin / head estão corretos para ambos os comandos.

    
por 07.11.2012 / 03:34