Servidor CentOS54 desaparecido, sem ssh, sem ping, console travado. nada nos logs

1

Um dos meus servidores nfs desapareceu esta manhã do monitoramento. Eu verifiquei e o console estava travado e não respondia, e aparentemente ele caiu.

Liguei e verifiquei o syslog, e parece que ele acabou de funcionar sem nenhuma indicação do motivo.

Existe alguma configuração de kernel ou depuração que eu possa aplicar, para tentar capturar qualquer re-ocorrência futura ou esse problema. (ou qualquer recomendação sobre como proceder)

    
por Tom H 19.07.2010 / 14:13

2 respostas

3

Se ele travasse completamente, nada nos logs, eu suspeitava strongmente que fosse relacionado a hardware. Eu recolocaria a memória, verificaria se os ventiladores estavam funcionando corretamente para resfriar o servidor e se é um sistema de nível de servidor, use os diagnósticos para verificar o equipamento (eu sei que os servidores Dell geralmente têm uma série de testes que podem ser executado, mas depende do modelo, seja na BIOS ou em uma partição de inicialização ou em um CD inicializável)

Raramente, raramente, raramente eu tive Linux travar completamente de uma maneira sem resposta sem um dump do kernel ou algo nos logs. Eu tive sistemas enlouquecer devido a um controlador de morrer, memória creeping, ou algo relacionado a hardware, que pode facilmente fazer o que você está descrevendo.

    
por 19.07.2010 / 14:24
2

Verifique seu hardware, como Bart disse. Além disso, às vezes, uma máquina sem resposta pode estar nesse estado devido a uma carga estupidamente grande. Eu vi alguns servidores de email fazendo isso. Verifique sua rede, o NFS pode travar mal se a rede desaparecer quando estiver fazendo algo.

Se você precisar fazer isso em uma máquina novamente, lembre-se da tecla Magic Sysrq e da frase Raising Elephants Is So Utterly Boring. O ALT + SysRQ + pode fazer maravilhas em uma caixa linux que está morta em todos os aspectos. A prase é lembrar os comandos para usar com ALT + SysRQ:

R: take control of the keyboard
E: sends SIGTERM to all processes
I: sends SIGKILL to all processes
S: Sync (flush caches to disk, very important)
U: remount all FS read only
B: reboot!
    
por 20.07.2010 / 00:37