Como solucionar problemas de suspensão do servidor linux

3

Eu tenho várias máquinas Ubuntu Server 8.04 em um local remoto. A cada dois meses, um deles parava de responder e precisava ser desligado. Olhando para os meus arquivos de log, parece que todos os meus processos estão funcionando bem até que, em algum momento, tudo simplesmente pára.

Suspeito que seja um problema de hardware, mas nem sei como começar a identificar o problema. Existem ferramentas ou técnicas de diagnóstico projetadas para rastrear esse tipo de problema?

Eu sei que esta é uma questão bastante geral, mas estou esperando uma resposta geral.

    
por itsadok 03.05.2009 / 17:55

5 respostas

3

Conecte outra máquina e configure um console serial para obter todas as mensagens do kernel e as que surgirem. Se é um pânico do kernel ou algum outro problema catastrófico, você verá isso lá. Também é recomendável monitorar a temperatura e executar um memtest, especialmente se o console não mostrar nada de anormal antes que as rodas caiam.

    
por 04.05.2009 / 00:25
3

O Memtest seria o primeiro ponto de chamada, mas se você puder, peça ao centro para conectar um console na próxima vez que ele falhar. Se o kernel está indo, deve produzir algo para a tela.

    
por 03.05.2009 / 18:13
3

Eu tive um problema semelhante no passado e acabou sendo relacionado ao calor. Melhorar a circulação e adicionar um fã ou dois ajudou muito.

Além disso, verifique se você está habilitado para SMART nos seus discos e verifique se um deles está prestes a terminar.

Você pode querer instalar o munin para monitorar todos eles e ver o que está acontecendo.

    
por 03.05.2009 / 18:15
1

Coloque em uma solução abrangente de monitoramento remoto com algo parecido com o Zabbix. Monitorar aspectos do uso de recursos do sistema, bem como quaisquer estatísticas de hardware disponíveis para o sistema operacional (por exemplo, velocidades de ventoinhas, temperaturas e afins). Dessa forma, quando seu sistema cair em seguida, você terá vários pontos de dados para ver qual é o problema.

Com essa abordagem, você pode descobrir, por exemplo, que há um processo que fica fora de controle com a alocação de RAM, empurra o sistema para swap e faz com que o assassino de memória comece a esculpir seus processos em execução, deixando a máquina sem resposta. Sem monitoramento, você não poderia saber disso.

    
por 03.05.2009 / 19:23
1

Demasiada pouca informação dada a qualquer coisa que funcione definitivamente.

Seria bom saber como você define "paragens" respondendo? É apenas o ssh que pára de responder ou algum outro serviço? Alguma idéia se o console ainda estiver respondendo?

Algum rastreio nos arquivos de log depois que a máquina estiver on-line novamente após a reinicialização?

De qualquer forma, poucas opções para avançar na coleta de informações:

  • Ative o getty na linha serial e, se você não puder fazer compras na compra de um servidor serial, faça o crosswire das séries entre as máquinas. Se uma máquina não puder ser acessada via rede, você pode tentar obter acesso via serial.
  • instale o software de monitoramento e obtenha o status de lmsensors, smart tools tec.
  • envia syslogs para a máquina remota.
por 21.05.2009 / 23:11