Investigar o congelamento de servidores de rotina

1

Eu tenho um servidor dedicado que roda o CentOS 6.3. De vez em quando, de manhã, das 2:00 às 6:00 no meu fuso horário, o servidor congela - não sei o que acontece, mas parece que todos os processos em execução param. Um aplicativo Java que eu fiz manteve os logs a cada minuto e, nesse momento, descontinuou. Consegui me conectar com o KVM e encontrei uma tela preta, na interface do KVM eu pude reiniciá-lo.

Gostaria de saber se alguém tem alguma ideia sobre como investigar a causa deste problema. Eu não tenho certeza do que os logs devem procurar e o que eu possivelmente encontraria.

Aqui está uma imagem do uso da largura de banda:

Como você pode ver, parece que o corte e o retorno são completos quando posso ativá-lo novamente.

    
por Keenan Thompson 06.01.2013 / 16:10

1 resposta

2

Existem algumas opções:

  • falha do software de virtualização / KVM
  • falha do sistema operacional convidado ou da pilha de rede [se o seu trabalho cron Java for executado localmente e não depender da conexão de rede, poderemos excluir a pilha de rede]
  • o sistema está sobrecarregado de alguma forma - troca até a morte, está com falta de CPU, atinge limites no número de processos ou fica sem memória.

Para descartar a falta de recursos, use algo como Sar ou Munin e tente coletar estatísticas básicas a cada minuto. Munin lhe dará muitas estatísticas úteis, incluindo média de carga, número de processos, uso de CPU, memória livre, uso de swap e atividade de troca.

Estou preocupado que seja uma falha no kernel do convidado ou mau comportamento do KVM. Em caso afirmativo, os métodos acima não ajudarão.

    
por 06.01.2013 / 16:30

Tags