Depurando um travamento / travamento completo?

2

Estamos executando uma instância do Ubuntu no Amazon EC2, e recentemente tivemos uma falha inesperada (e inexplicável no momento) (não relacionada à interrupção recente). O problema era basicamente que a máquina não responderia a nada (SSH / HTTP), embora tudo no console da AWS sugira que a instância estava funcionando bem (o uso da CPU estava em 0 no CloudWatch).

Por fim, recorremos à reinicialização da instância, que parece ter restaurado, por enquanto. Eu tenho:

  • verificou todos os logs em que eu conseguia pensar ( dmesg , syslog , etc.) e não consegui encontrar nada de erro-y;
  • verificou o log do sistema no console aws antes reiniciar a máquina, nada erro-y;
  • olhou para o CloudWatch e não consigo ver nada fora do lugar, a Utilização da CPU parece cair de repente para 0 sem quaisquer picos antes disso. Todas as outras métricas também são estáveis;
  • garantiu que há espaço de armazenamento suficiente na instância (portanto, nenhum erro de falta de memória no disco rígido ocorre).

Eu não sei mais o que fazer / check.

Existe algo que eu possa fazer para evitar que isso aconteça novamente? Isso nos causou bastante tempo de inatividade. Se não, o que devo fazer se acontecer de novo? Mais alguma coisa além de reiniciar?

Atualizar

É feito de novo. A instância foi instalada há apenas duas semanas (logo após a interrupção da Amazon). Ele funciona perfeitamente bem até um momento em que ele simplesmente não responde. Novamente, havia alguém logado 10 minutos antes, rodando htop e estava tudo bem.

Atualização nº 2

Ele caiu novamente. Aqui estão alguns gráficos do AWS CloudWatch (precisamos dos volumes do EBS, um para inicialização e outro para dados):

1. DiskReadBytes (métrica da instância)

Nota:otravamentoaconteceuapósopicopróximoàs19:00

2.VolumeReadBytes(métricaEBS,dadosEBS)

3. VolumeReadBytes (métrica do EBS, boot EBS)

Não tenho ideia do que significa uma linha interrompida.

    
por Felix 03.05.2011 / 21:46

1 resposta

1

É improvável que um Ubuntu não modificado faça isso, suspeito que um dos aplicativos adicionados tenha causado isso. Eu não percebo o uso de RAM na sua lista, talvez valesse a pena armazenar a saída do topo a cada hora em um arquivo de log usando o cron. Você pode simplesmente ter um vazamento ou não ter RAM suficiente.

    
por 04.05.2011 / 16:09