Estamos executando uma instância do Ubuntu no Amazon EC2, e recentemente tivemos uma falha inesperada (e inexplicável no momento) (não relacionada à interrupção recente). O problema era basicamente que a máquina não responderia a nada (SSH / HTTP), embora tudo no console da AWS sugira que a instância estava funcionando bem (o uso da CPU estava em 0 no CloudWatch).
Por fim, recorremos à reinicialização da instância, que parece ter restaurado, por enquanto. Eu tenho:
- verificou todos os logs em que eu conseguia pensar (
dmesg
, syslog
, etc.) e não consegui encontrar nada de erro-y;
- verificou o log do sistema no console aws antes reiniciar a máquina, nada erro-y;
- olhou para o CloudWatch e não consigo ver nada fora do lugar, a Utilização da CPU parece cair de repente para 0 sem quaisquer picos antes disso. Todas as outras métricas também são estáveis;
- garantiu que há espaço de armazenamento suficiente na instância (portanto, nenhum erro de falta de memória no disco rígido ocorre).
Eu não sei mais o que fazer / check.
Existe algo que eu possa fazer para evitar que isso aconteça novamente? Isso nos causou bastante tempo de inatividade. Se não, o que devo fazer se acontecer de novo? Mais alguma coisa além de reiniciar?
Atualizar
É feito de novo. A instância foi instalada há apenas duas semanas (logo após a interrupção da Amazon). Ele funciona perfeitamente bem até um momento em que ele simplesmente não responde. Novamente, havia alguém logado 10 minutos antes, rodando htop
e estava tudo bem.
Atualização nº 2
Ele caiu novamente. Aqui estão alguns gráficos do AWS CloudWatch (precisamos dos volumes do EBS, um para inicialização e outro para dados):
1. DiskReadBytes (métrica da instância)
Nota:otravamentoaconteceuapósopicopróximoàs19:00
2.VolumeReadBytes(métricaEBS,dadosEBS)
3. VolumeReadBytes (métrica do EBS, boot EBS)
Não tenho ideia do que significa uma linha interrompida.