Solução de problemas de servidor misterioso congela no Amazon EC2

5

Eu tenho uma instância do Amazon EC2 executando o LAMP no Ubuntu Natty / 11.04. Em três ocasiões separadas nos últimos meses, duas das quais nas últimas duas semanas, o servidor acabou de parar. Ele deixa de responder e pára de responder às tentativas de conexão (SSH ou outras), mas o painel de controle do EC2 ainda o reporta como sendo executado. Cada vez que eu tive que reiniciar a instância através do console, com a consequente perda de dados.

Então, agora estou tentando diagnosticar o problema, mas estou chegando em branco e preciso de conselhos sobre o que mais verificar. O Syslog não contém nada de suspeito - em cada ocasião, a última coisa que aconteceu foi munin executando seu cronjob regular de cinco minutos, embora eu não saiba exatamente quando a máquina parou de funcionar, não posso dizer o quão perto o log do cron está até o ponto de congelamento. Depois disso, é como se a máquina simplesmente não estivesse rodando até o ponto em que foi reiniciada, após o qual o syslog do ponto contém o que me parece a saída normal do dmesg.

Parece não haver correlação entre o volume de tráfego e o tempo desses congelamentos. Cada ocasião foi muito afastada dos horários de pico do tráfego.

O que mais posso analisar para tentar descobrir o que está causando esses problemas? Qual poderia ser o problema?

ADENDO: O servidor não estava sob carga pesada em qualquer ocasião em que caiu. A CPU e o uso da memória estavam bem e com segurança abaixo dos limites. Havia muito espaço livre em disco (dezenas de gigabytes). Não há nada de estranho nos logs do Apache ou MySQL, eles simplesmente param de funcionar naquele momento. Esta é uma instância de CPU média / alta.

    
por pjohansson 24.11.2011 / 09:29

2 respostas

3

A primeira coisa que você deve fazer é configurar alguns monitoramentos para informar quando o servidor não responder. Você pode fazer isso usando pingdom e / ou cloudwatch para verificar o tempo de atividade do serviço e as estatísticas do sistema, como cpu e ram. Ambos têm planos gratuitos para contas pequenas. Isso permitirá que você tenha uma idéia quando ela ficar inativa e facilite a busca dos logs em relação ao que estava acontecendo naquele momento. Usully algo como isto pode ser causado pelo sistema não ter recursos suficientes, você não menciona qual é o tamanho da sua instância, mas algo como um micro poderia ser apenas pegging 100% cpu por um simples trabalho cron e em que servidor ponto apenas trava .

Aloso verifica outros logs ao lado do syslog, verifica todos os logs do aplicativo para ver se algum deles está gerando um erro antes que o sistema fique inativo.

    
por 24.11.2011 / 13:51
-3

Pode ser um NIC com defeito na máquina host.

    
por 03.02.2014 / 20:40