Nginx + falha no servidor Apache a cada 6 dias [fechado]

1

Sou um desenvolvedor web e estou tendo um problema muito desagradável com um dos sites em que estou trabalhando e esperava que alguém aqui pudesse me ajudar.

O site está sendo executado em um servidor dedicado com o CentOS 6.6, uma configuração Nginx + Apache com o Vesta como painel de controle. Não tenho certeza se é muito relevante aqui, mas o site usa o Sphinx como mecanismo de pesquisa.

Desde meados de janeiro a cada 6 dias, o servidor falha, sempre em horários diferentes. A recuperação geralmente leva cerca de uma hora e 15 minutos durante os quais não há entradas em nenhum dos arquivos de log.

Após a recuperação do servidor, duas das maiores tabelas no banco de dados MySQL lançam erros de chave duplicados e, por serem grandes demais para serem reparadas com rapidez suficiente, normalmente eu as trunco e restauro a partir de backups.

  • Eu verifiquei todos os logs e não consegui encontrar nenhuma sugestão / informação relevante sobre o travamento. Todos os logs contêm entradas normais até o momento da falha e, em seguida, continuam após a recuperação do servidor.

  • Eu verifiquei todos os crons para todos os usuários e não há nenhum que seja executado a cada 6 dias.

  • o uso de CPU e memória antes das falhas é muito baixo: 1,6% da CPU e 16,5% da memória, que é a carga normal no servidor.

  • por cerca de uma semana desconfiei que o cron do backup do Vesta estava de alguma forma relacionado a isso, pois mantinha o uso da memória em 74% o tempo todo, mesmo depois de ter terminado a execução, mas o desabilitei e a diminuição do uso de memória, a falha ainda está lá.

Você tem algum conselho sobre o que posso fazer para identificar o culpado? Eu fiquei sem ideias.

Obrigado!

PS: Se você precisar que eu forneça outras informações, por favor me avise!

    
por Fallen 10.03.2015 / 11:10

1 resposta

0

Tente coletar métricas e gerar gráficos delas. Nada supera os gráficos. Uma ferramenta como a Munin pode ser muito útil nessas situações, olhar para a memória, io, processos, cpu, redes, interrupções, etc. ao longo do tempo.

link

Além disso, se sua máquina for uma VM e tiver um sistema de arquivos de rede que se torne indisponível, isso poderá explicar a lacuna nos tempos de registro (para pontos extras, tente logar remotamente).

    
por 10.03.2015 / 13:33