O servidor trava a cada 2 semanas no mesmo horário exato

4

Alguns meses atrás, nosso servidor começou a travar a cada 14 dias, exatamente no mesmo horário (por volta de 11:04 a cada vez). Temos certeza de que isso não é um tipo de falha de hardware, já que as falhas de hardware tendem a ser aleatórias.

O servidor simplesmente pára de responder de repente e se reinicia após alguns segundos. Nenhum dos logs contém informações relacionadas e temos 100% de certeza de que não há cron no servidor que possa causar isso.

Alguém já enfrentou esse tipo de problema? Estamos extremamente frustrados com esse comportamento, já que não há nem uma pista do que está errado ...

Eu também fiz um vídeo antes de o servidor travar, você pode ver, nada parecia errado ...

Atualização 11 de abril de 2011:

2 semanas atrás : A fim de diminuir as possibilidades, o servidor foi desligado (desligamento -h agora) 5 minutos antes da próxima ocorrência. E, magicamente, o servidor inicializou sozinho no horário esperado. Depois disso, nosso controlador de domínio moveu o servidor para outra porta de PDU. Pensamos que isso finalmente resolveria nosso problema.

Hoje : o servidor ainda travou ao mesmo tempo !! Nosso DC disse que outros servidores na mesma PDU não têm esse problema. Agora estamos realmente confusos, se não é o PDU nem o nosso servidor, o que poderia ser?

    
por user75228 21.03.2011 / 13:37

7 respostas

2

Do vídeo, parece uma reinicialização a frio. E como você disse, nada nos logs. Tudo o que posso pensar é a chave "mágica" sysrq ou uma placa kvm defeituosa se nenhum outro servidor usando o mesmo UPS estiver experimentando o mesmo.

Um processo de monitoramento de sistema com bug / com defeito pode estar fazendo isso em dias / horas específicos. Isso deve ser divertido de rastrear.

O primeiro passo seria alterar a data e a hora do sistema operacional e verificar se ele é reinicializado por conta própria para que você possa reduzi-lo.

    
por 28.03.2011 / 04:38
2

Eu tive a mesma situação em que ambos os cabos de energia do servidor estavam conectados aos mesmos ups. Depois de olhar para os logs de ups, o reset aconteceu quando os ups fizeram o teste de limpeza - a cada 14 dias.

Solução: Conecte um cabo de energia a outro dispositivo ou conecte-o diretamente.

    
por 09.04.2011 / 23:00
0

O que exatamente você quer dizer com "exatamente a mesma hora"?

Assumindo que você tenha eliminado todos os trabalhos agendados (alterando os horários em que todos eles são executados - não apenas observando os logs), então o topo da minha lista estaria olhando para os logs do UPS. Você faz tem um no-break, não sabe?

    
por 21.03.2011 / 13:54
0

Eu realmente vi alguém fazer isso no cron, apenas para fazer chamadas de manutenção. Você definitivamente precisa verificar e certificar-se de que nada esteja explicitamente programado no sistema que possa causar esse tipo de problema.

O que o sistema registra?

    
por 21.03.2011 / 14:47
0

Eu tinha um servidor IBM que falhava a cada 76 dias. Dirigi-me absolutamente louco de frustração tentando descobrir isso. Acabou sendo um problema de relógio em uma das placas do sistema ( link ). Certifique-se de verificar se alguém teve problemas semelhantes com o servidor de criação e modelo apenas no caso.

    
por 06.04.2011 / 22:19
0

Se o servidor tiver o BMC externo, verifique os logs do BMC. Talvez o temporizador do BMC esteja configurado para 24 horas e não esteja sendo reiniciado pelo sistema operacional (ainda muitos BMCs tentam o desligamento normal primeiro)

    
por 26.05.2013 / 13:43
0

Primeiro, tente desativar crond no dia da falha. (Eu suspeito que um cron job às 11h que leva quatro minutos para rodar aciona um bug do kernel ou falha de hardware.)

Além disso, tente retardar o relógio do sistema em três minutos, para testar se o problema é causado por algo dentro do servidor ou externo ao servidor.

    
por 26.05.2013 / 17:40

Tags