Reinicializações súbitas da máquina observadas com o temporizador do watchdog ipmiutil

1

Originalmente criado no serverfault como esta pergunta

Eu tenho um servidor Intel openSUSE 11.1 2.6.34.4 de produção com um padrão ipmiutil-2.4.1 instalado.

O watchdog é basicamente um timer de hardware de 90 segundos cancelado a cada 60 segundos do espaço do usuário por um cron job.

A causa do problema não é a reinicialização do watchdog em si, mas a falha do servidor subjacente, se houver. O watchdog IPMI IMO está fazendo seu trabalho para recuperar o sistema de um estado irrecuperável.

The server appears to have become sluggish/slow. I say this based on 'missed/missing' /var/log/cron, syslog and other application log entries.

Isso está acontecendo aleatoriamente sob testes de carga. A carga é basicamente o tráfego SIP para um servidor SIP. O problema não é facilmente reproduzível, mas acontece com bastante frequência. Também não é determinista em relação ao hardware, tempo, tipo de carga que está sendo executado.

I'm at my wits' end and don't know if it's a bad driver, an i/o bug, something along these lines, the SIP application or something else.

Tenho volumes de relatórios detalhados de atividade do sistema, por exemplo,% usr,% nice,% sys,% iowait,% steal,% irq, pgpgin / s, pgpgout / s, falha / s, majflt / s, pgfree / s etc., se necessário.

Nenhum dos relatórios de atividade do sistema indica algo anormal (embora eu não afirme ter um olho exatamente treinado).

    
por O.P 03.11.2011 / 08:10

1 resposta

1

Não acho que seja uma boa ideia definir um cron job para essa tarefa crítica. Observe que o cron pode bloquear outras tarefas antes da execução da tarefa de monitoramento conforme descrito aqui . A partir do que você descreve, assumindo que o sistema não exibiu nenhum comportamento anormal que não seja a reinicialização, é muito provável que a tarefa cron não tenha sido executada com o tempo.

Existem daemons de watchdog independentes que podem ser usados para redefinir o cronômetro a cada segundo ou mais. Eu sugiro que você use um deles. Consulte o cão de guarda da BMC .

    
por 05.11.2011 / 10:04