Originalmente criado no serverfault como esta pergunta
Eu tenho um servidor Intel openSUSE 11.1 2.6.34.4 de produção com um padrão ipmiutil-2.4.1 instalado.
O watchdog é basicamente um timer de hardware de 90 segundos cancelado a cada 60 segundos do espaço do usuário por um cron job.
A causa do problema não é a reinicialização do watchdog em si, mas a falha do servidor subjacente, se houver. O watchdog IPMI IMO está fazendo seu trabalho para recuperar o sistema de um estado irrecuperável.
The server appears to have become sluggish/slow. I say this based on 'missed/missing' /var/log/cron, syslog and other application log entries.
Isso está acontecendo aleatoriamente sob testes de carga. A carga é basicamente o tráfego SIP para um servidor SIP. O problema não é facilmente reproduzível, mas acontece com bastante frequência. Também não é determinista em relação ao hardware, tempo, tipo de carga que está sendo executado.
I'm at my wits' end and don't know if it's a bad driver, an i/o
bug, something along these lines, the SIP application or something else.
Tenho volumes de relatórios detalhados de atividade do sistema, por exemplo,% usr,% nice,% sys,% iowait,% steal,% irq, pgpgin / s, pgpgout / s, falha / s, majflt / s, pgfree / s etc., se necessário.
Nenhum dos relatórios de atividade do sistema indica algo anormal (embora eu não afirme ter um olho exatamente treinado).