Confira as informações aqui:
que parece sugerir que, após um longo período de tempo de baixa utilização do servidor, ocorre a recuperação automática do servidor.
Recentemente sofri uma reinicialização repentina deste servidor. Eu gosto de saber porque isso acontece. A única coisa que vejo que aconteceu logo antes da reinicialização no system.log é algo sobre o iLO. O iLO não está conectado nem é usado no momento. E não há outra mensagem sobre o iLO nos logs.
Alguma ideia?
SO: Debian Etch
Dec 15 10:55:13 s01 snmpd[2717]: Connection from UDP: [127.0.0.1]:59243
Dec 15 10:55:16 s01 hpasmxld[4745]: OsKcsExecCmd: IPMI NetFN 0x36 CMD: 0x2 has timed out!
Dec 15 10:55:26 s01 hpasmxld[4745]: OsKcsExecCmd: IPMI NetFN 0x36 CMD: 0x2 has timed out!
Dec 15 10:55:29 s01 snmpd[2717]: Connection from UDP: [127.0.0.1]:59243
Dec 15 10:55:36 s01 hpasmxld[4745]: OsKcsExecCmd: IPMI NetFN 0x36 CMD: 0x2 has timed out!
Dec 15 10:55:44 s01 snmpd[2717]: Connection from UDP: [127.0.0.1]:59243
Dec 15 10:55:46 s01 hpasmxld[4745]: OsKcsExecCmd: IPMI NetFN 0x36 CMD: 0x2 has timed out!
Dec 15 10:55:46 s01 hpasmxld[4745]: iLO 2 Communications Error - Attempting synchronization!
Dec 15 10:55:59 s01 snmpd[2717]: Connection from UDP: [127.0.0.1]:59243
Dec 15 10:56:29 s01 last message repeated 2 times
Dec 15 10:56:31 s01 hpasmxld[4745]: iLO 2 has responded to reset request . . .
Dec 15 10:56:31 s01 hpasmxld[4745]: Stopping the Watchdog Timer . . .
Dec 15 10:56:31 s01 hpasmxld[4745]: Resetting Internal Data structures . . .
Dec 15 10:56:31 s01 hpasmxld[4745]: Initializing Internal Data structures from iLO 2. . .
Dec 15 10:56:31 s01 hpasmxld[4745]: The iLO 2 reset / synchronization has completed successfully
Confira as informações aqui:
que parece sugerir que, após um longo período de tempo de baixa utilização do servidor, ocorre a recuperação automática do servidor.
Como sua máquina possui os agentes de gerenciamento da HP instalados (com base nas entradas de log), você pode dar uma olhada rápida no log de gerenciamento integrado da HP para ver se um ASR foi realmente gravado. Execute hplog -v
para exibir o log. Uma mensagem típica indicando um encerramento do ASR seria semelhante a:
0003 Critical 13:49 02/23/2010 13:49 02/23/2010 0001
LOG: ASR Detected by System ROM
Você também pode querer verificar seu log de mensagens. Os agentes de gerenciamento da HP podem produzir algo assim seguindo uma ASR:
Trap-ID=6025
An 'ASR Recover Complete' trap signifies that the system has
been shutdown by the ASR feature and has just become operational
again.
Eu tive uma falha semelhante em um servidor HP que estava com problemas de aquecimento excessivo como resultado de um dissipador de calor da CPU mal ajustado.
O servidor em si não mostrou nenhum sinal externo de haver um problema, mas no seu caso pode valer a pena verificar as temperaturas da CPU e (durante um período de manutenção planejada) executar uma verificação de memória.
Tags hp hp-proliant