Nosso novo servidor está funcionando basicamente bem por alguns meses. Por duas vezes, no entanto, ele se desligou sem motivo aparente.
A ocorrência mais recente foi às 23h41 de alguns dias atrás. Os logs de eventos não mostram nada desagradável e a última entrada é uma entrada de auditoria bastante comum no log de segurança. O log da UPS não mostra problemas de energia. Nada em particular estava correndo, como era depois de horas. Exceto, claro, o backup noturno, que começa às 22h. O log de backup também não mostra nada de interessante e apenas pára no meio do backup. Embora o servidor esteja configurado para gravar um dump do kernel e reiniciar, não há nenhum despejo de memória e o sistema não foi reiniciado. É um servidor HP Proliant ML330 G6 Series.
Quando o servidor foi reiniciado manualmente na manhã seguinte, os seguintes eventos foram registrados:
Log Name: System
Source: EventLog
Date: 4/16/2011 8:20:22 AM
Event ID: 6008
Task Category: None
Level: Error
Keywords: Classic
User: N/A
Computer: XXXXXXXX.xxxxxxxxxxxxxxxx.local
Description:
The previous system shutdown at 11:41:26 PM on 4/15/2011 was unexpected.
e
Log Name: System
Source: Microsoft-Windows-Kernel-Power
Date: 4/16/2011 8:20:00 AM
Event ID: 41
Task Category: (63)
Level: Critical
Keywords: (2)
User: SYSTEM
Computer: XXXXXXXX.xxxxxxxxxxxxxxxx.local
Description:
The system has rebooted without cleanly shutting down first. This error could be
caused if the system stopped responding, crashed, or lost power unexpectedly.
e
Log Name: System
Source: USER32
Date: 4/16/2011 8:22:34 AM
Event ID: 1076
Task Category: None
Level: Warning
Keywords: Classic
User: XXXXXXXXXXXXXXX\Administrator
Computer: XXXXXXXX.xxxxxxxxxxxxxxxx.local
Description:
The reason supplied by user XXXXXXXXXXXXXXX\Administrator for the last unexpected
shutdown of this computer is: Other Failure: System Unresponsive
Reason Code: 0x8000005
Problem ID:
Bugcheck String:
Comment:
Eu passei algum tempo pesquisando isso e achei muito pouco uso. Alguém tem alguma ideia?
UPDATE: Aqui estão as partes relevantes do log do iLO2:
305 04/15/2011 23:42:00 Server reset.
306 04/15/2011 23:42:00 Server power removed.
307 04/15/2011 23:42:00 iLO 2 network link down.
308 04/15/2011 23:42:00 iLO 2 network link up at 100 Mbps.
309 04/16/2011 08:17:00 Server power restored.
UPDATE: Eu aumentei o tamanho do arquivo de paginação para permitir o despejo completo do kernel, então se for realmente uma falha do Windows, eu poderei ver o que aconteceu - na próxima vez que isso acontecer.
UPDATE: o firmware do servidor já estava atualizado.
ATUALIZAÇÃO: Havia muitas atualizações disponíveis para drivers e softwares de sistema. Eu instalei a maioria deles e agora estou apenas esperando para ver se o problema acontece novamente.
ATUALIZAÇÃO 2018Jun06: após seis anos de operação sem problemas, este problema retornou, ocorrendo duas vezes na última semana. Eu estou olhando para a possibilidade de que o painel frontal e sua fiação estejam com defeito.
UPDATE 2018Nov30: Finalmente trocou o conjunto de cabos do painel frontal, mas o problema ainda ocorre. Em seguida é a fonte de alimentação.