O Windows Server 2008 R2 se desligou sem motivo aparente

6

Nosso novo servidor está funcionando basicamente bem por alguns meses. Por duas vezes, no entanto, ele se desligou sem motivo aparente.

A ocorrência mais recente foi às 23h41 de alguns dias atrás. Os logs de eventos não mostram nada desagradável e a última entrada é uma entrada de auditoria bastante comum no log de segurança. O log da UPS não mostra problemas de energia. Nada em particular estava correndo, como era depois de horas. Exceto, claro, o backup noturno, que começa às 22h. O log de backup também não mostra nada de interessante e apenas pára no meio do backup. Embora o servidor esteja configurado para gravar um dump do kernel e reiniciar, não há nenhum despejo de memória e o sistema não foi reiniciado. É um servidor HP Proliant ML330 G6 Series.

Quando o servidor foi reiniciado manualmente na manhã seguinte, os seguintes eventos foram registrados:

Log Name:      System
Source:        EventLog
Date:          4/16/2011 8:20:22 AM
Event ID:      6008
Task Category: None
Level:         Error
Keywords:      Classic
User:          N/A
Computer:      XXXXXXXX.xxxxxxxxxxxxxxxx.local
Description:
The previous system shutdown at 11:41:26 PM on ‎4/‎15/‎2011 was unexpected.

e

Log Name:      System
Source:        Microsoft-Windows-Kernel-Power
Date:          4/16/2011 8:20:00 AM
Event ID:      41
Task Category: (63)
Level:         Critical
Keywords:      (2)
User:          SYSTEM
Computer:      XXXXXXXX.xxxxxxxxxxxxxxxx.local
Description:
The system has rebooted without cleanly shutting down first. This error could be
caused if the system stopped responding, crashed, or lost power unexpectedly.

e

Log Name:      System
Source:        USER32
Date:          4/16/2011 8:22:34 AM
Event ID:      1076
Task Category: None
Level:         Warning
Keywords:      Classic
User:          XXXXXXXXXXXXXXX\Administrator
Computer:      XXXXXXXX.xxxxxxxxxxxxxxxx.local
Description:
The reason supplied by user XXXXXXXXXXXXXXX\Administrator for the last unexpected 
shutdown of this computer is: Other Failure: System Unresponsive
Reason Code: 0x8000005
Problem ID: 
Bugcheck String: 
Comment: 

Eu passei algum tempo pesquisando isso e achei muito pouco uso. Alguém tem alguma ideia?

UPDATE: Aqui estão as partes relevantes do log do iLO2:

305 04/15/2011 23:42:00 Server reset. 
306 04/15/2011 23:42:00 Server power removed. 
307 04/15/2011 23:42:00 iLO 2 network link down. 
308 04/15/2011 23:42:00 iLO 2 network link up at 100 Mbps. 
309 04/16/2011 08:17:00 Server power restored. 

UPDATE: Eu aumentei o tamanho do arquivo de paginação para permitir o despejo completo do kernel, então se for realmente uma falha do Windows, eu poderei ver o que aconteceu - na próxima vez que isso acontecer.

UPDATE: o firmware do servidor já estava atualizado.

ATUALIZAÇÃO: Havia muitas atualizações disponíveis para drivers e softwares de sistema. Eu instalei a maioria deles e agora estou apenas esperando para ver se o problema acontece novamente.

ATUALIZAÇÃO 2018Jun06: após seis anos de operação sem problemas, este problema retornou, ocorrendo duas vezes na última semana. Eu estou olhando para a possibilidade de que o painel frontal e sua fiação estejam com defeito.

UPDATE 2018Nov30: Finalmente trocou o conjunto de cabos do painel frontal, mas o problema ainda ocorre. Em seguida é a fonte de alimentação.

    
por boot13 18.04.2011 / 22:42

6 respostas

5

É mais provável que um kit de cabo de LED / interruptor de alimentação esteja com defeito. Meu ML310 G5 estava fazendo a mesma coisa, e foi isso que resolveu o problema. Aparentemente, é um problema conhecido da HP.

459186-001-02 HEWLETT-PACKARD PROLIANT LED FRONTAL DO SISTEMA ML310 G5 PARA CABO SYS / BRD P / N: 459186-001-02 - ORIGINAIS DA HEWLETT-PACKARD

    
por 17.10.2012 / 16:51
2

Eu tive esse problema EXATO acontecendo na minha caixa Server 2008 R2. Acontece que o CPUS da série Xeon 5000, que sua máquina usa, tem um problema com a função 2008 R2 e Hyper-V. Eu vou sair em um membro aqui e supondo que você tenha a função Hyper-V instalada, com base no problema sendo idêntico ao que eu estava tendo.

Existe um hotfix da Microsoft disponível AQUI . Eu instalei no meu sistema, e tem sido livre de problemas desde então.

    
por 03.05.2011 / 21:46
2

Eu vou sair daqui e dizer que você pode precisar de uma atualização de firmware. Fonte . Nós tivemos algo parecido com o nosso DL380 G6 há algum tempo.

    
por 03.05.2011 / 23:29
1

O superaquecimento da máquina? Verifique os ventiladores e aberturas para coelhinhos de poeira.

    
por 18.04.2011 / 22:44
1

Você tem o software do agente de gerenciamento da HP instalado? Você menciona logs de eventos e logs de backup do Windows, mas não os logs de "hardware". Você precisa procurar lá também porque os desligamentos espontâneos podem estar relacionados a um problema de hardware que você não conseguirá ver informações sobre qualquer outro lugar.

    
por 19.04.2011 / 01:40
0

Se realmente fosse uma falha do sistema, você teria encontrado um evento como este no log do sistema:

Level: Error
Source: Bugcheck
Event ID: 1001
Text: The computer has rebooted from a bugcheck.  The bugcheck was: [...]

Além disso, sendo configurado para salvar um dump do kernel e, em seguida, reinicializar, o servidor teria feito exatamente isso.

A ausência de tal registro de evento e de uma reinicialização subsequente significa que o desligamento foi causado por um evento externo (falta de energia, falha de hardware ...). Além disso, seus logs da OIT parecem confirmar que uma falha de energia foi o motivo real.

    
por 17.10.2012 / 17:04