Solucionando problemas do temido 0x9C BSOD

3

Temos um Dell PowerEdge 2950 executando o Windows Server 2003 R2, Enterprise x64 com Service Pack 2 instalado.

Recentemente, passamos por vários erros de STOP ocorrendo com esse servidor. Felizmente, ele está funcionando como uma máquina de failover, portanto, não está afetando o nosso ambiente de produção. O erro que aparece no log do servidor é este:

Event Type: Error
Event Source:   System Error
Event Category: (102)
Event ID:   1003
Description:
Error code 000000000000009c, parameter1 0000000000000004, 
parameter2 fffffadf90881240, parameter3 00000000f2000000, 
parameter4 0000000000060151.

Até agora, o melhor que consegui detectar é que o erro 9C é algum tipo de problema genérico de hardware. Os outros parâmetros não foram úteis para diminuir esse problema.

Não houve mudanças de hardware desde que a máquina foi colocada em funcionamento no ano passado. Tem uma caixa gêmea que é idêntica (a principal que esta age como um failover para) que não está experimentando o comportamento. A última alteração de software ocorreu em 16/4/2009, quando várias atualizações de segurança foram aplicadas. As telas azuis começaram a acontecer em 5/9/2009.

Existe algum diagnóstico que possa ajudar com este problema?

    
por palehorse 11.05.2009 / 17:55

3 respostas

2

Veja a resposta de Kazna3 no link Ele escreve:

But first, the BSOD is pretty old. The 0x9C BUGCHECK is hardware related, well known. The rest of it concerns the processor, it's a processor fault or just the processor driver. :(

Have a look here for the explanation: 0x9C: MACHINE_CHECK_EXCEPTION (http://msdn2.microsoft.com/en-us/library/ms795775.aspx)

Microsoft used to advise this when we got it with the P4s:

Step 1) Update your BIOS (hardware patches called microcode updates ride here, if your processor or AMLI has an errata, it would be fixed here).

Step 2) Call hardware vendor immediately as this is a strict hardware error.

Step 3) Replace hardware, starting with CPU.

Em outras palavras, seu hardware provavelmente está funcionando. Possivelmente um brown-out, ou alta temperatura. Só porque um componente é de estado sólido não significa que não pode falhar. Por exemplo: a RAM falha o tempo todo - há uma razão pela qual ela é enviada em bolsas antiestáticas.

    
por 11.05.2009 / 19:29
0

Você tem acesso físico à máquina? O LCD de status fornece um código de erro quando isso acontece, ou parece esquecido?

Se você tem o OpenManage instalado, você já é um leg-up. Verifique os logs do OpenManage para ver se ele registrou algum erro de hardware. O OpenManage também inclui um conjunto de diagnósticos bastante completo. Confira o link para obter uma explicação sobre como usá-lo. Normalmente, o suporte da Dell faz alguns testes de diagnóstico da CLI, por isso, talvez seja melhor entrar em contato com eles.

Como etapa genérica (e para impedir que o Suporte solicite isso), atualiza o firmware BMC do seu BIOS e do Embedded Server Management .

Substitua sua CPU se você tiver um sobressalente.

Além disso, pode parecer estranho, mas se você tiver um DRAC instalado, remova-o. Eu tinha um 2850 que estava dando códigos de erro da CPU (E07F0), congelando aleatoriamente e, ocasionalmente, não inicializar. Trocar o DRAC corrigiu e está livre de problemas desde então.

Se nada disso funcionar, é hora de ligar para a Dell. Isso é 100% abaixo da camada do SO.

    
por 11.05.2009 / 20:13
0

Veja o Microsoft KB 939315 - o driver storport pode causar isto ..... você viu o erro na reinicialização ou no desligamento ou simplesmente durante a execução?

    
por 01.10.2009 / 18:08