Windows Server 2003 aparente reiniciar ou congelar, sem causa aparente?

1

Temos um servidor em um site de produção, ele é executado 24 horas por dia, 7 dias por semana, embora a maior parte do tráfego seja de horário comercial normal. Sua função é executar um call center de telefonia usando o hardware baseado em Dialogic.

Os usuários locais da máquina notaram que a máquina não estava respondendo aos aplicativos clientes por volta das 8h30 da manhã, quando tentamos acessar remotamente, conseguimos fazer o ping, mas não pudemos obter acesso remoto RDP a ela.

Por volta das 9h15, pedimos a eles que puxassem os cabos de energia da máquina e a reiniciassem. Quando ela voltasse, poderíamos continuar.

Descobrimos que o RAID estava fazendo uma verificação e reconstrução (presumo isso por causa do desligamento sem cerimônia).

Depois que pudemos analisar o servidor depois de garantir que os serviços ativos estivessem novamente operacionais (sem problemas), analisamos o log de eventos.

A última entrada de evento "normal" que vejo é um processo automatizado com uma falha de autenticação (LsaSrv, SPNEGO (Negociador) Event ID 40960, 1:19:26 e novamente às 2:49:27, a próxima O evento no log é às 9:15 quando reinicializamos a máquina a frio. Essa entrada de log de eventos diz:

Identificação do evento 6008 O desligamento anterior do sistema às 2:49:40 de 10/05/2011 foi inesperado.

Seguindo a partir dessa entrada, há as entradas normais de inicialização, já que os vários serviços aparecem e a máquina está bem desde então.

Executamos o Blue Screen Viewer e confirmou que não havia telas azuis que pudessem ter causado isso. A máquina não tem acesso a um KVM em seu rack, infelizmente, ninguém foi capaz de ver o que estava na tela antes de ser reinicializado.

Perguntas: 1. Existem algumas dessas falhas de autenticação, pedi aos administradores locais para resolver esse problema (pará-lo ou consertar a autenticação) - isso poderia ter sido construído de alguma forma?

  1. Alguma idéia do que realmente aconteceu?

  2. Que passos posso dar para tentar identificá-lo? Poderia ser hardware? É razoavelmente novo, um par de anos no máximo, kit de qualidade decente e este é o primeiro problema que tivemos nesses dois anos.

  3. Como o Windows determina a data / hora do último desligamento inesperado? É baseado na última entrada de log? Ou ele mantém uma vigia do tempo de alguma forma e, em seguida, se isso é definido quando ele reinicia, ele sabe quando falhou?

  4. Poderia ser funções de alto nível da máquina simplesmente congelou, deixando apenas coisas básicas como ping baixo nível ainda trabalhando? E se for esse o caso, o que isso me diz?

A linha de fundo é que estão sendo feitas perguntas simples pela gerência, o que aconteceu e como podemos ter certeza de que isso não aconteça novamente, como eu tenho certeza que você pode imaginar:)

Muito obrigado, deixe-me saber se posso fornecer mais informações ou verificar qualquer coisa no servidor.

Matt.

    
por Matt Peddlesden 05.10.2011 / 18:13

1 resposta

1

O fato de você ter 6+ horas de tempo morto sem eventos me faz pensar que é hardware. a recompilação do Raid pode ter sido causada pela tomada de força e também pode ser o culpado.

Estes eventos, eles eram Log de Aplicativos, Log do Sistema ou ambos?

Há muitas possibilidades para dizer a verdade, mas, eu começaria obtendo esse servidor em um KVM para que um administrador local pudesse ver o que está acontecendo se isso acontecesse novamente, digo, porque pode ter sido algo tão simples como uma flutuação de poder, e pode nunca acontecer novamente. Eu suponho que o servidor está em um no-break, mas quando foi a última vez que foi testado?

    
por 05.10.2011 / 18:23