Temos um servidor em um site de produção, ele é executado 24 horas por dia, 7 dias por semana, embora a maior parte do tráfego seja de horário comercial normal. Sua função é executar um call center de telefonia usando o hardware baseado em Dialogic.
Os usuários locais da máquina notaram que a máquina não estava respondendo aos aplicativos clientes por volta das 8h30 da manhã, quando tentamos acessar remotamente, conseguimos fazer o ping, mas não pudemos obter acesso remoto RDP a ela.
Por volta das 9h15, pedimos a eles que puxassem os cabos de energia da máquina e a reiniciassem. Quando ela voltasse, poderíamos continuar.
Descobrimos que o RAID estava fazendo uma verificação e reconstrução (presumo isso por causa do desligamento sem cerimônia).
Depois que pudemos analisar o servidor depois de garantir que os serviços ativos estivessem novamente operacionais (sem problemas), analisamos o log de eventos.
A última entrada de evento "normal" que vejo é um processo automatizado com uma falha de autenticação (LsaSrv, SPNEGO (Negociador) Event ID 40960, 1:19:26 e novamente às 2:49:27, a próxima O evento no log é às 9:15 quando reinicializamos a máquina a frio. Essa entrada de log de eventos diz:
Identificação do evento 6008
O desligamento anterior do sistema às 2:49:40 de 10/05/2011 foi inesperado.
Seguindo a partir dessa entrada, há as entradas normais de inicialização, já que os vários serviços aparecem e a máquina está bem desde então.
Executamos o Blue Screen Viewer e confirmou que não havia telas azuis que pudessem ter causado isso. A máquina não tem acesso a um KVM em seu rack, infelizmente, ninguém foi capaz de ver o que estava na tela antes de ser reinicializado.
Perguntas:
1. Existem algumas dessas falhas de autenticação, pedi aos administradores locais para resolver esse problema (pará-lo ou consertar a autenticação) - isso poderia ter sido construído de alguma forma?
-
Alguma idéia do que realmente aconteceu?
-
Que passos posso dar para tentar identificá-lo? Poderia ser hardware? É razoavelmente novo, um par de anos no máximo, kit de qualidade decente e este é o primeiro problema que tivemos nesses dois anos.
-
Como o Windows determina a data / hora do último desligamento inesperado? É baseado na última entrada de log? Ou ele mantém uma vigia do tempo de alguma forma e, em seguida, se isso é definido quando ele reinicia, ele sabe quando falhou?
-
Poderia ser funções de alto nível da máquina simplesmente congelou, deixando apenas coisas básicas como ping baixo nível ainda trabalhando? E se for esse o caso, o que isso me diz?
A linha de fundo é que estão sendo feitas perguntas simples pela gerência, o que aconteceu e como podemos ter certeza de que isso não aconteça novamente, como eu tenho certeza que você pode imaginar:)
Muito obrigado, deixe-me saber se posso fornecer mais informações ou verificar qualquer coisa no servidor.
Matt.