O que posso fazer para determinar a causa raiz de um congelamento / congelamento do servidor Windows?

2

Nós criamos um novo servidor aqui há algumas semanas que eu sou informalmente responsável pelo gerenciamento.

Quase tudo funciona perfeitamente, exceto por uma coisa: de vez em quando, ele fica sem aviso.

Alguns fatos sobre este problema:

  • Não é um único aplicativo ou serviço; todo o sistema não responde.
  • Nada é exibido (o monitor age como se não houvesse sinal VGA).
  • O LED de energia está ligado e os ventiladores estão funcionando.
  • Pressionar o botão liga / desliga não faz nada (normalmente ele desligaria a máquina).
  • Os pings geralmente acabam; uma vez que ele respondeu, outra vez eu recebi "host de destino inacessível".
  • Os logs de eventos não mostram nada (literalmente nada) desde antes do início até a reinicialização forçada.
  • Não há problemas de desempenho, erros estranhos ou outros sinais óbvios de perigo iminente que levaram à eventual queda.
  • A máquina geralmente não é muito carregada (é para desenvolvimento, não produção), e as interrupções parecem estar ocorrendo em horários de pico (entre a meia-noite e as 6h).

Alguns fatos adicionais sobre a máquina / ambiente:

  • Windows Server 2008 R2
  • Executando o SQL Server 2008 e o IIS (não muito mais)
  • Todos os drivers atualizados, correções instaladas, etc.
  • Nenhum diagnóstico fornecido pelo fornecedor (não "camada superior").
  • A máquina é completamente nova, não apenas reformatada ou reaproveitada. Nenhuma mudança recente, embora a máquina tenha menos de um mês para começar.

Não espero respostas fáceis aqui. O que eu gostaria de saber é que eu posso metodicamente determinar a causa raiz deste problema, seja um serviço mal-comportado, hardware defeituoso ou qualquer outra coisa.

Existe algum tipo de registro que eu possa configurar para me ajudar a chegar ao fim disso? Algum diagnóstico de hardware ou monitoramento remoto? Qualquer outra coisa que eu possa fazer para me ajudar a descobrir o que realmente está acontecendo, ou pelo menos ser capaz de eliminar o que não está errado?

Só para reiterar, eu realmente não quero começar a especular sobre possíveis causas e adotar uma abordagem de tentativa e erro, porque vai ser pelo menos vários dias de cada vez antes que eu tenha resultados conclusivos. Estou procurando soluções para confiantemente rastrear o problema até sua origem.

    
por Aaronaught 14.03.2011 / 16:47

3 respostas

2

bom lugar para começar

link

    
por 14.03.2011 / 17:08
1

Sem nada nos logs, e sem meios de reproduzir o problema, você tem muito menos para continuar, então será mais difícil ser metódico como você está solicitando.

Se este for o hardware de um fornecedor de nível superior, execute os diagnósticos. IBM, Dell, HP, todos têm suítes de diagnóstico - e também suítes de monitoramento gratuitas (Director, SIM e OpenManage, respectivamente).

Cronologicamente, quando isso começou a acontecer, e alguma coisa mudou dentro ou perto desse servidor antes desse ponto? Novo hardware instalado (e / ou drivers), atualização para o software AV, nova RAM? Você disse que é um novo servidor - ele é novo para você ou é totalmente novo para a organização?

Você pode P2V em um sandbox e ver se o problema persiste?

É possivelmente relacionado ao aumento de carga - você pode fazer com que isso aconteça, ou adivinhar (ou mostrar alguns gráficos) para ver se mais pessoas estão usando no momento em que isso acontece?

    
por 14.03.2011 / 17:28
0

É bem paradoxal, você diz que não tem diagnósticos de hardware, mas quer uma maneira metódica de prosseguir ... o diagnóstico de hardware é a maneira metódica de prosseguir com falhas de hardware.

Caso contrário, uma falha de software de baixo nível pode (deveria?) ser um despejo de memória em algum lugar e a Microsoft forneceria alguma ferramenta para analisá-lo, embora não fornecessem muita documentação para entender processos de baixo nível. beco sem saída.

Talvez devesse ... já faz muito tempo que eu experimentei essas coisas! O problema é geralmente que você está lidando com código fechado, então você está praticamente sozinho!

Talvez o suporte da Microsoft?

    
por 03.06.2013 / 02:46