bom lugar para começar
Nós criamos um novo servidor aqui há algumas semanas que eu sou informalmente responsável pelo gerenciamento.
Quase tudo funciona perfeitamente, exceto por uma coisa: de vez em quando, ele fica sem aviso.
Alguns fatos sobre este problema:
Alguns fatos adicionais sobre a máquina / ambiente:
Não espero respostas fáceis aqui. O que eu gostaria de saber é que eu posso metodicamente determinar a causa raiz deste problema, seja um serviço mal-comportado, hardware defeituoso ou qualquer outra coisa.
Existe algum tipo de registro que eu possa configurar para me ajudar a chegar ao fim disso? Algum diagnóstico de hardware ou monitoramento remoto? Qualquer outra coisa que eu possa fazer para me ajudar a descobrir o que realmente está acontecendo, ou pelo menos ser capaz de eliminar o que não está errado?
Só para reiterar, eu realmente não quero começar a especular sobre possíveis causas e adotar uma abordagem de tentativa e erro, porque vai ser pelo menos vários dias de cada vez antes que eu tenha resultados conclusivos. Estou procurando soluções para confiantemente rastrear o problema até sua origem.
bom lugar para começar
Sem nada nos logs, e sem meios de reproduzir o problema, você tem muito menos para continuar, então será mais difícil ser metódico como você está solicitando.
Se este for o hardware de um fornecedor de nível superior, execute os diagnósticos. IBM, Dell, HP, todos têm suítes de diagnóstico - e também suítes de monitoramento gratuitas (Director, SIM e OpenManage, respectivamente).
Cronologicamente, quando isso começou a acontecer, e alguma coisa mudou dentro ou perto desse servidor antes desse ponto? Novo hardware instalado (e / ou drivers), atualização para o software AV, nova RAM? Você disse que é um novo servidor - ele é novo para você ou é totalmente novo para a organização?
Você pode P2V em um sandbox e ver se o problema persiste?
É possivelmente relacionado ao aumento de carga - você pode fazer com que isso aconteça, ou adivinhar (ou mostrar alguns gráficos) para ver se mais pessoas estão usando no momento em que isso acontece?
É bem paradoxal, você diz que não tem diagnósticos de hardware, mas quer uma maneira metódica de prosseguir ... o diagnóstico de hardware é a maneira metódica de prosseguir com falhas de hardware.
Caso contrário, uma falha de software de baixo nível pode (deveria?) ser um despejo de memória em algum lugar e a Microsoft forneceria alguma ferramenta para analisá-lo, embora não fornecessem muita documentação para entender processos de baixo nível. beco sem saída.
Talvez devesse ... já faz muito tempo que eu experimentei essas coisas! O problema é geralmente que você está lidando com código fechado, então você está praticamente sozinho!
Talvez o suporte da Microsoft?