Isso acabou sendo rastreado até o adaptador Ethernet virtual que estávamos usando. Ele estava sendo executado em um adaptador E1000. Troquei isso para o driver VMNet 5 e o problema desapareceu.
FWIW estávamos no ESXi 5.1
Temos um único servidor 2008 R2 autônomo, rodando no ESXi 5.5, que fornece compartilhamentos de arquivos para os clientes.
Ontem à noite, ele parou misteriosamente de permitir o acesso de compartilhamento de entrada. Estou assumindo que estava bloqueando / soltando SMB, mas o problema é, e o que me preocupa, é que não há registro do que estava acontecendo.
Quando as chamadas começaram a chegar, consegui fazer ping e RDP para o servidor com sucesso. Ao mesmo tempo, tentar \SERVER\Share
como administrador de um domínio simplesmente suspendeu antes de voltar que o compartilhamento estava indisponível.
Depois que eu me conectei via RDP ao servidor, tudo parecia normal: RAM & O uso da CPU foi baixo, todos os serviços esperados estavam em execução. O visualizador de eventos mostrou literalmente nada de uso, nenhum erro apenas as entradas informativas usuais e alguns erros em que minha sessão RDP tentou mapear impressoras desconhecidas.
O log de segurança, onde eu esperava ver uma carga de 'plataforma de filtragem do windows soltou o pacote', que é algo que vimos antes estava claro, apenas os eventos de logon e logs de auditoria usuais.
Conexões de saída para outros compartilhamentos foram bem, em suma, eu não conseguia ver nada para consertar.
Por desespero, tentei reiniciar o serviço do servidor, quando a caixa inteira congelou e tive que pressionar o botão de energia (virtual) até que ele fosse desligado. Ele voltou bem (graças a deus), mas estou confuso.
Meu cliente está fazendo as perguntas óbvias e, até agora, não consegui fornecer uma resposta embaraçosamente.
Alguma ideia? Tenho pouca esperança de voltar no tempo e localizar uma causa raiz para esse problema, mas há algo mais que possa estar fazendo em log ou testes futuros para esses tipos de problemas?
My client is asking the obvious questions and so far I have—embarrassingly—not been able to provide an answer.
Então você afirma que teve que empurrar o servidor para reinicializar manualmente. Muito difícil na verdade. E todos os sinais apontam para o sistema funcionando sem problemas quando você faz o RDP, correto? Mas ainda assim o sistema sufocou sem motivo aparente durante a noite.
Primeiro, você precisa dizer ao cliente que às vezes não há respostas sólidas. Talvez tenha havido um surto de energia? Talvez tenha sido apenas um soluço. Eu tive servidores que literalmente executados por meses sem reiniciar de repente sufocar. Por quê? Nenhuma idéia. Uma reinicialização limpa as coisas. E às vezes os logs podem ajudar.
Dito isso, meu melhor palpite com base nas informações que você está fornecendo é que há algum problema no nível de hardware em jogo. Pode ser RAM, disco rígido, hardware relacionado ou qualquer outra coisa. Pare até a própria CPU.
A melhor coisa que eu faria em um caso como este é agendar uma janela de manutenção fora de horas em algum momento para executar uma verificação completa do hardware do próprio sistema. Se você não fizer isso, estará correndo o risco de que esse problema apareça novamente ou que haja falha completa de hardware.