Neste site do cliente, há dois novos servidores Dell PowerEdge R320 com a seguinte configuração:
- Uma única CPU de 6 núcleos
- 16 GB de RAM
- discos SATA de 2 x 500 GB em uma matriz RAID 1
O.S. é o Windows Server 2012 R2, usado como controlador de domínio; todos os firmwares e drivers estão atualizados, e o Windows está totalmente atualizado; a carga do sistema é geralmente muito baixa.
De repente, um dos servidores desacelerou para um rastreamento. E por "crawl", quero dizer "não foi capaz de pintar uma janela em um tempo decente". Fazer qualquer coisa, mesmo clicando com o botão direito do mouse e mostrando o menu contextual, mesmo movendo o cursor , era uma dor excruciante.
Não houve carga incomum no servidor: o uso da CPU foi de 1 a 3%, o uso de RAM ficou abaixo de 4 GB, nenhum disco ou picos de rede, nada.
Também não houve erros em qualquer log de eventos do Windows (quando finalmente conseguimos abri-lo), e a lentidão não cessou quando o cabo de rede foi desconectado.
A reinicialização do Windows também era inútil: depois de um tempo de inicialização muito longo, o sistema permanecia muito lento como antes.
Por último, mas não menos importante, não houve mensagens de erro no visor do painel frontal do sistema ou na tela durante o POST.
Como último recurso, decidimos tentar uma inicialização a frio e, na verdade, desconectamos os cabos de alimentação antes de reiniciar o servidor. Isso resolveu o problema: o sistema inicializou normalmente e retomou o desempenho total.
No entanto, a questão permanece: WTF aconteceu aqui?!?
E, mais importante: como podemos garantir que isso não aconteça novamente?