No último ano, eu tive dois novos servidores que comissionei, onde o desempenho deles os tornou inutilizáveis. Ambos os servidores eram servidores Dell R620 com 1 processador. Um tinha 6 núcleos e o outro 8. Um tinha o SLES 11SP3 e o Oracle, e o outro tinha o Windows 2008 R2.
O servidor do Windows estava lento desde o minuto em que consegui instalar o sistema operacional. Fiquei absolutamente chocado com a lentidão com que ele se apresentava para tudo, desde a inicialização até o uso do aplicativo, mas sem mostrar nenhum sintoma óbvio nos contadores de desempenho de CPU, disco, memória, nada. Eu não posso quantificar a lentidão, mas eu teria descrito como se eu tivesse instalado o sistema operacional em uma máquina de 10 anos atrás ou mais. Eu finalmente consertei isso mexendo nas configurações da BIOS e desabilitando o Hyperthreading. Assim que desliguei, o servidor decolou. Eu estimaria um aumento de 10x no desempenho.
O servidor Linux era ainda mais estranho. Com ele, o servidor estava inicialmente funcionando muito bem por 3 ou 4 semanas. Então, uma noite, sem nenhum gatilho aparente, o uso da CPU passou repentinamente de uma flatline em cerca de 4% para uma louca de 20 a 60%. Por todo o lugar. Ao mesmo tempo, os tempos de conexão do Oracle passaram de 100ms para 500ms. O desempenho geral da Oracle foi tão ruim que nossos processos de produção foram afetados, e não colocamos muita carga no banco de dados. O DBA e eu passamos mais de 12 horas e não encontramos nada para explicar o problema. Eu olhei para o sistema usando o topo e o monitor do sistema Gnome e os traços da CPU estavam completamente caóticos para cima e para baixo de 0-100%. Nós reiniciamos várias vezes e os tempos de inicialização foram provavelmente 2-3x normais. O problema foi finalmente resolvido quando, em desespero, desativei o HT no BIOS. Magia. Tudo foi corrigido.
Minha pergunta é: outros já passaram por isso? Eu pesquisei um pouco e as pessoas falam sobre impactos de desempenho relativamente pequenos, bons e ruins, mas nada como o que vi. Agora estou com muito medo de HT e tenho tornado um padrão desativá-lo em novas construções. Há algo mais que eu não entendo que possa causar isso?
Isso pode ser um hardware defeituoso?
EDIT: Como shodanshok sugerido abaixo isso poderia ser realmente um problema de perfil de energia. O problema ocorreu novamente hoje, mesmo com o HT desativado. Fui para as configurações da BIOS e encontrei as configurações de economia de energia em "System Profiles". Ele foi padronizado como "Desempenho por Watt". Eu mudei para "Performance" e o problema desapareceu novamente. É difícil confirmar que esta é uma correção final, a reinicialização por si só poderia ter atrapalhado o problema, mas estou me sentindo bem com isso. Vou acompanhar novamente depois de um tempo.
EDIT2: CONFIRMAÇÃO. Eu já vi esse problema pelo menos mais duas vezes, mas em dois outros servidores. Em todos os casos, foi corrigido alterando o "Perfil do Sistema" para "Desempenho". Eu não vi uma recorrência deste problema em qualquer servidor depois de fazer a alteração.