Em um servidor com duas CPUs, é normal que uma CPU seja mais quente que a outra?

48

Eu tenho um servidor Opteron duplo executando o Linux com libvirt para hospedar várias VMs. As VMs funcionam bem e o servidor processa OK, mas percebo que uma CPU sempre executa cerca de 69C (reguladores de pressão a 70C) e a outra executa cerca de 15C.

Isso não parece normal para mim? Eles não deveriam estar um pouco mais perto de temperatura?

Não tenho certeza de como fazer mais nada. Talvez não haja pasta térmica suficiente em uma das CPUs?

Edit: A placa-mãe é ASUS KGPE-D16 e resfriada por dois Fãs Noctua NH-U9DO .

Observe que as temperaturas podem estar acima dos valores ambientais, e não absolutos? Quando o servidor está inativo, as temperaturas da CPU caem para 2C e 13C. Eu estou usando a configuração lmsensors de aqui

    
por samoz 27.11.2014 / 13:28

5 respostas

106

O problema acabou sendo um dissipador mal ajustado. Talvez mal ajuste não é a descrição correta. Acontece que você tem que colocar pasta térmica no dissipador de calor, não a tampa de plástico que passa pelo dissipador de calor.

Depois de remover a capa plástica, a CPU é legal e legal, obrigado a todos!

    
por 28.11.2014 / 01:18
23

Na minha experiência, é normal que os componentes pareados em um caso sejam executados em temperaturas diferentes, porque o fluxo de ar não é o mesmo em todos os lugares. Aqui está um gráfico da temperatura HDD da minha caixa de colo. As unidades são espelhadas, portanto, as cargas de trabalho nelas são quase idênticas.

Como você pode ver, eles rastreiam um ao outro, mas não são os mesmos; eles também estão, em média, separados apenas por 6C. Se os seus sensores relatam temperatura absoluta ou superaquecimento, uma diferença de 55C sob carga parece muito mal. Se você tem certeza de que os dados estão certos, então, considerando a diferença quiescente cai para 10C, que é o tipo de diferença que vejo devido ao fluxo de ar, eu suspeitaria de um dissipador de calor mal ajustado.

    
por 27.11.2014 / 13:53
7

Não é. A menos que você tenha alguns problemas sérios com o fluxo de ar. Ou um dos coolers é ruim. A temperatura irá variar - mas não tanto (70 vs. 15 graus celsius).

Dado o quão baixo é 15 graus, eu suponho (a) que seu sensor está desligado (você realmente armazena o servidor em uma sala tão legal?).

Eu também diria que uma das CPUs simplesmente não funciona, por qualquer motivo.

Pequenas diferenças são normais. Alguns pouco maiores podem ser (fluxo de ar vindo à minha mente). mas aqui falamos de um ser frio.

    
por 27.11.2014 / 13:31
2

Isso pode ser um carregamento de resfriamento ou irregular (dada a diferença de temperatura, sua situação provavelmente é um carregamento irregular). Você deve usar algo como prime95 para carregar todos os núcleos uniformemente e ver se os temporários ainda variam. Se não, você precisa equilibrar as VMs, verifique se seus aplicativos estão multissegmentados e ocupados. Como fazer isso depende do seu software e da carga de trabalho individual, isso está além do escopo da questão. Tenha em mente que não há vantagem real em fazer isso se você não tiver carga suficiente para superar uma única cpu / core; na verdade, sua VM pode deliberadamente evitar o uso de uma segunda cpu para poder entrar em modos de economia de energia em vários sistemas -cpu.

Se você o reduziu ao resfriamento. Uma pequena diferença de até 10C pode ser muito pouca (ou muito!) Pasta térmica. Uma diferença maior indica um problema significativo ou diferença entre os coolers de cpu. Pode ser que alguém tenha bloqueado o fluxo de ar, um dissipador de calor tenha sido solto, etc.

    
por 27.11.2014 / 13:38
0

Eu teria que concordar com temp temp. sensor, como 15C é apenas 59F !!! A menos que o computador esteja em um datacenter extremamente frio, eu imagino que a temperatura do ar ambiente seria maior que 59F! Você tenta atribuir as VMs ao núcleo de baixa temperatura e ver se há alguma alteração; se não, eu suspeitaria que o sensor estava com defeito.

Você também pode querer olhar para a saída de dmesg (mensagens de inicialização) e ver se há algo fora do comum lá.

    
por 01.12.2014 / 12:42