PC morre quando está executando a 100% da CPU

1

Recentemente, escrevi um código Java para gerar imagens do conjunto Mandelbrot (fractal). Eu usei o novo recurso Fork / Join no Java 7 para executar threads separados em todos os quatro núcleos (2 reais, 2 virtuais) simultaneamente, usando um grande número de iterações para maior precisão. O problema é que o processo funciona bem por cerca de um minuto, e então é como se alguém tivesse puxado o plugue e o PC simplesmente morresse.

Eu pensei que deve ser o superaquecimento das CPUs, então eu corri o Real Temp para monitorar a temperatura. É um processador Intel i3. Eu posso ver a temperatura subindo a 70 graus e, em seguida, parece nivelar lá e correr por cerca de 30 segundos antes de morrer. De acordo com o Real Temp, ainda há uma diferença de 35 graus entre a temperatura real e o TJ max. Eu também tentei desativar a "função CPU TM" no BIOS, mas o problema ainda ocorre.

Um colega sugeriu que poderia ser um problema no fornecimento de energia, então eu peguei emprestado um PSU mais poderoso (não lembro qual era a potência, mas é maior do que o meu, que é de 500W). A mesma coisa ainda acontece.

Alguém consegue sugerir qual é o problema ou o que posso tentar em seguida?

Editar:

Obrigado por todos os anwers e comentários. Como @Anish A sugere abaixo, achei a configuração no BIOS para alterar a temperatura que aciona o desligamento automático. Isso foi definido para 70 graus. Eu aumentei isso para 75 graus e agora posso executar meu programa alegremente com todos os "quatro" núcleos em 100%. Real Temp relata que a temperatura chegou a 73 em um ponto, mas a maior parte permanece em torno de 70 pela duração. Então eu acho que essa configuração do BIOS é completamente separada do processador em si e da temperatura máxima do TJ reportada pelo Real Temp.

    
por user155631 31.08.2012 / 14:50

2 respostas

2

É um problema com sua ventoinha de resfriamento. Use um ventilador melhor e tente esfriar a água, se possível.

Um bom ventilador com dissipador de calor resolverá o problema.

Além disso, tente ativar a opção Limitação Térmica da CPU no BIOS. Ele fará o clock da CPU se a temperatura subir acima de um limite.

Além disso, tente aumentar a temperatura de desligamento da temperatura da CPU a partir do BIOS. Mas não aumente muito, pois isso pode comprometer a vida do seu processador.

    
por 31.08.2012 / 15:03
0

there's still a gap of 35 degrees between the actual temperature and TJ max

Ignore a temperatura reportada, a única coisa importante é "Distance To TJmax" - que é o que a CPU reporta (DTS) e qual é o que a CPU usa para controlar os mecanismos de proteção térmica.

Veja o que o RealTemp mostra depois que mudei o TjMax para o núcleo 0 nas Configurações de 99 para 70.

AntesdaTemperaturaparaoNúcleo0sermostradacomoamesmaqueparaosoutrosnúcleos,aDistânciaparaTJMaxnãoéafetadaporestamudançadeconfiguração-demodoquedemonstraaminhasatisfaçãoqueDistânciaparaTjmaxéovalorRealTempaCPUeatemperaturasãobaseadasemqualquerconfiguraçãodoTjMax.

Portanto,seaCPUacharqueoDTSéde35C,nãoháproblemacomosuperaquecimentodaCPU.

it'sasifsomeonehaspulledtheplugandthePCjustdies.

IssonãoémaissugestivodeumproblemadePSU?

Um antigo documento da Intel diz

a new thermal protection mechanism was introduced, allowing for the processor to automatically control the processor temperature before reaching the catastrophic shutdown temperature but at the expense of temporarily reducing processor performance. Current IA-32 processors use internal circuitry to periodically stop the internal clock to most of the processor. All interrupts during the modulated period are delayed but not lost. The processor time stamp counter continues to maintain count even during processor modulation. The duration of modulation is typically 1 msec intervals. At the end of each interval, the processor will again operate at full frequency. If the temperature is still above the second preset temperature level, the processor will again modulate the internal clock. If the temperature drops below the second preset level, the processor will continue to operate at its normal clock frequency. The effective processor performance is approximately 50% of full performance. Note that the method to modulate processor performance is not architecturally specified and is subject to change in future processors.

Um documento Intel i5 / i7 diz

PROCHOT# goes active when the processor temperature monitoring sensor(s) detects that the processor has reached its maximum safe operating temperature. This indicates that the processor Thermal Control Circuit has been activated, if enabled. This signal can also be driven to the processor to activate the Thermal Control Circuit. This signal does not have on-die termination and must be terminated on the system board.

O Core i5 / i7 ainda tem o trigerred do TCC (pelo DTS, eu acho) da mesma forma que os designs de CPU da Intel mais antigos.

Acredito que "se habilitado" significa que o TCC pode ser desabilitado pelas configurações do BIOS (ou outro). Você pode verificar as configurações da BIOS para o controle térmico da CPU.

Thermal Trip: The processor protects itself from catastrophic overheating by use of an internal thermal sensor. This sensor is set well above the normal operating temperature to ensure that there are no false trips. The processor will stop all execution when the junction temperature exceeds approximately 125 °C. This is signaled to the system by the THERMTRIP# pin.

Suponho que um fabricante de mobo poderia usar o sinal #PROCHOT da CPU para desligar o sistema completamente, mas isso seria bastante prematuro. Então, eu esperaria que os sintomas de superaquecimento gradual da CPU fossem os primeiros que a CPU acelerasse de volta a uma extensão que deveria ser perceptível.

Em suma, o que você relata não é consistente com o que eu esperaria do desligamento térmico na CPU. Em primeiro lugar DTS > 0, Em segundo lugar, não há diminuição observável no desempenho da CPU. Por fim, "como se alguém tivesse puxado o plugue" (se você quer dizer que alguém literalmente puxou o plugue da tomada da parede).

O HWmonitor da CPUID mostra mais informações do que o RealTemp, incluindo os tempos de GPU e HDD - pode ser útil

    
por 31.08.2012 / 17:23