gerenciamento térmico da CPU, detectar comportamento defeituoso

0

As CPUs têm o recurso de diminuir o tempo de acordo com a temperatura para evitar o superaquecimento. No trabalho eu tenho dois servidores, um dos quais mostra algum mau comportamento (reinicializações aleatórias).

O seguinte trecho abaixo é algo que vejo nos logs do sistema de ambas as máquinas. Isso é uma consequência da operação normal da escala de frequência dinâmica da CPU, ou isso é uma indicação de algum erro (por exemplo, má aplicação de pasta de calor)?

Eu esperaria que algo tão mundano quanto o escalonamento dinâmico de frequência de um CPU moderno não aparecesse nos logs do sistema.

Como uma observação: nenhum over-clocking foi feito ou tentado em nenhum momento do servidor conosco.

The kernel log indicates that hardware errors were detected.
System log may have more information.
The last 20 mcelog lines of system log are:
==========================================
Jan 31 17:13:12 apollo3 mcelog: Family 6 Model 4f CPU: only decoding architectural errors
Feb  2 15:07:50 apollo3 mcelog: Family 6 Model 4f CPU: only decoding architectural errors
Feb  2 15:07:50 apollo3 mcelog: Hardware event. This is not a software error.
Feb  2 15:07:50 apollo3 mcelog: MCE 0
Feb  2 15:07:50 apollo3 mcelog: CPU 1 THERMAL EVENT TSC 15900247053fc
Feb  2 15:07:50 apollo3 mcelog: TIME 1486044329 Thu Feb  2 15:05:29 2017
Feb  2 15:07:50 apollo3 mcelog: Processor 1 heated above trip temperature. Throttling enabled.
Feb  2 15:07:50 apollo3 mcelog: Please check your system cooling. Performance will be impacted
Feb  2 15:07:50 apollo3 mcelog: STATUS 88000bcb MCGSTATUS 0
Feb  2 15:07:50 apollo3 mcelog: MCGCAP 7000c16 APICID 4 SOCKETID 0
Feb  2 15:07:50 apollo3 mcelog: CPUID Vendor Intel Family 6 Model 79
Feb  2 15:07:50 apollo3 mcelog: Family 6 Model 4f CPU: only decoding architectural errors
Feb  2 15:07:50 apollo3 mcelog: Hardware event. This is not a software error.
Feb  2 15:07:50 apollo3 mcelog: MCE 1
Feb  2 15:07:50 apollo3 mcelog: CPU 1 THERMAL EVENT TSC 15900247241ad
Feb  2 15:07:50 apollo3 mcelog: TIME 1486044329 Thu Feb  2 15:05:29 2017
Feb  2 15:07:50 apollo3 mcelog: Processor 1 below trip temperature. Throttling disabled
Feb  2 15:07:50 apollo3 mcelog: STATUS 88010a8a MCGSTATUS 0
Feb  2 15:07:50 apollo3 mcelog: MCGCAP 7000c16 APICID 4 SOCKETID 0
Feb  2 15:07:50 apollo3 mcelog: CPUID Vendor Intel Family 6 Model 79
    
por Dohn Joe 03.02.2017 / 12:30

1 resposta

0

Como se diz - a CPU está superaquecendo.

  1. Limpe e verifique todos os fãs se eles estão funcionando corretamente

  2. Troque a pasta térmica (ou se ainda estiver na garantia, vá para o C)

  3. Entre em contato com o fabricante se o problema ainda ocorrer

por 03.02.2017 / 12:40