Temperatura do pacote acima do limite, relógio cpu afogado

2

Eu tenho 2 servidores HPE Proliant DL360 Gen10 que são configurados praticamente iguais. Ambos executam o CentOS 7.5. As únicas diferenças são que um possui firmware e kernel mais recentes, na tentativa de corrigir esse problema.

dmesg está relatando o seguinte repetidamente e o desempenho do servidor está sofrendo.

[Oct12 11:43] CPU5: Package temperature above threshold, cpu clock throttled (total events = 539077151)
[  +0.000001] CPU1: Package temperature above threshold, cpu clock throttled (total events = 539077144)
[  +0.000003] CPU4: Package temperature above threshold, cpu clock throttled (total events = 539077179)
[  +0.000002] CPU7: Package temperature above threshold, cpu clock throttled (total events = 539077201)
[  +0.000001] CPU3: Package temperature above threshold, cpu clock throttled (total events = 539077211)
[  +0.000004] CPU6: Package temperature above threshold, cpu clock throttled (total events = 539077197)
[  +0.000001] CPU2: Package temperature above threshold, cpu clock throttled (total events = 539077208)
[  +0.000001] CPU0: Package temperature above threshold, cpu clock throttled (total events = 539077122)
[Oct12 11:44] CPU6: Core temperature above threshold, cpu clock throttled (total events = 447115263)
[  +0.000001] CPU2: Core temperature above threshold, cpu clock throttled (total events = 447115267)
[  +0.002025] CPU6: Core temperature/speed normal

O HP iLO está reportando ~ 30C a menos que sensors está relatando.

coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +95.0°C  (high = +86.0°C, crit = +96.0°C)
Core 0:        +95.0°C  (high = +86.0°C, crit = +96.0°C)
Core 2:        +95.0°C  (high = +86.0°C, crit = +96.0°C)
Core 3:        +95.0°C  (high = +86.0°C, crit = +96.0°C)
Core 4:        +94.0°C  (high = +86.0°C, crit = +96.0°C)

A interface HPE iLO informa que a CPU é de 55C ao mesmo tempo que a leitura dos sensores é realizada.

Quando executo sensors , obtenho o seguinte em dmesg :

[Oct12 11:46] ACPI Error: SMBus/IPMI/GenericSerialBus write requires Buffer of length 66, found length 32 (20180313/exfield-393)
[  +0.000726] ACPI Error: Method parse/execution failed \_SB.PMI0._PMM, AE_AML_BUFFER_LIMIT (20180313/psparse-516)
[  +0.000500] ACPI Error: AE_AML_BUFFER_LIMIT, Evaluating _PMM (20180313/power_meter-338)

Eu atualizei para o kernel mais recente ( 4.18.13-1.el7.elrepo.x86_64 ) esta manhã e isso também não ajudou.

    
por Kerry Knopp 12.10.2018 / 18:56

2 respostas

0

Consegui resolver isso principalmente atualizando o kernel no sistema operacional. Agora estou no 4.18.13-1.el7.elrepo.x86_64 e a temperatura é reportada de maneira diferente do que na interface do usuário do iLO, mas a relação entre a temp do CPU e "alta" é muito melhor e alinha-se melhor com as proporções do iLO.

coretemp-isa-0000
Adapter: ISA adapter
Package id 0:  +74.0°C  (high = +86.0°C, crit = +96.0°C)
Core 0:        +72.0°C  (high = +86.0°C, crit = +96.0°C)
Core 2:        +72.0°C  (high = +86.0°C, crit = +96.0°C)
Core 3:        +74.0°C  (high = +86.0°C, crit = +96.0°C)
Core 4:        +71.0°C  (high = +86.0°C, crit = +96.0°C)
    
por 30.10.2018 / 20:21
2

Abra o registro do IML do sistema na interface da Web do ILO e veja quais eventos ele está relatando.

Essa é a maneira autoritativa de verificar o status do hardware no equipamento do servidor HPE.

    
por 12.10.2018 / 21:49