Sobrecarga de múltiplos núcleos acima de 100% no Centos7 Supermicro Server

2

Estou executando o Centos 7 (3.10.0-514.26.2.el7.x86_64) em uma placa supermicro H8QG6 com 4 processadores AMD 6276 (16 núcleos), para um total de 64 núcleos. Eu o uso para computação científica e, geralmente, tudo funciona sem problemas, como na primeira primeira imagem . Então, de repente, o htop começa a relatar o uso de uma única CPU acima de 1000%, como nesta segunda imagem , e o computador se torna quase não responde. Aliás, quase todo processo parece sobrecarregar o processador: até o próprio htop relata uma carga de 1600% !!! Ao mesmo tempo, esses erros aparecem no journalctl: %código% mas não posso determinar se são um sintoma ou a causa do comportamento estranho. Alguém tem alguma ideia sobre o que está acontecendo? Muito obrigado!

Atualização : Instalei o ipmitool e executei o daemon ipmievd. Assim que o problema começar, aparecerá o seguinte no journalctl:

perf: interrupt took too long (3973 > 3883), lowering kernel.perf_event_max_sample_rate to 50000 kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 52, got netfn 5 cmd 2d kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 52, got netfn 5 cmd 2 kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 37, got netfn 7 cmd 52 kernel: IPMI message handler: BMC returned incorrect response, expected netfn 7 cmd 52, got netfn 7 cmd 37

É possível que o problema esteja relacionado a um módulo de memória defeituoso?

    
por ehyG 26.09.2017 / 22:20

1 resposta

3

O culpado foi de fato um módulo de memória RAM defeituoso. O aumento anômalo no uso da CPU apareceu quando o erro de RAM começou a aparecer nos logs. o módulo foi identificado e substituído, e o problema agora está resolvido.

    
por 30.09.2017 / 00:19