Investigando uma potencial falha na CPU

3

Em um servidor Ubuntu que estou usando para cálculos, observei recentemente que alguns programas extensivos de CPU (GUROBI, CPLEX) geralmente segmentam.

Estando em correspondência com o suporte técnico dos respectivos programas, foi sugerido que pode ser um problema de hardware.

O administrador do servidor executou um memtest detalhado e descobriu-se que os módulos de RAM parecem estar bem.

Por isso usei a ferramenta mprime para testar a CPU e as duas linhas a seguir aparecem várias vezes durante a execução dos testes de tensão:

[Worker #4 Oct 18 18:47] FATAL ERROR: Rounding was 0.498046875, expected less than 0.4 [Worker #4 Oct 18 18:47] Hardware failure detected, consult stress.txt file.

O arquivo stress.txt em si não é muito detalhado sobre o que poderia ser a causa desse erro, então eu gostaria de perguntar se alguém aqui sabe o que poderia ser a causa deste problema? Existe algum outro teste que eu possa realizar para resolver o problema ainda mais?

A temperatura do sistema (e todos os núcleos) foi boa durante todo o teste de estresse (+ 69,0 ° C (alta = + 80,0 ° C, crit = + 98,0 ° C)) a CPU em questão é um CPU Intel Core i7-2600K @ 3.40GHz e não é overclock ou modificado de alguma forma.

Além disso, o que é interessante é que, se eu executar o mprime apenas para enfatizar a CPU, todos os testes passarão bem. O erro só é acionado quando eu deixo o mprime enfatizar o CPU + RAM.

    
por Jernej 18.10.2013 / 19:18

1 resposta

2

O mprime não fornece falsos positivos, então você pode assumir que tem um problema de hardware. Você deseja trocar os componentes com partes boas conhecidas, uma por vez, e executar o mesmo teste. Eu começaria com a RAM (apesar de o memtest passar), depois a fonte de alimentação, depois a CPU e depois a placa-mãe.

Se você não tiver um sistema reserva ou acesso a peças compatíveis, há algumas coisas que pode tentar, mas talvez não encontre uma causa definitiva. Primeiro, verifique se todos os fãs estão girando livremente. Segundo, verifique a temperatura da fonte de alimentação e os VRMs e PCH na placa-mãe. Se o seu servidor não tiver sondas para isso, aterre-se e toque-os com o dedo. Eles podem ser quentes, mas não tão quentes que você não pode deixar o dedo sobre eles. Terceiro, remova todos os módulos de RAM, exceto o primeiro slot (conforme rotulado na placa-mãe), e se o teste ainda falhar, troque-o por um dos que você removeu. Se dois ou mais falharem, você pode seguramente assumir que não é a RAM.

    
por 18.10.2013 / 22:18