Interpretando a saída do mcelog para o DIMM incorreto

5

Estou recebendo fluxos de erros mcelog em uma máquina para a qual não tenho acesso físico. Parece um DIMM ruim, mas estou tendo dificuldade em determinar exatamente qual.

A saída do mcelog parece com

Hardware event. This is not a software error.
MCE 0
CPU 1 BANK 5 
MISC 21402a2a86 ADDR a8c35dcc0 
TIME 1452026764 Tue Jan  5 12:46:04 2016
MCG status:
MCi status:
Error overflow
Corrected error
MCi_MISC register valid
MCi_ADDR register valid
MCA: MEMORY CONTROLLER RD_CHANNEL3_ERR
Transaction: Memory read error
STATUS cc0000c000010093 MCGSTATUS 0
MCGCAP 1000c14 APICID 20 SOCKETID 1 
CPUID Vendor Intel Family 6 Model 45

Hardware event. This is not a software error.
MCE 1
CPU 1 BANK 11 
MISC 90840000000208c ADDR a089ddac0 
TIME 1452026764 Tue Jan  5 12:46:04 2016
MCG status:
MCi status:
Corrected error
MCi_MISC register valid
MCi_ADDR register valid
MCA: MEMORY CONTROLLER MS_CHANNEL3_ERR
Transaction: Memory scrubbing error
STATUS 8c000050000800c3 MCGSTATUS 0
MCGCAP 1000c14 APICID 20 SOCKETID 1 
CPUID Vendor Intel Family 6 Model 45

Há muita inconsistência entre minha saída e a documentação do mcelog. Meu primeiro problema é que existem 2 Xeons de 8 núcleos e normalmente eu diria que eles são numerados como 0 e 1. No entanto, alguns posts que eu li sugerem que a "primeira" CPU pode ser rotulada pelo mcelog como CPU 0-7. e o "segundo" como CPU 8-15.

O segundo problema é que não consigo descobrir o que significa BANCO 5. Não é sinônimo de slots DIMM, porque agora estamos usando apenas os slots 1-4. O dmidecode reporta "Localizador de banco: não especificado" em cada DIMM.

Além disso, o MEMORY CONTROLLER MS_CHANNEL3_ERR me faz pensar que o erro está chegando no canal 3. De acordo com o diagrama da placa-mãe, o canal 3 é para os slots 4, 8 e 12, o que significaria que o DIMM em 4 é o culpado , mas não sei como verificar isso.

Eu tentei o mcelog com o switch --dmi, mas ele falha e sugere e atualiza. Esta máquina está muito desatualizada (Ubuntu 12.04, e nem mesmo os pacotes mais recentes para essa versão), mas a atualização abre outra lata de worms. Eu gostaria de resolver este problema de memória antes de tentar qualquer outra coisa drástica.

Agradeço qualquer ajuda em interpretar isso e descobrir o que substituir antes de enviar alguém na longa viagem até o data center.

    
por user2759569 06.01.2016 / 22:49

1 resposta

4

Eu nunca encontrei uma interpretação clara dos dados do mcelog, mas meu melhor palpite deu certo, e achei que deveria seguir a posteridade.

  • Eu assumi que CPU 1 significava a segunda CPU, identificada como 2 na diagrama da placa-mãe.
  • Assumi MEMORY CONTROLLER MS_CHANNEL3_ERR indicou o canal 3 no controlador de memória dessa CPU. Como acima, esse canal controla os slots 4, 8 e 12, e apenas o slot 4 tinha um chip.
  • ignorei todo o resto.

Eu tive alguém trocando esse DIMM e, pronto! Não há mais fluxos de erros de verificação de máquina.

    
por 19.01.2016 / 19:28

Tags