Estou recebendo fluxos de erros mcelog em uma máquina para a qual não tenho acesso físico. Parece um DIMM ruim, mas estou tendo dificuldade em determinar exatamente qual.
A saída do mcelog parece com
Hardware event. This is not a software error.
MCE 0
CPU 1 BANK 5
MISC 21402a2a86 ADDR a8c35dcc0
TIME 1452026764 Tue Jan 5 12:46:04 2016
MCG status:
MCi status:
Error overflow
Corrected error
MCi_MISC register valid
MCi_ADDR register valid
MCA: MEMORY CONTROLLER RD_CHANNEL3_ERR
Transaction: Memory read error
STATUS cc0000c000010093 MCGSTATUS 0
MCGCAP 1000c14 APICID 20 SOCKETID 1
CPUID Vendor Intel Family 6 Model 45
Hardware event. This is not a software error.
MCE 1
CPU 1 BANK 11
MISC 90840000000208c ADDR a089ddac0
TIME 1452026764 Tue Jan 5 12:46:04 2016
MCG status:
MCi status:
Corrected error
MCi_MISC register valid
MCi_ADDR register valid
MCA: MEMORY CONTROLLER MS_CHANNEL3_ERR
Transaction: Memory scrubbing error
STATUS 8c000050000800c3 MCGSTATUS 0
MCGCAP 1000c14 APICID 20 SOCKETID 1
CPUID Vendor Intel Family 6 Model 45
Há muita inconsistência entre minha saída e a documentação do mcelog. Meu primeiro problema é que existem 2 Xeons de 8 núcleos e normalmente eu diria que eles são numerados como 0 e 1. No entanto, alguns posts que eu li sugerem que a "primeira" CPU pode ser rotulada pelo mcelog como CPU 0-7. e o "segundo" como CPU 8-15.
O segundo problema é que não consigo descobrir o que significa BANCO 5. Não é sinônimo de slots DIMM, porque agora estamos usando apenas os slots 1-4. O dmidecode reporta "Localizador de banco: não especificado" em cada DIMM.
Além disso, o MEMORY CONTROLLER MS_CHANNEL3_ERR me faz pensar que o erro está chegando no canal 3. De acordo com o diagrama da placa-mãe, o canal 3 é para os slots 4, 8 e 12, o que significaria que o DIMM em 4 é o culpado , mas não sei como verificar isso.
Eu tentei o mcelog com o switch --dmi, mas ele falha e sugere e atualiza. Esta máquina está muito desatualizada (Ubuntu 12.04, e nem mesmo os pacotes mais recentes para essa versão), mas a atualização abre outra lata de worms. Eu gostaria de resolver este problema de memória antes de tentar qualquer outra coisa drástica.
Agradeço qualquer ajuda em interpretar isso e descobrir o que substituir antes de enviar alguém na longa viagem até o data center.