Enquanto o mcelog faz alguma decodificação do registro de status do MCA, mais pode ser útil.
Etapa 1
Faça o download dos manuais combinados do desenvolvedor de software das arquiteturas Intel® 64 e IA-32 em link É enorme em 3439 páginas. O abaixo se refere à versão de setembro de 2014.
Etapa 2
Pegue a palavra STATUS em / var / log / mcelog e canalize-a pelo xxd algumas vezes para obter um campo de bits. Para o meu, isto é:
$ echo "9000004000010005" | xxd -r -p | xxd -b
0000000: 10010000 00000000 00000000 01000000 00000000 00000001 ...@..
0000006: 00000000 00000101 ..
Etapa 3
Faça alguma manipulação de texto e, em seguida, numere os bits:
66665555 55555544 44444444 33333333 33222222 22221111 111111
32109876 54321098 76543210 98765432 10987654 32109876 54321098 76543210
-----------------------------------------------------------------------
10010000 00000000 00000000 01000000 00000000 00000001 00000000 00000101
Etapa 4
Puxe a definição de bit de registro de status MCi de status da Seção 15.3.2.2 do manual:
Nomeucaso,osbits3:0estãodizendo"MCA Error Code 5", que é o que mcelog já interpretou para mim como "Internal parity error" (veja a seção 15.9.1). O que eu espero é mais informação - a CPU, RAM ou Motherboard é a causa provável do erro de paridade?
O 1 no bit 63 apenas significa "este valor de registro é válido". O 1 no bit 60 significa apenas que "o relatório de erros está ativado". O valor de [52:38] = 1 significa que um erro foi corrigido.
O 1 no bit 16 parece promissor, já que está no campo "Model Specific Error Code" mas, infelizmente, de acordo com a seção 16, bit [15] sendo igual a 0 significa que tudo que eu obtenho é 'simples' composto) erro, então eu estou pronto.
Linha de fundo: Não é possível dizer se o erro de paridade é da memória cache ou da memória do sistema. Não é possível dizer o que "interno" significa. Interno para quê? Então eu troquei memória, mesmo problema, então troquei a CPU com outra máquina (tive sorte, soquetes compatíveis) e o problema parou ... nas duas máquinas. Não é exatamente a ajuda do diagnóstico pontual que eu esperava desse hardware avançado, e eu não entendo porque a CPU "ruim" é feliz em outra máquina, mas o problema é resolvido.