Erros de ECC no cache L3 - críticos ou não?

5

Em um servidor linux (8x Quad-Core AMD 8378), estou recebendo os seguintes erros:

[Hardware Error]: MC4_STATUS[-|CE|MiscV|-|AddrV|CECC]: 0x9c294c00001d018b
[Hardware Error]: Northbridge Error (node 4): ECC error in L3 cache tag.
[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: SNP
[Hardware Error]: Machine check events logged

Isso aconteceu três vezes durante o último mês, mas nunca antes (servidor rodando por 3 anos).

De uma pesquisa rápida no google, parece que esse é um assunto sério.

No entanto, o técnico de suporte do fornecedor disse:

I have seen these errors MANY times, and unless you are overclocking your CPU - or have had a fan failure or similar - it is VERY unlikely to be a processor problem. It is more likely that the kernel is misreporting the error.

Então - isso é um erro crítico e eu deveria pedir novas peças (substituir a CPU?) ou ignorá-la?

Muito obrigado.

    
por L3error 28.11.2012 / 21:45

2 respostas

3

Prática recomendada: guarde suas próprias peças de reposição, quando possível.

Quanto às exceções de verificação de máquina, elas são relatadas pelo hardware ; o kernel está apenas passando a mensagem para você, para que você possa agir antes que o problema de hardware fique fora de controle e resulte em um desastre real.

A única instância que eu consegui encontrar de um kernel "reportando erroneamente" uma exceção de checagem de máquina foi a seguinte. Neste caso , foi uma falha o processador causando o problema, não o kernel.

Intel Xeon processor E7 family processors have an issue in which some c-state transitions can cause false correctable Machine Check Exception (MCE) errors to be reported from MCE bank 6 to the user. On some E7 processor family systems, this resulted in "floods" of MCE errors. This patch disables MCE error reporting for bank 6.

Conclusão: parece-me que o fornecedor está tentando evitar substituir o hardware defeituoso.

    
por 29.11.2012 / 02:43
0

Nos servidores corporativos, lidamos com isso da seguinte maneira: Peça ao fornecedor para substituir se os erros forem excessivos ou se repetirem semana após semana. Na verdade, o serviço de monitoramento de eventos acionou tudo sozinho. Nenhuma pergunta feita.

Movendo para x86 nós também temos as histórias sobre EDAC / MCE sendo confundidas etc. Se os erros persistirem, o hardware deve ser substituído.

(Há também uma pequena chance de estar conectado a grandes eventos solares. É possível, mas o hardware do PC sendo esquisito e os fornecedores relutando em substituir algo é muito mais comum)

    
por 16.03.2014 / 17:53