Entendendo a mensagem de erro “Erro de hardware da fonte de erro de hardware genérico do APEI”

2

Resumo : estou tentando entender exatamente o que a seguinte mensagem de erro significa:

[17016.923750] {4}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
[17016.923758] {4}[Hardware Error]: It has been corrected by h/w and requires no further action
[17016.923759] {4}[Hardware Error]: event severity: corrected
[17016.923761] {4}[Hardware Error]:  Error 0, type: corrected
[17016.923762] {4}[Hardware Error]:  fru_text: CorrectedErr
[17016.923764] {4}[Hardware Error]:   section_type: memory error

Detalhes :

Eu tenho um servidor com uma CPU Intel(R) Xeon(R) CPU E3-1275 v3 @ 3.50GHz que está executando o Arch Linux ( 3.18.6-1-ARCH #1 SMP PREEMPT Sat Feb 7 08:44:05 CET 2015 x86_64 GNU/Linux ).

Quando executo dmesg , vejo o erro que postei acima. Os erros não são tão frequentes, mas parecem continuar acontecendo. Por exemplo, o servidor está ativo há 1 dia desde a última reinicialização e há 9 instâncias desse erro listadas no log.

Eu vi outra pergunta que perguntou sobre esse erro e houve uma resposta que sugeriu que o problema é que a memória do ECC está falhando.

Minhas perguntas são:

1) Existe alguma referência para apoiar a ideia de que esta mensagem de erro está associada à memória ECC?

2) Se eu tiver um DIMM com falha, há uma maneira sugerida de descobrir qual deles é? Eu tentei executar o memtest86 +, mas ele não relatou nenhum erro de memória.

3) Se o sistema operacional reportar erros de ECC corrigidos, isso realmente significa que o DIMM está falhando?

Eu não ficaria tão preocupado se o único problema fosse algumas mensagens no meu arquivo de log. Mas também notei que às vezes o servidor trava inesperadamente. A máquina está sendo usada para pesquisa e não é tão importante que seja estável como seria se fosse um sistema de produção. Ainda ter a máquina travada pode ser problemático. Então, eu gostaria de saber exatamente o que esta mensagem de erro significa, e se eu precisar substituir um componente, seria bom se houvesse uma maneira de descobrir qual componente precisa de substituição.

Editar

Atualmente, o servidor está ativo há 8 dias sem ser interrompido e vejo 148 instâncias dessa mensagem de erro nos registros. Além disso, vejo uma instância da seguinte mensagem:

[671211.188084] EDAC MC0: INTERNAL ERROR: csrow value is out of range (6 >= 4)
[671211.188333] EDAC MC0: 1 CE ie31200 CE on unknown memory (channel:1 page:0x0 offset:0x0 grain:0 syndrome:0xc8)

Eu acho que é provável que um dos DIMMs tenha um problema. Ainda assim, eu estaria interessado em saber no caso de alguém ter alguma informação sobre como interpretar essas mensagens, em particular, a fim de descobrir qual DIMM está possivelmente falhando.

    
por Gabriel Southern 25.02.2015 / 03:11

2 respostas

1

Eu aparentei ter um problema semelhante como este. Foi em um Xeon com um Debian recentemente atualizado de Wheezy para Jessie.

Como se viu, a solução foi tirar a memória e recolocá-la, e tudo voltou ao normal.

    
por 05.12.2017 / 22:08
0

Pelo que li, esse erro é normal. Tem a ver com o UEFI. Precisa de uma mudança no kernel para se livrar do erro, mas aparentemente é inofensivo.

    
por 07.12.2015 / 15:31