Eu aparentei ter um problema semelhante como este. Foi em um Xeon com um Debian recentemente atualizado de Wheezy para Jessie.
Como se viu, a solução foi tirar a memória e recolocá-la, e tudo voltou ao normal.
Resumo : estou tentando entender exatamente o que a seguinte mensagem de erro significa:
[17016.923750] {4}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
[17016.923758] {4}[Hardware Error]: It has been corrected by h/w and requires no further action
[17016.923759] {4}[Hardware Error]: event severity: corrected
[17016.923761] {4}[Hardware Error]: Error 0, type: corrected
[17016.923762] {4}[Hardware Error]: fru_text: CorrectedErr
[17016.923764] {4}[Hardware Error]: section_type: memory error
Detalhes :
Eu tenho um servidor com uma CPU Intel(R) Xeon(R) CPU E3-1275 v3 @ 3.50GHz
que está executando o Arch Linux ( 3.18.6-1-ARCH #1 SMP PREEMPT Sat Feb 7 08:44:05 CET 2015 x86_64 GNU/Linux
).
Quando executo dmesg
, vejo o erro que postei acima. Os erros não são tão frequentes, mas parecem continuar acontecendo. Por exemplo, o servidor está ativo há 1 dia desde a última reinicialização e há 9 instâncias desse erro listadas no log.
Eu vi outra pergunta que perguntou sobre esse erro e houve uma resposta que sugeriu que o problema é que a memória do ECC está falhando.
Minhas perguntas são:
1) Existe alguma referência para apoiar a ideia de que esta mensagem de erro está associada à memória ECC?
2) Se eu tiver um DIMM com falha, há uma maneira sugerida de descobrir qual deles é? Eu tentei executar o memtest86 +, mas ele não relatou nenhum erro de memória.
3) Se o sistema operacional reportar erros de ECC corrigidos, isso realmente significa que o DIMM está falhando?
Eu não ficaria tão preocupado se o único problema fosse algumas mensagens no meu arquivo de log. Mas também notei que às vezes o servidor trava inesperadamente. A máquina está sendo usada para pesquisa e não é tão importante que seja estável como seria se fosse um sistema de produção. Ainda ter a máquina travada pode ser problemático. Então, eu gostaria de saber exatamente o que esta mensagem de erro significa, e se eu precisar substituir um componente, seria bom se houvesse uma maneira de descobrir qual componente precisa de substituição.
Editar
Atualmente, o servidor está ativo há 8 dias sem ser interrompido e vejo 148 instâncias dessa mensagem de erro nos registros. Além disso, vejo uma instância da seguinte mensagem:
[671211.188084] EDAC MC0: INTERNAL ERROR: csrow value is out of range (6 >= 4)
[671211.188333] EDAC MC0: 1 CE ie31200 CE on unknown memory (channel:1 page:0x0 offset:0x0 grain:0 syndrome:0xc8)
Eu acho que é provável que um dos DIMMs tenha um problema. Ainda assim, eu estaria interessado em saber no caso de alguém ter alguma informação sobre como interpretar essas mensagens, em particular, a fim de descobrir qual DIMM está possivelmente falhando.
Eu aparentei ter um problema semelhante como este. Foi em um Xeon com um Debian recentemente atualizado de Wheezy para Jessie.
Como se viu, a solução foi tirar a memória e recolocá-la, e tudo voltou ao normal.
Pelo que li, esse erro é normal. Tem a ver com o UEFI. Precisa de uma mudança no kernel para se livrar do erro, mas aparentemente é inofensivo.