APEI Erro de Hardware Genérico

8

Na semana passada, meu servidor (executando o Debian Jessie) foi reinicializado duas vezes. No syslog eu vejo isso antes de cada reinicialização, e em nenhum outro ponto:

Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]:  Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]:  fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]:   section_type: memory error
Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small

Alguns googling me levam a acreditar que isso tem a ver com a minha memória RAM ECC detectando e recuperando de um erro. Isso está correto? Se está se recuperando, por que o sistema é reiniciado? Eu gostaria de evitar que o sistema seja reinicializado, se possível.

    
por moujik 15.08.2014 / 21:04

2 respostas

9

Parece que sua RAM está falhando ou com erros que estão sendo corrigidos. Dependendo da gravidade, parece que esses erros estão afetando sua capacidade de funcionar e é necessário reinicializar posteriormente.

A partir da aparência deste encadeamento, o bit da mensagem no final sobre o tamanho da seção de erro ser muito pequeno é provavelmente o culpado.

excerto - [PATCH 1/1] efi: cper: Suporte diferente comprimento da seção de erro

Some fields might be added to the Error Section in the newer UEFI spec. For example, the fields 'Reserved', 'Rank Number', 'Card Handle' and 'Module Handle' are added to the Memory Error Section started from UEFI spec 2.3. Unfortunately, there will have the following warning message if the memory corrected error is detected and the field 'revision' in struct acpi_generic_data is less then 0x203 (UEFI spec 2.3):

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

This behavior causes this corrected error cannot be displayed correctly. To solve the issue, this patch supports different length of the Error Section for different UEFI spec version.

And, this patch employs a pre-defined structure to clean up the duplicated codes in function cper_estatus_print_section.

With applying this patch, the memory corrected error could be displayed correctly after injecting the error.

Tested on v3.14-rc5 with Grantley platform and Intel RAStool.

Assim, parece que um patch para esse erro em particular está sendo desenvolvido e pode estar disponível em uma versão mais recente do kernel.

    
por 21.08.2014 / 15:54
2

Eu aparentei ter uma questão muito semelhante a esta.

Como se viu, a solução foi tirar a memória e recolocá-la, e tudo voltou ao normal.

    
por 05.12.2017 / 22:02

Tags