Erros de memória ECC que causam reinicializações aleatórias do servidor

2

Estou executando o servidor Ubuntu 14.04 no Supermicro X10SLM-F / Xeon E3-1271 v3

Memória: SuperTalent 32GB DDR3 1600 ECC

A cada 4 dias, os registros no Ubuntu mostram isso:

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:  fru_text: CorrectedErr
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

Imediatamente após isso, o servidor reinicializa-se em um ciclo de "energia".

Quando olho no log de eventos da BIOS, vejo isso:

DATE            TIME           ERROR CODE      SEVERITY
06/13/15      13:13:38      Smbios 0x02         P1-DIMMB2

E a descrição do erro é:

Single Bit ECC Memory Error

ipmitool no Ubuntu mostra isso:

ipmitool sel elist
...
...
  1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
  1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8

Algumas perguntas:

  1. Se a memória do ECC é auto-corrigida, por que a máquina reinicializa a si mesma?

  2. Será que estou perdendo alguma configuração na BIOS que impedirá que a caixa seja reinicializada?

  3. Isso é obviamente um problema de cartão de memória ou pode ser um problema de slot ou de CPU?

  4. Como impedir que o servidor seja reinicializado?

Obrigado por qualquer conselho.

    
por Kevin Kelly 15.06.2015 / 23:30

3 respostas

1

O sistema não deve reinicializar após um erro de memória corrigível. Você vê informações adicionais / padrão via ipmitool sel elist ? O watchdog do BMC pode reinicializar o sistema, verifique se ele está ativado via ipmitool mc watchdog get . Como você já tem as informações sobre a localização do módulo de memória defeituosa, substitua-o e se o problema se manifestar novamente, o slot de memória pode estar com defeito.

X10SLM-F a RAM que você usa não está na lista de módulos de RAM testados - se você tiver a possibilidade, substitua todas as barras de memória em um sistema de 'problemas' com os testados com Supermicro equivalentes. Além disso, verifique a lista de sistema operacional compatível com a versão do Ubuntu.

Relacionado às configurações do CMOS, você pode usar Supermicro SUM , desde que tenha as chaves SUM instaladas, para descarregar as configurações do BIOS de todos os sistemas e vimdiff para ver se há algum parâmetro CMOS diferente para o sistemas que regularmente reiniciam em comparação com o (s) sistema (s) que não o fazem.

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf
    
por 16.06.2015 / 00:57
0

É o hardware da Supermicro, por isso é barato e sem o polimento e a integração de uma Dell, HP ou IBM ...

A RAM ECC corrige erros, mas há um limite que provavelmente está sendo excedido. O DIMM em questão provavelmente está falhando e você deve planejar substituí-lo.

Você pode tentar identificar o módulo por slot e substituí-lo. Como isso ocorre com frequência, será fácil determinar o problema.

Além disso, consulte as Perguntas relacionadas à direita desta pergunta.

    
por 16.06.2015 / 00:33
0

Eu tenho visto o mesmo problema com este fórum, rev 1.02. Eu acho que tem um problema específico. Eu compro muitas placas SM e elas geralmente são muito boas. Eu acho que há um problema com esta placa se todos os DIMMS estiverem preenchidos. Estou usando o Windows e recebo uma tela azul, por exemplo.

Experimente apenas correr com 16 GB (apenas 2 slots) e aposto que o problema desaparecerá. Eu sei que isso não é uma solução, mas ajudaria a diagnosticar o comportamento estranho. Eu até mandei uma placa de volta para a SM e eles disseram que estava tudo bem, talvez eles não tenham testado com 4 DIMMs.

    
por 21.08.2016 / 16:12