Erro na Debian: erro interno do edac mc0

2

Eu tenho um problema no último servidor Debian. Eu tenho esse erro escrito a cada segundo na minha tela:

EDAC MC0: INTERNAL ERROR: csrow value is out of range (7 >= 4)

edac-utils dá isso:

mc0: 0 Uncorrected Errors with no DIMM info
mc0: 44747 Corrected Errors with no DIMM info
mc0: csrow0: 15330 Uncorrected Errors
mc0: csrow0: mc#0csrow#0channel#0: 0 Corrected Errors
mc0: csrow0: mc#0csrow#2channel#0: 0 Corrected Errors
mc0: csrow2: 0 Uncorrected Errors
mc0: csrow2: mc#0csrow#1channel#0: 0 Corrected Errors
mc0: csrow2: mc#0csrow#3channel#0: 0 Corrected Errors
mc0: csrow3: 0 Uncorrected Errors
mc0: csrow3: mc#0csrow#1channel#1: 0 Corrected Errors
mc0: csrow3: mc#0csrow#3channel#1: 0 Corrected Errors

Nada no Memtest.

Qual é o problema? Como resolver isso?

Obrigado.

    
por Xantra 06.07.2013 / 15:58

2 respostas

3

EDAC complanando sobre a maioria (todos?) bancos de memória enquanto o Memtest não mostra nenhum erro em todos os meios mais prováveis, que sua RAM ECC está OK, mas não foi inicializada corretamente pelo BIOS na inicialização.

Para inicializar o bit ECC, a memória deve ser gravada antes que possa ser usada. Geralmente é feito pelo BIOS, mas com algumas placas-mãe (ASUS P5B por exemplo) este passo é pulado se o "Quick Boot" estiver habilitado. Portanto, em cada acesso de células não inicializadas, você obterá erros do EDAC com o servidor funcionando sem problemas ao mesmo tempo.

Tente desativar o Quick Boot na BIOS e veja se isso ajuda.

Se você não tiver acesso físico ao hardware ou se seu BIOS não oferecer a opção de desabilitar a funcionalidade de inicialização rápida, existe outra maneira de iniciar a memória antes que o módulo EDAC seja carregado. Adicione memtest=1 à sua linha de comando do kernel em /etc/default/grub e execute update-grub para atualizar a configuração (suponho que você esteja executando Debian / Ubuntu). O kernel usará seu testador de memória integrado na inicialização e, como parte dos testes, toda a memória será gravada, resultando na inicialização de bits ECC.

    
por 06.11.2013 / 15:30
2

memtest pode não mostrar o problema, mas posso ver mc0: csrow0: 15330 Uncorrected Errors nesse log. Parece que você tem RAM ruim. Dependendo do tabuleiro, você deve encontrar o palito ruim e substituí-lo.

    
por 06.07.2013 / 18:27

Tags