Mensagens de erro EDAC na inicialização a cada vez, é um problema de hardware?

1

Notei que tenho mensagens de erro EDAC nos logs enquanto fazia um dmesg. Então eu descobri que estou recebendo a mesma mensagem de erro EDAC cada vez na inicialização. Isso está no CentOS 6.4 x86_64. Eu suspeito de um problema de memória, então eu corri o memtest86 de um Live DVD do CentOS 6.0 e ele não mostrou nenhum problema. Eu tentei remover um pedaço de RAM no tempo, ligando e ainda tenho as mensagens de erro EDAC. Perguntando se era um problema recente do Kernel que eu inicializei do DVD ao vivo do CentOS 6.0 e olhei no log e havia uma mensagem EDAC lá também como no CentOS 6.4.

Esta é a mensagem de erro:

Jul  5 00:44:19 mybox kernel: dracut: Switching root
Jul  5 00:44:19 mybox kernel: readahead: starting
Jul  5 00:44:19 mybox kernel: udev: starting version 147
Jul  5 00:44:19 mybox kernel: EDAC MC: Ver: 2.1.0 Jun 12 2013
Jul  5 00:44:19 mybox kernel: EDAC MC0: Giving out device to 'i3000_edac' 'i3000': DEV 0000:00:00.0
Jul  5 00:44:19 mybox kernel: EDAC PCI0: Giving out device to module 'i3000_edac' controller 'EDAC PCI controller': DEV '0000:00:00.0' (POLLED)
Jul  5 00:44:19 mybox kernel: tg3.c:v3.124 (March 21, 2012)

Não tenho outros problemas com o sistema. Ele está sendo executado em um Dell PowerEdge SC430 com 4 GB de RAM. Ele tem duas unidades internas de 80 GB que executam um RAID de software e as unidades eSATA externas também executam um software RAID.

Se é um problema de hardware, seria relacionado apenas à memória? Poderia ser outra coisa? Estou disposto a tentar mais coisas para chegar ao fundo disso, mas não tenho certeza qual é o próximo passo neste momento. Obrigado!

EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
    
por Edward 05.07.2013 / 07:09

1 resposta

2

As linhas mostradas que se referem a "Giving out device" significam que o driver inicializou e está falando com o hardware. Uma refere-se ao controlador de memória (MC0) e a outra ao controlador PCI (PCI0).

As linhas que começam com CE se referem a erros corrigíveis , ou seja, o hardware ECC corrigiu com sucesso um erro. Se você vê apenas um a cada poucos meses, não é grande coisa; raios cósmicos ou o que seja. Se você está vendo muitos deles, então é hora de substituir a RAM afetada, porque ela provavelmente vai morrer em breve.

    
por 05.07.2013 / 21:33