/ var / log / messages mostrando muitos CE Err = 0x2000 mesmo em bancos não utilizados (slots)

1

Eu recentemente tive que atualizar um servidor antigo (HP ML350G5) com RAM FBDIMM DDR2 usado (não consegui novos onde eu moro). Depois que a reinicialização do / var / log / messages foi afetada pelos erros CE Err = 0x2000, o sistema parece estar estável. Eu estou supondo que a ECC está cuidando das coisas.

O que não faz sentido é que os logs de erro mostram o mesmo erro em todos os bancos, embora eu esteja usando apenas 2 slots (slots 0 e 3).

A RAM instalada é compatível com módulos Kingstone 2x4GB em execução no Centos 5.5 de 32 bits. Eu estava esperando algum tempo de inatividade disponível para instalar um kernel do PAE para aproveitar os 8GB, mas não esperava os erros.

Outras postagens sugerem a execução do memtest, mas eu gostaria de compartilhar e ver se outras pessoas tiveram erros semelhantes apontando para slots de RAM não utilizados. Os erros podem estar relacionados a ter mais RAM instalada do que o 32bit pode levar em conta (sem ter um kernel de 64 bits ou PAE em execução)?

A amostra do log de erros é exibida.

Aug 14 21:00:35 umm kernel: EDAC MC0: CE row 0, channel 0, label "": (Branch=0 DRAM-Bank=4 RDWR=Read RAS=12405 CAS=506, CE Err=0x2000 (Correctable Non-Mirrored Demand Data ECC))

Aug 14 21:00:36 umm kernel: EDAC MC0: CE row 0, channel 0, label "": (Branch=0 DRAM-Bank=2 RDWR=Read RAS=3505 CAS=4, CE Err=0x2000 (Correctable Non-Mirrored Demand Data ECC))

Aug 14 21:00:37 umm kernel: EDAC MC0: CE row 0, channel 0, label "": (Branch=0 DRAM-Bank=6 RDWR=Read RAS=12404 CAS=504, CE Err=0x2000 (Correctable Non-Mirrored Demand Data ECC))

... All DRAM-Bank= values appear on the logs (from 0 thru 7)

    
por Mundo A. 15.08.2013 / 04:16

2 respostas

0

se você ainda não instalou o kernel do PAE, então qual kernel você está atualmente executando ???

o memtest pode não identificar os erros devido à memória ser memória ECC

tente executar edac-util -v se houver algum problema incorrigível, você poderá identificar as linhas com memória ruim.

    
por 15.08.2013 / 05:47
0

Como por logs, você está recebendo mensagens CE (Corrected Error) no sistema. Ans você pode ignorá-los, edite o grub.conf e adicione mce = dont_log_ce à linha do kernel que irá parar as mensagens de erro corrigidas para o arquivo de login.

Mas é sempre bom executar a verificação de memória no sistema.

    
por 04.09.2013 / 13:00