Erro de memória EDAC após atualizar o servidor SuperMicro com o CentOS 7. Esses erros específicos da placa-mãe, sistema operacional ou módulo de RAM quebrado? [RESOLVIDO]

2

Eu tenho o servidor na placa-mãe do SuperMicro MBD-X9DRD-EF . Funcionou bem no CentOS7 durante o ano com uma CPU (Intel Xeon X6 E5-2620v2 original) e 128 GB (8x16 Gb) de memória LVDDR (1600 MHz Crucial ECC Reg RTL (PC3-12800)). No mês passado, atualizamos este servidor adicionando uma segunda CPU e uma memória adicional de 128 Gb, absolutamente idênticas às existentes. Mas depois de usar intensivamente o servidor (durante 3-4 dias), começamos a receber (com muita frequência) esses erros:

[root@GBserver log]# dmesg
[614781.869098] EDAC sbridge MC1: HANDLING MCE MEMORY ERROR
[614781.869104] EDAC sbridge MC1: CPU 6: Machine Check Event: 0 Bank 7: 8c00004000010090
[614781.869106] EDAC sbridge MC1: TSC 0
[614781.869108] EDAC sbridge MC1: ADDR 38126a6c40
[614781.869110] EDAC sbridge MC1: MISC 14066ca86
[614781.869112] EDAC sbridge MC1: PROCESSOR 0:306e4 TIME 1473082855 SOCKET 1 APIC 20
[614782.595676] EDAC MC1: 1 CE memory read error on CPU_SrcID#1_Ha#0_Chan#0_DIMM#0 (channel:0 slot:0 page:0x38126a6 offset:0xc40 grain:32 syndrome:0x0 -  area:DRAM err_code:0001:0090 socket:1 ha:0 channel_mask:1 rank:1)

E a saída do edac-util:

[root@GBserver log]# edac-util -v
mc0: 0 Uncorrected Errors with no DIMM info
mc0: 0 Corrected Errors with no DIMM info
mc0: csrow0: 0 Uncorrected Errors
mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#0_DIMM#0: 0 Corrected Errors
mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#1_DIMM#0: 0 Corrected Errors
mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#2_DIMM#0: 0 Corrected Errors
mc0: csrow0: CPU_SrcID#0_Ha#0_Chan#3_DIMM#0: 0 Corrected Errors
mc0: csrow1: 0 Uncorrected Errors
mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#0_DIMM#1: 0 Corrected Errors
mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#1_DIMM#1: 0 Corrected Errors
mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#2_DIMM#1: 0 Corrected Errors
mc0: csrow1: CPU_SrcID#0_Ha#0_Chan#3_DIMM#1: 0 Corrected Errors
mc1: 0 Uncorrected Errors with no DIMM info
mc1: 0 Corrected Errors with no DIMM info
mc1: csrow0: 0 Uncorrected Errors
mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#0_DIMM#0: 296182 Corrected Errors
mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#1_DIMM#0: 0 Corrected Errors
mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#2_DIMM#0: 0 Corrected Errors
mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#3_DIMM#0: 0 Corrected Errors
mc1: csrow1: 0 Uncorrected Errors
mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#0_DIMM#1: 0 Corrected Errors
mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#1_DIMM#1: 0 Corrected Errors
mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#2_DIMM#1: 0 Corrected Errors
mc1: csrow1: CPU_SrcID#1_Ha#0_Chan#3_DIMM#1: 0 Corrected Errors

mc1: csrow0: CPU_SrcID#1_Ha#0_Chan#0_DIMM#0: 296182 Corrected Errors

Esses erros surgiram via placa-mãe, CPU ou falha do SO, ou quebramos o chip de memória? O que devemos fazer? Como encontrar um módulo de memória corrompido?

    
por Vitaly Korchagin 05.09.2016 / 16:25

1 resposta

0

Após 3 semanas, houve cerca de 11 milhões de erros corrigidos registrados. Eu encontrei o módulo de memória quebrada depois de ver o log do BIOS. Esta é a resposta minha pergunta.
Em seguida, removerei o módulo quebrado e o substituirei por outro.

    
por 19.09.2016 / 15:55