Esses erros são provenientes do EDAC - Erro de detecção e correção edac_mc classe do dispositivo.
Os eventos que você está recebendo são eventos CE (Erros Corrigíveis). Estas são indicações de que um DIMM está começando a falhar.
O EDAC não informou nenhuma informação específica sobre a linha de memória ou canal a que se refere, por isso é difícil dizer qual deles substituir até que um falhe.
mas dê uma olhada em: / sys / devices / system / edac / mc / mc * e isso pode lhe dizer um pouco mais sobre qual linha / dimm que pode estar com defeito.
Por exemplo
ls -s /sys/devices/system/edac/mc/mc0
total 0
0 ce_count 0 csrow1 0 csrow4 0 csrow7 0 reset_counters 0 size_mb
0 ce_noinfo_count 0 csrow2 0 csrow5 0 device 0 sdram_scrub_rate 0 ue_count
0 csrow0 0 csrow3 0 csrow6 0 mc_name 0 seconds_since_reset 0 ue_noinfo_count
veja o campo ce_count.
em uma nota lateral:
O sistema ainda pode continuar a operar, mas com menos segurança. A manutenção preventiva e a substituição proativa de peças de DIMMs de memória que exibem CEs podem reduzir a probabilidade dos eventos do UE (erro incorrigível) e dos 'pânicos' do sistema.
mais informações sobre o edac aqui: