CE ECC (Erro Corrigível) ocorrendo a cada 5 minutos exatamente

1

Em um de nossos nós de computação, estou recebendo CE ECC (erros corrigíveis). O que é um pouco peculiar é que os erros não são massivos, apenas uma única ocorrência exatamente a cada 5 minutos.

messages.log:

May  7 11:43:37 armada9 kernel: [22220081.676263] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x41daad offset:0xc30 grain:0 syndrome:0x2254)
May  7 11:48:37 armada9 kernel: [22220381.919057] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x407bb8 offset:0x150 grain:0 syndrome:0x33a8)
May  7 11:53:37 armada9 kernel: [22220682.161798] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x41e6bd offset:0x6a0 grain:0 syndrome:0x33a8)
May  7 11:58:37 armada9 kernel: [22220982.404501] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x427c14 offset:0x880 grain:0 syndrome:0x33a8)
May  7 12:03:37 armada9 kernel: [22221282.647210] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x426e88 offset:0x830 grain:0 syndrome:0x33a8)

entrada de exemplo syslog:

May  7 12:03:37 armada9 kernel: [22221282.647114] [Hardware Error]: MC4 Error (node 1): DRAM ECC error detected on the NB.
May  7 12:03:37 armada9 kernel: [22221282.647210] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x426e88 offset:0x830 grain:0 syndrome:0x33a8)
May  7 12:03:37 armada9 kernel: [22221282.647215] [Hardware Error]: Error Status: Corrected error, no action required.
May  7 12:03:37 armada9 kernel: [22221282.647299] [Hardware Error]: CPU:6 (10:8:0) MC4_STATUS[Over|CE|MiscV|-|AddrV|CECC]: 0xdc54400033080813
May  7 12:03:37 armada9 kernel: [22221282.647393] [Hardware Error]: MC4_ADDR: 0x0000000426e88830
May  7 12:03:37 armada9 kernel: [22221282.647443] [Hardware Error]: cache level: L3/GEN, mem/io: MEM, mem-tx: RD, part-proc: SRC (no timeout)

Outra coisa que me deixa perplexo é que cat /sys/devices/system/edac/mc/mc*/csrow*/ce_count mostra 4x 0 . dmidecode -t memory | grep Size informa que há 8x 2GB data instalados. Mas cat /sys/devices/system/edac/mc/mc*/csrow*/size_mb mostra 4x 4096 . Eu estou supondo que os chips de memória são únicos, e pares de dados foram acoplados. Isso está certo? Ainda não explica porque a contagem de erros é 0 .

Isso já dura cerca de 2 a 3 dias. Todos os erros até agora foram reportados como corrigidos, mas isso é muito irritante e provavelmente não é seguro.

A memória RAM está morrendo e tenho sorte de ter ocorrido apenas um processo do sistema que foi colocado ali (em oposição à computação)? Eu não acho que tenho nada rodando a cada 5 minutos, mas talvez algumas ferramentas de log são.

Ou o motivo pode ser outra coisa?

    
por luk32 07.05.2014 / 12:38

2 respostas

1

Um problema semelhante aconteceu quando instalei novos DIMMs no meu PowerEdge R815. Eu pensei que um dos DIMMs era ruim, mas não sabia qual dos 32 DIMMs poderia ser. Aconteceu que o painel LCD do hardware (e o log de hardware) relataram a falha e forneceram o ID do slot DIMM. Quando recoloquei o DIMM, o erro desapareceu - portanto, não foi um erro que poderia ser corrigido pelo ECC, afinal.

    
por 19.06.2014 / 20:41
1

É importante mapear o canal e o canal para o slot físico / DIMM e substituir o mais rápido possível. Na minha experiência, você começará a receber mais e mais erros, mas tudo depende da rapidez com que o chip fica totalmente ruim. Eu vi o progresso passando de alguns erros por dia até o dia seguinte, ou poderia durar vários meses ou mais (tudo dependendo da sua carga de trabalho). Eventualmente, será até o ponto em que seu console estiver preenchido com eles e, eventualmente, levar a um UE (Uncorrectable Error) e seu servidor falhará e o DIMM ficará inutilizável.

Outra coisa importante é que, se o BIOS (e a maioria dos BIOS do servidor fizer isso) detectar falhas de vários bits, ele poderá desativar esse slot DIMM. Não limpe / apague ou reinicie os DIMMs habilitados no BIOS, caso contrário o servidor provavelmente não inicializará (como em nenhum POST) e, a menos que você se lembre de qual DIMM foi marcado, será necessário remover o chip após o chip até que ele inicialize. qual deles foi ruim (grande dor em um ambiente corporativo ou de datacenter). Além disso, se substituir um DIMM que foi marcado como ruim, você provavelmente terá que reativá-lo ou limpar o registro do DIMM incorreto do seu BIOS para que ele seja reconhecido.

    
por 13.04.2016 / 01:04