O que fazer em resposta a notificações de erro DRAM ECC repetidas para o mesmo local de memória?

4

Eu acordei esta manhã para o que é a primeira vez para mim; um dos meus sistemas registrou DRAM ECC error notificações. Três deles, na verdade, até onde eu posso dizer exatamente a mesma localização de memória (obviamente, o sistema não é realmente chamado localhost):

Aug 31 05:00:46 localhost kernel: [719099.816034] [Hardware Error]: CPU:0   MC4_STATUS[-|CE|MiscV|-|AddrV|-|-|CECC]: 0x9c6c40006b080a13
Aug 31 05:00:46 localhost kernel: [719099.816046] [Hardware Error]:         MC4_ADDR: 0x0000000641f49d20
Aug 31 05:00:46 localhost kernel: [719099.816051] [Hardware Error]: Northbridge Error (node 0): DRAM ECC error detected on the NB.
Aug 31 05:00:46 localhost kernel: [719099.816059] EDAC amd64 MC0: CE ERROR_ADDRESS= 0x641f49d20
Aug 31 05:00:46 localhost kernel: [719099.816070] EDAC MC0: CE page 0x641f49, offset 0xd20, grain 0, syndrome 0x6bd8, row 2, channel 0, label "": amd64_edac
Aug 31 05:00:46 localhost kernel: [719099.816075] [Hardware Error]: cache level: L3/GEN, mem/io: MEM, mem-tx: RD, part-proc: RES (no timeout)

A mensagem acima foi seguida por uma notificação idêntica na hora do sistema 05:10:46 (719699.8160) e, em seguida, mais uma em 05:20:46 (720299.8160) que também tinha Over na linha CPU:0 MC4_STATUS (status 0xdc6c40006b080813 ). Até agora, o sistema ficou estável desde então, sem mais erros registrados. A atividade do sistema é normal e o sistema em questão está sendo executado com a RAM ECC desde 2014, mas nunca registrou nenhum erro de ECC.

Eu não estaria muito preocupado com um único erro ECC corrigível . Os quase exatamente dez minutos (na verdade, alguns microssegundos) entre os erros que estão sendo registrados poderiam ser simplesmente para a limpeza de RAM acontecendo a cada dez minutos; infelizmente, neste sistema em particular, o intervalo de lavagem não é exposto como uma configuração. No entanto, os três erros consecutivos no mesmo local de memória (o mesmo valor para CE ERROR_ADDRESS ) me preocupam um pouco.

Atualização: O host em questão registrou vários mais desde que eu postei originalmente essa pergunta, todos com o mesmo valor para CE ERROR_ADDRESS .

Quão seriamente devo levar isso? O que é uma boa resposta; solicite a substituição imediata da RAM e programe-a para instalá-la o mais rápido possível, trate isso apenas como uma falha momentânea ou tente substituir a memória RAM se ocorrer novamente, mas sem ação específica?

    
por a CVn 31.08.2017 / 10:28

3 respostas

2

A RAM ECC tende a ser usada em servidores críticos. O sistema está relatando uma falha de hardware. Se não é um sistema crítico e você não se importa com tudo que passa potencialmente corrompendo, espere e veja o que acontece, mas se você se preocupa com seus dados mais do que o custo da RAM, substitua o RAM com falha o mais rápido possível.

    
por 04.09.2017 / 09:26
0

Eu sugiro rodar o memtest86 +

link

Também está incluído em algumas distribuições como pacote padrão.

Pode confirmar sua suspeita em um módulo de memória defeituoso.

    
por 04.09.2017 / 09:16
0

I woke up this morning to what's a first for me; one of my systems had logged DRAM ECC error notifications. Three of them, in fact, for ... I wouldn't be too worried about a single correctable ECC error. The almost exactly ten minutes (down to a few microseconds, in fact) in between the errors being logged could be simply for RAM scrubbing happening every ten minutes; unfortunately, on this particular system, the scrub interval is not exposed as a setting.

A página da web da Wikipedia em Esfregando a memória diz:

"Over 8% of DIMM modules experience at least one correctable error per year. This can be a problem for DRAM and SRAM based memories. The probability of a soft error at any individual memory bit is very small.".

"In order to not disturb regular memory requests from the CPU and thus prevent decreasing performance, scrubbing is usually only done during idle periods. As the scrubbing consists of normal read and write operations, it may increase power consumption for the memory compared to non-scrubbing operation. Therefore, scrubbing is not performed continuously but periodically. For many servers, the scrub period can be configured in the BIOS setup program.

Essa página contém um link para o manual da placa-mãe SuperMicro X9SRA, que explica o intervalo de depuração:

"Patrol Scrub
Patrol Scrubbing is a process that allows the CPU to correct correctable memory errors detected on a memory module and send the correction to the requestor (the original source). When this item is set to Enabled, the North Bridge will read and write back one cache line every 16K cycles, if there is no delay caused by internal processing. By using this method, roughly 64 GB of memory behind the North Bridge will be scrubbed every day. The options are Enabled and Disabled.".

Assim, a causa não é de esfregar. É possível que há um bit defeituoso. Embora uma falha possa ocorrer de repente, parece estranho que ela desapareça e volte, especialmente quando ocorre com tanta frequência.

"How seriously should I take this? What's a good response; order replacement RAM right away and schedule to install it ASAP, treat this as just a momentary glitch, or be on toes to replace RAM if it happens again but no specific action right now?"

Pavel Machek, que inventou o módulo do kernel nohammer diz:

"It is fairly hard to do rowhammer by accident, so if you are hitting it, someone is probably doing it on purpose. ... Well, there's more than three orders of magnitude difference between cosmic rays and rowhammer. IIRC cosmic rays are expected to cause 2 bit flips a year... rowhammer can do bitflip in 10 minutes, and that is old version, not one of the optimized ones.".

Você pode trocar os módulos de RAM e ver se o relatório de erros segue o chip, fica na posição da memória ou ocorre em outro lugar.

A HPE recomenda (para um módulo de memória defeituoso):

"SYMPTOM: The below error message is found in the OS logs:

host1 kernel: Northbridge Error (node X): DRAM ECC error detected on the NB.

FIX:
1. Identify the Memory module number that has failed (if mentioned in the error)
2. Check IML for Error relating to Memory module. Ex Proc x slot x
3. Update System BIOS
4. If no errors are found run diagnostics and replace the memory module (5-6 loops of Memory Diagnostics to isolate the memory module)"

Curso sugerido:

  • Mudar a RAM nos soquetes indicará se é um módulo de RAM específico ou se a falha está em outros circuitos.

  • Contanto que você não receba mais do que um erro de bit em intervalos de alguns dias, não haverá pânico (rush).

  • Se você for atingido a cada 10 minutos, poderá ser atacado.

Veja também: " Defendendo o RowHammer no kernel " e "ECCploit: Memória ECC vulnerável a ataques de Rowhammer depois de tudo ". Para processadores ARM, há: " patches do Android GuardION para reduzir ataques de Rowhammer baseados em DMA no ARM ".

    
por 27.11.2018 / 02:13