Mensagens de erro de hardware do syslogd

7

Eu tenho um servidor AMD de 64 núcleos executando o CEntOS no qual eu estava executando um longo trabalho. No meio da saída, vejo essas linhas. Parece ser um erro de memória. Quão severo é isso e o que exatamente isso indica?

Message from syslogd@heracles at Nov  7 21:00:02 ...
 kernel:[Hardware Error]: MC4_STATUS[Over|CE|MiscV|-|AddrV|-|-|CECC]: 0xdc10410040080a13    

Message from syslogd@heracles at Nov  7 21:00:02 ...
 kernel:[Hardware Error]: Northbridge Error (node 4): DRAM ECC error detected on the NB.

Message from syslogd@heracles at Nov  7 21:00:02 ...
 kernel:[Hardware Error]: cache level: L3/GEN, mem/io: MEM, mem-tx: RD, part-proc: RES (no timeout)
    
por Farhat 07.11.2012 / 17:09

1 resposta

8

on the NB

O NB é a ponte norte. Computadores antigos usavam muitos chips. Eventualmente, estes foram integrados em cerca de 3 chips genéricos maiores (tempo 386/486) e mais tarde em dois. Um deles tratou da CPU, da RAM e de outros dispositivos de alta velocidade. O outro ("ponte sul") lidou com periféricos lentos).

DRAM ECC error detected

A memória dinâmica é apenas a memória principal (em oposição ao cache, que geralmente é feito de memória estática). ECC é uma memória projetada para detectar e corrigir a corrupção de bit único.

A mensagem que você recebe é que o NB tentou ler alguma memória, mas detectou que ela estava parcialmente corrompida.

Nesse caso, pode desligar a máquina (lembre-se do antigo 'Parity error: System halted'), ou pode corrigi-lo, ou pode ignorá-lo. Neste caso, parece ter corrigido e lançou um aviso.


Um único erro na memória não é motivo para pânico. Essas coisas acontecem. Raramente, mas eles acontecem. E com o ECC você recebe um aviso adequado em vez de falhas inexplicáveis ou dados corrompidos.

Em ambientes extremamente rápidos (por exemplo, no cache acessado), eles nem são tão incomuns. Normalmente, o computador tentará novamente e se corrigirá. Se isso falhar, será lançado um MCE .

Se essas coisas continuarem ocorrendo: Verifique se os DIMMS estão encaixados corretamente. Eles coletaram muita poeira? Eles passam pelo memtest? Etc etc.

    
por 07.11.2012 / 18:20

Tags