Com que seriedade devo levar avisos de erro corrigíveis por ECC?

8

Eu tenho uma pilha de servidores Sun X2200-M2. Esses servidores possuem memória ECC.

Em alguns desses servidores, estou recebendo avisos no eLOM sobre "erros de ECC corrigíveis detectados", por exemplo:

# ssh regress11 ipmitool sel elist
   1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
   2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted

... alguns com mais frequência que outros.

O kernel neste sistema em particular está lançando erros EDAC também, embora com muito mais freqüência que o eLOM esteja gravando eventos ECC:

EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x42a194, offset 0x60, grain 8, syndrome 0xf654, row 4, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x48cb94, offset 0x10, grain 8, syndrome 0xf654, row 5, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error

Agora, se o servidor estiver detectando ECC incorrigível, o sistema será redefinido, o que claramente é ruim e a remoção / substituição do dispositivo ou par identificado corrige o problema.

Mas eu estou pensando que se o erro for Corrigível, então não há nenhum problema imediato - eu posso tratar isso como um aviso e estar preparado para puxar o stick / par se um erro incorrigível começar a ocorrer?

    
por David Mackintosh 21.05.2010 / 17:50

1 resposta

10

Depende da frequência com que você recebe o erro. Por uma variedade de razões, a ECC deveria ter que corrigir erros de bit único em média uma vez por ano. Se você está recebendo-os significativamente mais rápido do que isso, ou se eles são erros multi-bit, você deve estar preocupado (eu substituiria o RAM o mais rápido possível).

Além disso, o ECC não é perfeito. É possível que o erro cumulativo passe pelo ECC; que apareceria como uma falha do sistema operacional ou um problema semelhante.

    
por 21.05.2010 / 17:53

Tags