“Erro Northbridge (nó 0): Erro ECC no diretório do Filtro Probe”

8

Recebi um email de um usuário preocupado que os erros a seguir em um de seus servidores sejam indicativos de um problema sério. O problema é que os erros abaixo são todos que eu tenho que continuar. Eu geralmente me considero um Googler decente, mas neste caso eu só consigo encontrar um outro incidente em que os usuários encontraram esse erro em relação ao "diretório do Filtro de Probes":

[1044 snapshots @ abc]$
Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: CPU:0 
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]:       MC4_ADDR: 0x0000000000010f40

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the 
Probe Filter directory.

Message from syslogd@abc at Sep  8 02:51:51 ...
  kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN

Pelo que posso dizer, isso aconteceu apenas uma vez. Ao percorrer os logs por outros erros de hardware, nada mais é do que este incidente.

A postagem no fórum que eu mencionei acima simplesmente termina basicamente dizendo ao usuário que não se preocupe se isso aconteceu apenas uma vez e não causou nenhum problema fatal. Este é o mesmo conselho que recebi de meus colegas, que também mencionaram que há muitas variáveis (ou seja, o que estava acontecendo às 2h50 de 8 de setembro?).

No entanto, este usuário deseja ter certeza de que algo não está errado com o sistema. O que os erros acima podem indicar ou estar relacionados? O que é o "diretório do Filtro de Probes?" Quais testes posso executar para deixar o usuário à vontade de que isso não sinaliza a máquina deles para a destruição iminente?

A distribuição Linux da máquina é o servidor 6.4 do Red Hat Enterprise Linux (Santiago).

    
por CptSupermrkt 30.09.2013 / 23:24

1 resposta

1

Eu não tenho uma resposta precisa, mas algumas delas são familiares. Eu não sei o que é um diretório Probe Filter, mas o CptSupermrkt explicou isso acima.

No PCI, um Northbridge se conecta à memória e ao processador. Erros de ECC estão associados à DRAM. Há bits de código de correção de erros armazenados junto com cada palavra. Em leituras eles são verificados em gravações eles são atualizados. Erros de ECC são corrigíveis ou não corrigíveis, o que indica a capacidade de corrigir um erro usando os bits gravados. Não corrigível não indica que há um erro de hardware permanente. Isso pode acontecer quando a DRAM começa a falhar.

Dado tudo isso, isso parece um erro transitório. Você pode tentar um teste de memória completo, mas não é provável que encontre nada. Se a DRAM falhou, sua única ação corretiva é substituí-la.

    
por 13.01.2016 / 16:31