RHEL: O que acontece quando a memória começa a falhar?

4

Estou recebendo avisos ecc de alguma RAM do servidor. É uma máquina bem velha, então não há garantia nessas partes.

Se este fosse o Windows, eu esperaria ver BSOD.

O que posso esperar do RH5.x?

    
por ethrbunny 17.07.2013 / 17:42

2 respostas

5

Em um sistema RHEL, você verá um acúmulo de erros na saída do buffer de anel do kernel ( dmesg ), bem como /var/log/messages . Quando o limite de ECC for excedido, os aplicativos podem simplesmente falhar. O servidor poderia inicializar a quente. Você pode ter um pânico no kernel. O log de exceções de verificação da máquina terá indicadores. Eu até vi casos em que o sistema foi reinicializado e desativa o DIMM ruim.

Se este for o hardware do servidor corporativo, o log de eventos do sistema poderá ser preenchido com erros. O watchdog do servidor pode expirar e forçar uma inicialização a frio do sistema.

Neste ponto, você sabe que tem um problema ... Portanto, a solução certa é substituir o DIMM incorreto. Na maioria dos casos, o modo de falha não é bonito, por isso é melhor evitar a dor. Fica feliz que a RAM ECC lhe deu avisos.

    
por 17.07.2013 / 18:08
4

O equivalente Linux do BSOD é o pânico do kernel. Quando o kernel encontra uma situação com a qual realmente não consegue lidar (por exemplo, um erro de corrupção do sistema de arquivos levando a condições como tentar liberar um inode que já é gratuito), ele imprime avisos de pânico em praticamente todos os lugares, geralmente via syslog e pára o (s) processador (es).

Se a memória estiver falhando de forma indetectável, mais cedo ou mais tarde o kernel irá se deparar com tal condição e pânico.

Eu pesquisei por exemplos e encontrei muitos; aquele em link é um bom exemplo do gênero; você pode ver a linha com o timestamp 7.568856 onde o kernel formalmente anuncia que desistiu.

Note também que não está sincronizando os sistemas de arquivos, o que é uma precaução sensata quando não pode mais ter certeza de sua própria integridade. Isso pode dificultar a depuração dessas condições, já que a falta de sincronização significa que a mensagem de log nunca chegará aos arquivos de log locais. Este, por sua vez, é uma das principais razões pelas quais eu uso o syslogging remoto: o erro ainda será enviado para o loghost remoto, e muitas vezes pode ser encontrado lá.

    
por 17.07.2013 / 18:05

Tags