Monitorando erros físicos de RAM no Linux

3

Eu gostaria de monitorar o ram de dois sistemas linux (Ubuntu e Red Hat). Eu percebo que posso rodar o memtest86 a partir do boot para diagnosticar um ram ruim. Mas existem soluções para monitorar o RAM enquanto o sistema ainda está em execução. Eu meio que estou pensando em um daemon que escreve e lê de volta a partir da memória não usada aleatoriamente. Alguém viu algo assim antes?

    
por user40157 09.04.2010 / 18:09

2 respostas

5

A maioria dos servidores modernos de qualquer qualidade razoável tem um módulo IPMI que relatará RAM ruim (geralmente via mensagens SBE (erro de bit único) da RAM ECC - Você está usando a RAM ECC em seus servidores , certo?). O módulo IPMI também monitora e relata um monte de outras coisas úteis.

Você pode monitorar o módulo IPMI usando uma variedade de sistemas de monitoramento de rede (se você tiver uma rede de gerenciamento para as IPIC NICs) ou usando ipmitool , que está disponível na maioria dos sistemas Unix. Muitos fornecedores (Dell e IBM, com certeza) também possuem ferramentas especializadas que interrogam o módulo IPMI para diagnósticos on-line. Consulte o seu fornecedor de hardware para mais detalhes.

    
por 09.04.2010 / 18:50
0

Aqui está um script: link

A partir daqui: link

Parece que ele extrai uma cópia do kernel do linux várias vezes para esgotar a memória disponível (acho que isso pode ser modificado para testar uma boa parte da RAM, mas não todos) e depois verifica a cópia descompactada para verificar a integridade.

Uso inteligente de um utilitário simples.

    
por 09.04.2010 / 18:41