A maioria dos servidores modernos de qualquer qualidade razoável tem um módulo IPMI que relatará RAM ruim (geralmente via mensagens SBE (erro de bit único) da RAM ECC - Você está usando a RAM ECC em seus servidores , certo?). O módulo IPMI também monitora e relata um monte de outras coisas úteis.
Você pode monitorar o módulo IPMI usando uma variedade de sistemas de monitoramento de rede (se você tiver uma rede de gerenciamento para as IPIC NICs) ou usando ipmitool
, que está disponível na maioria dos sistemas Unix. Muitos fornecedores (Dell e IBM, com certeza) também possuem ferramentas especializadas que interrogam o módulo IPMI para diagnósticos on-line. Consulte o seu fornecedor de hardware para mais detalhes.