O sistema não deve reinicializar após um erro de memória corrigível. Você vê informações adicionais / padrão via ipmitool sel elist
? O watchdog do BMC pode reinicializar o sistema, verifique se ele está ativado via ipmitool mc watchdog get
.
Como você já tem as informações sobre a localização do módulo de memória defeituosa, substitua-o e se o problema se manifestar novamente, o slot de memória pode estar com defeito.
X10SLM-F a RAM que você usa não está na lista de módulos de RAM testados - se você tiver a possibilidade, substitua todas as barras de memória em um sistema de 'problemas' com os testados com Supermicro equivalentes. Além disso, verifique a lista de sistema operacional compatível com a versão do Ubuntu.
Relacionado às configurações do CMOS, você pode usar Supermicro SUM
, desde que tenha as chaves SUM instaladas, para descarregar as configurações do BIOS de todos os sistemas e vimdiff
para ver se há algum parâmetro CMOS diferente para o sistemas que regularmente reiniciam em comparação com o (s) sistema (s) que não o fazem.
sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf