Esta é uma resposta de como eu parei o sistema de travar, mas não resolve a questão original. Ainda estou pesquisando soluções e compartilharei todas as novas informações que surgirem à medida que forem aprendendo.
O sistema é uma caixa branca com uma placa-mãe Supermicro H8SGL-F com memória Viking de 64GB (16x4) Hynix e 32GB (16x2). A especificação da placa-mãe diz que os módulos RAM devem ser instalados em conjuntos de quatro conforme o processador usa o controlador de memória quad-channel. Eu joguei os dois módulos extras da Viking para ver se funcionava e funcionou. Essa solução funcionou por meses, mas foi meu primeiro erro.
Meu segundo erro foi que eu instalei o carneiro incorretamente. Os slots de memória são codificados por cores e intercalados para a configuração de quatro canais. Eu tinha o RAM instalado assim:
[ ========== ] 16GB Hynix
[ ---------- ] 16GB Hynix
[ ========== ] 16GB Hynix
[ ---------- ] 16GB Hynix
[ ========== ] 16GB Viking
[ ---------- ] 16GB Viking
[ ========== ]
[ ---------- ]
Embora essa configuração funcionasse por vários meses e só começasse a produzir um problema recentemente, eu não determinaria se a falha era devido ao aumento de capacidade causando um problema com meu layout fora de especificação se um módulo realmente tinha um problema .
Como eu tinha apenas um sistema de produção, removi todos os módulos e comecei a rotacioná-los como pares de dois (ainda sem especificação) e executando o sistema com capacidade reduzida por várias semanas. Não recebi nenhuma falha e não houve relatos de erros da ecc no edac-util. No entanto, é possível que um módulo defeituoso tenha estado no segundo slot e simplesmente não tenha sido acessado de forma que causaria uma falha.
Depois de girar o ram não conseguiu reproduzir o erro, percebi que tinha configurado o aríete incorretamente. Eu removi os módulos Viking e configurei o novo layout assim:
[ ========== ] 16GB Hynix
[ ---------- ]
[ ========== ] 16GB Hynix
[ ---------- ]
[ ========== ] 16GB Hynix
[ ---------- ]
[ ========== ] 16GB Hynix
[ ---------- ]
Desde que fiz essa alteração, o sistema permaneceu estável. Apesar do alinhamento à especificação, isto não confirma se a falha é com o layout, um módulo Viking (desde que eles foram removidos) ou se o módulo incorreto é simplesmente um dos módulos Hynix mais abaixo no layout que é acessado com pouca freqüência não a culpa.
Por favor, veja esta resposta não como uma conclusão para o problema, mas como um passo que tomei para abordar a questão geral. Eu não terminei e continuarei informando enquanto continuo procurando soluções.
Também digno de nota, a energia do sistema pedalou ontem pela primeira vez desde que eu configurei a memória para o novo layout. Não posso confirmar se isso ocorreu devido ao problema de memória que está sendo resolvido ou se este é um problema separado com a fonte de alimentação, portanto leve esse incidente único até agora como um grão de sal.