Se desligar e reiniciar ajuda e ECC torna mais raro, eu acho que é um problema de superaquecimento. Consulte Ativando sensores de hardware no Linux sobre como usar sensores MB incorporados (normalmente , é CPU e MB). Os HDDs costumam ter temperatura entre seus atributos SMART.
Os DIMMs não têm sensores, então você deve tocá-los, fazer suposições ou usar uma peça adicional de hardware com sensores em fios que podem ser colocados em qualquer lugar - como este painel frontal .