Isso pode ser um problema de calor; você monitora o calor nas máquinas?
Além disso, você deve pensar seriamente em obter memória RAM ECC se isso acontecer com tanta frequência. Isso pode lhe dar um pouco de tempo extra / dar-lhe um pouco mais de aviso antes de você travar.
Finalmente, você executa o memtest quando obtém a RAM para verificar se está funcionando corretamente quando recebida?