A abordagem mais clara para isso é controlar seu ambiente.
Os limites de temperatura ambiente para essas plataformas de servidor são bem documentado .
Concentre-se em manter suas instalações e ambiente dentro desses limites. ( me repetindo? )
Se você tem o número de clientes descrito, essa tarefa recai sobre suas instalações e / ou equipe de datacenter, certo?
No nível do servidor local, seu único outro parâmetro é o BIOS Parada Térmica .
Se você está enfrentando esse tipo de problema, ele raramente é súbito e inesperado ... pelo menos até o ponto em que você tem tempo para automatizar o desligamento dos sistemas afetados via ILO.