Então, depois de muita troca estratégica (mainboard, PSUs, CPU) eu tenho uma confirmação diferencial (o sistema de teste experimenta o problema, o original não funciona mais) na CPU sendo ruim. Resultado muito inesperado, já que nenhum MCE foi demitido, geralmente você obtém MCEs antes de travamentos difíceis.
Como este fórum infelizmente não tem um conector Trace Hub / JTAG e a depuração USB3 integrada não está disponível na plataforma Haswell, não tenho idéia do que realmente está dando errado. É bem certo que o chip acaba em um estado em que ele não consegue ser liberado da reinicialização (falha de autoteste, trilho de alimentação não está vindo, ...). Poderia estar relacionado à introdução de FIVR (Regulador de Tensão Totalmente Integrado) em Haswell, mas isso é apenas especulação.
Se você acertar este problema, ele não precisa ser a CPU, poderia ser uma placa-mãe com problemas ou PSU (ou algo totalmente diferente). Eu só queria postar isso para ser completo e para as pessoas verem que ele também pode ser uma falha na CPU (embora ainda seja bastante improvável).