Para um projeto, temos 50 servidores, todos equipados com (geralmente) o mesmo hardware. A questão que temos aqui é muito séria e acontece em todas as máquinas. Apesar de muito esforço e de contatar os fabricantes e os desenvolvedores de software, todos apontam uns para os outros e até se recusam a me dar uma pista sobre o que está acontecendo.
Primeiro, deixe-me descrever a configuração. Este é o hardware 'servergrade'. Para minha primeira experiência, servergrade é a maior decepção da minha vida.
em execução no sistema - Windows Server 2012 R2 Enterprise - VMWare Workstation 12 - VMs executam tarefas intensivas de GPU - Este sistema é estoque, não há over / underclocking
Sintomas - Aleatório BSOD 0x09c (também conhecido como Machine_Check_Exception): às vezes o sistema é executado por uma semana sem problemas, às vezes em falhas após apenas 10 minutos, mas na maioria das vezes ele é executado por algumas horas.
Já tentou / verificou:
Também informativo:
Estamos desesperados aqui. A aplicação que corremos felizmente é meio redundante. Se um servidor e sua máquina virtual caírem, isso não é um problema, outros servidores assumirão a carga dentro de 5 minutos, mas a essa taxa eu preciso estar on-line o dia todo para reiniciar servidores.
Eu tenho um grande conhecimento de hardware, mas isso passa por isso, pesquisei isso durante todo o dia por mais de um mês, tentando todos os tipos de coisas diferentes. O fato de essas placas-mães serem usadas com provedores de hospedagem em grande escala me faz suspeitar que a placa em si é boa. Este definitivamente não é um problema de hardware específico para o RMA, já que todas as 50 placas têm os mesmos sintomas. A única coisa diferente com a gente é a GPU. Isso em combinação com o experimento Linux me faz suspeitar que isso é definitivamente algo na pista PCIe. A GPU em si é estável em mobos de desktop. Apesar de sua grande capacidade de memória, esta é uma pequena GPU que não consome muita energia. Eu suspeitaria das placas riser chinesas, mas novamente nós também usamos risers certificados SuperMicro e eles não mostram nenhuma melhoria.
Estou muito desesperado para encontrar uma solução aqui. Isso começará com a determinação da causa exata. Estamos dispostos a pagar uma boa recompensa para um especialista que pode analisar alguns despejos e nos dar mais detalhes (ou, melhor ainda, uma solução).
Atenciosamente,
Simon
Tags supermicro bsod