BSOD 0x09c em 50 máquinas SuperMicro

8

Para um projeto, temos 50 servidores, todos equipados com (geralmente) o mesmo hardware. A questão que temos aqui é muito séria e acontece em todas as máquinas. Apesar de muito esforço e de contatar os fabricantes e os desenvolvedores de software, todos apontam uns para os outros e até se recusam a me dar uma pista sobre o que está acontecendo.

Primeiro, deixe-me descrever a configuração. Este é o hardware 'servergrade'. Para minha primeira experiência, servergrade é a maior decepção da minha vida.

  • SuperMicro X10SDV-8C + -LN2F
  • Intel Xeon D-1540 (incorporado na placa-mãe)
  • Estojo 1U personalizado ou caso original SuperMicro
  • PSU do servidor de 480 watts ou PSU original do SuperMicro de 200 watts
  • SSD Samsung Evo 850 de 500 GB
  • 32 GB DDR4-2133 ECC ou NON-ECC (mas não misturados no mesmo servidor)
  • GPU DDR3 Asus GT730 de 4 GB
  • A GPU é montada com uma placa riser PCIe (não com fita), sem nome da China ou original SuperMicro

em execução no sistema - Windows Server 2012 R2 Enterprise - VMWare Workstation 12 - VMs executam tarefas intensivas de GPU - Este sistema é estoque, não há over / underclocking

Sintomas - Aleatório BSOD 0x09c (também conhecido como Machine_Check_Exception): às vezes o sistema é executado por uma semana sem problemas, às vezes em falhas após apenas 10 minutos, mas na maioria das vezes ele é executado por algumas horas.

Já tentou / verificou:

  • O BIOS foi atualizado para a versão mais recente (acho que agora isso melhorou o tempo para o sistema ficar estável, mas isso poderia ter sido aleatório).
  • Windows atualizado para a versão mais recente.
  • VMWare atualizado para a versão mais recente.
  • Troquei todos os componentes e tentei todas as opções diferentes, até mesmo tentei um desktop ATX PSU e M.2 SSD.
  • Instalou todos os sistemas do zero com o Ubuntu. Eu não estou familiarizado com o Linux e nunca vi um Linux BSOD e eu ainda não desde que os sistemas de servidor estão sem cabeça e eu tentei isso no DC. RESULTADO: o sistema travaria e, após a reinicialização, o Linux informava o travamento XORG (relacionado à GPU).
  • A configuração da GPU alterada no BIOS para 'Acima de 4G', o restante do BIOS é o padrão de fábrica.

Também informativo:

  • Os sistemas estão localizados em um datacenter. Temperatura, ar, energia e rede são ótimos.
  • As temperaturas estão bem abaixo do máximo de fábrica
  • Temos exatamente a mesma configuração software executada em computadores desktop (com hardware de desktop). Este sistema pode funcionar bem com 1 de 100 PCs a cada mês.
  • Eu entrei em contato com a VMWare, dizem que isso é um problema de hardware
  • Eu entrei em contato com o SuperMicro, eles não dizem nada exceto algumas coisas e já tentaram e também que isso ainda pode ser um problema de software.

Estamos desesperados aqui. A aplicação que corremos felizmente é meio redundante. Se um servidor e sua máquina virtual caírem, isso não é um problema, outros servidores assumirão a carga dentro de 5 minutos, mas a essa taxa eu preciso estar on-line o dia todo para reiniciar servidores.

Eu tenho um grande conhecimento de hardware, mas isso passa por isso, pesquisei isso durante todo o dia por mais de um mês, tentando todos os tipos de coisas diferentes. O fato de essas placas-mães serem usadas com provedores de hospedagem em grande escala me faz suspeitar que a placa em si é boa. Este definitivamente não é um problema de hardware específico para o RMA, já que todas as 50 placas têm os mesmos sintomas. A única coisa diferente com a gente é a GPU. Isso em combinação com o experimento Linux me faz suspeitar que isso é definitivamente algo na pista PCIe. A GPU em si é estável em mobos de desktop. Apesar de sua grande capacidade de memória, esta é uma pequena GPU que não consome muita energia. Eu suspeitaria das placas riser chinesas, mas novamente nós também usamos risers certificados SuperMicro e eles não mostram nenhuma melhoria.

Estou muito desesperado para encontrar uma solução aqui. Isso começará com a determinação da causa exata. Estamos dispostos a pagar uma boa recompensa para um especialista que pode analisar alguns despejos e nos dar mais detalhes (ou, melhor ainda, uma solução).

Atenciosamente,

Simon

    
por user349749 16.04.2016 / 19:25

0 respostas