BSOD 0x09c em 50 máquinas SuperMicro

Question

BSOD 0x09c em 50 máquinas SuperMicro

8

Para um projeto, temos 50 servidores, todos equipados com (geralmente) o mesmo hardware. A questão que temos aqui é muito séria e acontece em todas as máquinas. Apesar de muito esforço e de contatar os fabricantes e os desenvolvedores de software, todos apontam uns para os outros e até se recusam a me dar uma pista sobre o que está acontecendo.

Primeiro, deixe-me descrever a configuração. Este é o hardware 'servergrade'. Para minha primeira experiência, servergrade é a maior decepção da minha vida.

SuperMicro X10SDV-8C + -LN2F
Intel Xeon D-1540 (incorporado na placa-mãe)
Estojo 1U personalizado ou caso original SuperMicro
PSU do servidor de 480 watts ou PSU original do SuperMicro de 200 watts
SSD Samsung Evo 850 de 500 GB
32 GB DDR4-2133 ECC ou NON-ECC (mas não misturados no mesmo servidor)
GPU DDR3 Asus GT730 de 4 GB
A GPU é montada com uma placa riser PCIe (não com fita), sem nome da China ou original SuperMicro

em execução no sistema - Windows Server 2012 R2 Enterprise - VMWare Workstation 12 - VMs executam tarefas intensivas de GPU - Este sistema é estoque, não há over / underclocking

Sintomas - Aleatório BSOD 0x09c (também conhecido como Machine_Check_Exception): às vezes o sistema é executado por uma semana sem problemas, às vezes em falhas após apenas 10 minutos, mas na maioria das vezes ele é executado por algumas horas.

Já tentou / verificou:

O BIOS foi atualizado para a versão mais recente (acho que agora isso melhorou o tempo para o sistema ficar estável, mas isso poderia ter sido aleatório).
Windows atualizado para a versão mais recente.
VMWare atualizado para a versão mais recente.
Troquei todos os componentes e tentei todas as opções diferentes, até mesmo tentei um desktop ATX PSU e M.2 SSD.
Instalou todos os sistemas do zero com o Ubuntu. Eu não estou familiarizado com o Linux e nunca vi um Linux BSOD e eu ainda não desde que os sistemas de servidor estão sem cabeça e eu tentei isso no DC. RESULTADO: o sistema travaria e, após a reinicialização, o Linux informava o travamento XORG (relacionado à GPU).
A configuração da GPU alterada no BIOS para 'Acima de 4G', o restante do BIOS é o padrão de fábrica.

Também informativo:

Os sistemas estão localizados em um datacenter. Temperatura, ar, energia e rede são ótimos.
As temperaturas estão bem abaixo do máximo de fábrica
Temos exatamente a mesma configuração software executada em computadores desktop (com hardware de desktop). Este sistema pode funcionar bem com 1 de 100 PCs a cada mês.
Eu entrei em contato com a VMWare, dizem que isso é um problema de hardware
Eu entrei em contato com o SuperMicro, eles não dizem nada exceto algumas coisas e já tentaram e também que isso ainda pode ser um problema de software.

Estamos desesperados aqui. A aplicação que corremos felizmente é meio redundante. Se um servidor e sua máquina virtual caírem, isso não é um problema, outros servidores assumirão a carga dentro de 5 minutos, mas a essa taxa eu preciso estar on-line o dia todo para reiniciar servidores.

Eu tenho um grande conhecimento de hardware, mas isso passa por isso, pesquisei isso durante todo o dia por mais de um mês, tentando todos os tipos de coisas diferentes. O fato de essas placas-mães serem usadas com provedores de hospedagem em grande escala me faz suspeitar que a placa em si é boa. Este definitivamente não é um problema de hardware específico para o RMA, já que todas as 50 placas têm os mesmos sintomas. A única coisa diferente com a gente é a GPU. Isso em combinação com o experimento Linux me faz suspeitar que isso é definitivamente algo na pista PCIe. A GPU em si é estável em mobos de desktop. Apesar de sua grande capacidade de memória, esta é uma pequena GPU que não consome muita energia. Eu suspeitaria das placas riser chinesas, mas novamente nós também usamos risers certificados SuperMicro e eles não mostram nenhuma melhoria.

Estou muito desesperado para encontrar uma solução aqui. Isso começará com a determinação da causa exata. Estamos dispostos a pagar uma boa recompensa para um especialista que pode analisar alguns despejos e nos dar mais detalhes (ou, melhor ainda, uma solução).

Atenciosamente,

Simon

supermicro bsod

por user349749 16.04.2016 / 17:25

0 respostas

Tags supermicro bsod

Por que o servidor DNS não pode resolver qualquer domínio terminado em .io? Atualiza automaticamente os contêineres do Docker usando webhooks