8 congelamentos da máquina GPU

3

Temos um servidor GPU SuperMicro com:

  • 2x CPU Intel (R) Xeon (R) E5-2660 v4 @ 2.00GHz
  • 512 GB de memória
  • mais do que espaço em disco suficiente
  • X10DRG-O + -CPU (Versão do BIOS: 2.0a [atual])
  • Placa de expansão X9DRG-O-PCIE PCI-E
  • 8x GTX 1080

Ele é configurado com o Ubuntu 16.04.1 LTS, o driver NVIDA 367.57 e o CUDA-8.0. Quando é executado, funciona temporariamente bem. No entanto, é completamente inútil com o Kernel stock (v4.4) - o sistema quase imediatamente congela ao fazer algo não-trivial em qualquer GPU. Nós, portanto, suspeitamos de um problema de hardware, mas o resfriamento é bom, e uma segunda máquina quase idêntica (apenas fabricante diferente das GPUs) mostra exatamente o mesmo comportamento.

Para fazê-lo funcionar bem por algum tempo, você deve fazer o downgrade do Kernel para v3.14.1-trusty (testado em quase todas as versões anteriores a esse). Mas ainda há congelamentos aleatórios, geralmente sem nada nos registros. Às vezes, a máquina inteira congela, outras vezes, qualquer processo relacionado à GPU.

Parece haver outras [1] pessoas [2] com esse problema, mas não há solução.

Alguém está tendo a mesma experiência com esse tipo de máquina?

Atualização: As máquinas parecem funcionar estáveis (independentemente de qualquer software) se as placas forem inseridas apenas em um lado do expansor PCI-E, o que significa que todas as placas são acionadas pela mesma CPU. No entanto, outra máquina parece funcionar estável com 8 cartões (tempo de atividade de cerca de 4 meses agora) com Kernel 3.19 após meses de ter os problemas descritos acima. Bizarro.

[1] link

[2] link

    
por pks 08.02.2017 / 12:51

2 respostas

1

Eu tive exatamente o mesmo problema no mesmo computador. Para corrigir isso, você precisará desativar o VGA on-board, alterando o jumper JPG1 na placa-mãe. Infelizmente, você precisará remover a placa filha para fazer isso. Note que, para reinstalar a placa filha, você pode precisar aplicar um pouco de pressão para que ela se conecte corretamente com a placa-mãe novamente.

    
por 24.06.2017 / 08:23
0

Há um problema conhecido com o barramento PCI (gerenciamento de energia) que parece ser resolvido pelo SuperMicro. Acabamos de receber uma atualização de firmware BIOS + flashable deles e estamos testando. Eu não acho que posso compartilhar a atualização (não tenho certeza sobre o licenciamento) então aconselho você a entrar em contato com o SuperMicro ..

    
por 16.05.2017 / 08:59