Temos um servidor GPU SuperMicro com:
- 2x CPU Intel (R) Xeon (R) E5-2660 v4 @ 2.00GHz
- 512 GB de memória
- mais do que espaço em disco suficiente
- X10DRG-O + -CPU (Versão do BIOS: 2.0a [atual])
- Placa de expansão X9DRG-O-PCIE PCI-E
- 8x GTX 1080
Ele é configurado com o Ubuntu 16.04.1 LTS, o driver NVIDA 367.57 e o CUDA-8.0.
Quando é executado, funciona temporariamente bem. No entanto, é completamente inútil com o Kernel stock (v4.4) - o sistema quase imediatamente congela ao fazer algo não-trivial em qualquer GPU. Nós, portanto, suspeitamos de um problema de hardware, mas o resfriamento é bom, e uma segunda máquina quase idêntica (apenas fabricante diferente das GPUs) mostra exatamente o mesmo comportamento.
Para fazê-lo funcionar bem por algum tempo, você deve fazer o downgrade do Kernel para v3.14.1-trusty (testado em quase todas as versões anteriores a esse). Mas ainda há congelamentos aleatórios, geralmente sem nada nos registros. Às vezes, a máquina inteira congela, outras vezes, qualquer processo relacionado à GPU.
Parece haver outras [1] pessoas [2] com esse problema, mas não há solução.
Alguém está tendo a mesma experiência com esse tipo de máquina?
Atualização:
As máquinas parecem funcionar estáveis (independentemente de qualquer software) se as placas forem inseridas apenas em um lado do expansor PCI-E, o que significa que todas as placas são acionadas pela mesma CPU.
No entanto, outra máquina parece funcionar estável com 8 cartões (tempo de atividade de cerca de 4 meses agora) com Kernel 3.19 após meses de ter os problemas descritos acima. Bizarro.
[1] link
[2] link