pistas PCIex no Supermicro X10SRH-CF

1

Estou tentando configurar 5 GPUs no X10SRH-CF para executar o Tensorflow, mas parece que não consigo fazer a placa inicializar com mais de 3 placas conectadas. Em alguns layouts eu consigo inicializar com 4 placas, mas com SO ( Servidor Ubuntu 16.04) vê apenas 3 placas conectadas. Se eu mover uma única carta entre todos os slots, ela funcionará bem, então slots individuais não parecem ser um problema.

Até onde eu vejo, pode ser um problema com o uso da CPU / PCH PCIe, mas eu não tenho muita experiência com esses tipos de placas-mãe.

Somente periféricos conectados são as GPUs e 2 SSDs que não estão no RAID.

    
por Marin 06.09.2017 / 09:23

1 resposta

0

O Supermicro X10SRH-CF suporta as seguintes configurações de PCIE:

  • 1x slot PCI-E 3.0 x4 (em x8)
  • 1 slot PCI-E 3.0 x8 (em x16)
  • 2 slots PCI-E 3.0 x8
  • 1x slot PCI-E 2.0 x2 (em x4)
  • 1x slot PCI-E 2.0 x4 (em x8)

Então, a primeira coisa a fazer é verificar quantas faixas de PCIE suas placas exigem? Eles são o mesmo modelo de cartões de GPU? Como você pode ver, o tamanho dos slots NÃO corresponde diretamente ao número de faixas disponíveis para aquele slot. Por exemplo. você tem apenas 8 pistas disponíveis no tamanho 16, então se você colocar uma placa que requer 16 pistas, ela funcionará somente na metade da velocidade, o que pode ou não ser um problema para tipos específicos de placas de GPU. Então você tem que ter certeza que você tem pistas PCIE suficientes disponíveis para suportar todas as suas cartas

EDIT: Também certifique-se de ter energia suficiente disponível para alimentar sua placa, CPU, outros periféricos e 5 de suas placas GTX 1080. Parece que cada carta alega ter 180W. A aposta segura seria fornecer pelo menos 1,5x de potência. Isso precisaria

1.5x180W x 5 = 1350W

E isso é apenas para os 5 cartões GPU. Verifique se você tem fornecimento adicional disponível para sua placa, CPU, HDDs e outros periféricos. Lembre-se também que, na inicialização, a potência necessária é um pouco alta até o sistema continuar. Portanto, certifique-se de adicionar um pouco de tolerância para todos os componentes que precisam de energia.

    
por 06.09.2017 / 16:52