Meus 4 Xeon E7 têm desempenhos mais baixos que um único 8º Gen i5

0

Eu tenho uma pergunta aberta para você:

Eu configurei um servidor de segunda mão no meu escritório para treinar nossos modelos ML nele; contém 4 Xeon E7 4820 ( link ) - 2,00GHz, 8 núcleos, 16 segmentos cada -, 128Gb de RAM e 128GB de SWAP (troca de SSD).

No entanto, eu fiz meu primeiro teste aprendendo sobre isso, e surpreendentemente foi incrivelmente ... lento. 11 minutos para treinar, quando demora 5 minutos para treinar na minha 8ª geração i5 cpu (1,6GHz, 4 núcleos, 8 threads) com 8Gb de RAM e 8Gbs de troca.

O Htop me diz que a computação paralela está ativada, e os picos de carga da CPU são cerca de 3 para o i5 e 22 para o 4 E7; Então, você tem alguma idéia de por que existe uma lacuna de desempenho? Eu sei que a lei de Moore é um fenômeno irresistível, mas para um processador de meio de um ano ultrapassar o Xeon E7 de 4 anos de idade, eu não posso envolver minha cabeça neste. Espero que você possa ajudar! :)

PS: Eu já instalei o Cuda e o CuDNN nele, mas ele ainda não funciona e eu realizei o aprendizado apenas com a CPU. Fiquei tão perplexo com os resultados que parei de trabalhar na aceleração de GPU (temos um pequeno 1050 Ti que eu instalei no servidor) para trabalhar no problema. Certifiquei-me de que o mesmo código está sendo executado nos dois computadores também.

Obrigado antecipadamente! :)

Frost

    
por Frost 23.07.2018 / 15:01

1 resposta

1

Seu problema (como acontece com a maioria dos problemas de aprendizado de máquina) é provavelmente relacionado à largura de banda da memória.

O aprendizado de máquina não é particularmente intensivo em cálculos de CPU, eles fazem muitos cálculos "fáceis", mas são bastante limitados pela largura de banda da memória. Esta é uma das razões pelas quais os processadores de fluxo de placa gráfica são tão bons para ele. Cada processador de fluxo é relativamente limitado (comparado a uma CPU), mas para operações mais simples, sua enorme largura de banda e o grande número de processadores mais do que compensam suas limitações.

Para escolher uma 8a aleatória geração i5 :

Max Memory Bandwidth    41.6 GB/s

CPUboss parece sugerir que a memória largura de banda de uma primeira geração E7-4820 é 23GB / s (23.464 MB / s)

Uma máquina multiprocessador precisará estar copiando constantemente a memória através das CPUs ou compartilhando o acesso à memória de uma CPU para outra.

A combinação de memória compartilhada e largura de banda substancialmente menor para começar é provavelmente o que está prejudicando o sistema antigo.

Os novos Xeons reivindicam mais de 85 GB / s de largura de banda.

    
por 23.07.2018 / 15:54