Seu problema (como acontece com a maioria dos problemas de aprendizado de máquina) é provavelmente relacionado à largura de banda da memória.
O aprendizado de máquina não é particularmente intensivo em cálculos de CPU, eles fazem muitos cálculos "fáceis", mas são bastante limitados pela largura de banda da memória. Esta é uma das razões pelas quais os processadores de fluxo de placa gráfica são tão bons para ele. Cada processador de fluxo é relativamente limitado (comparado a uma CPU), mas para operações mais simples, sua enorme largura de banda e o grande número de processadores mais do que compensam suas limitações.
Para escolher uma 8a aleatória geração i5 :
Max Memory Bandwidth 41.6 GB/s
CPUboss parece sugerir que a memória largura de banda de uma primeira geração E7-4820 é 23GB / s (23.464 MB / s)
Uma máquina multiprocessador precisará estar copiando constantemente a memória através das CPUs ou compartilhando o acesso à memória de uma CPU para outra.
A combinação de memória compartilhada e largura de banda substancialmente menor para começar é provavelmente o que está prejudicando o sistema antigo.
Os novos Xeons reivindicam mais de 85 GB / s de largura de banda.