Depende.
Sua pergunta, em última análise, resume-se à memória. Como Ben mencionou, se eles se comunicaram via cache ou via memória principal. No entanto, se 1x8 ou 4x2 é melhor dependerá inteiramente do seu aplicativo - se ele satura o cache ou não.
Se o tipo de carga de trabalho for bastante homogêneo e compartilhar muita memória, um 1x8 com um cache grande será bom. Se a carga de trabalho tiver muitos processos dinâmicos independentes, um 4x2 pode ser melhor, pois há uma sobrecarga mínima de comunicação.
Por que não analisá-lo em termos de benefícios de custo incremental?
Anedota : Certa vez, construí uma máquina host de VM com processadores 2x6 e vi o desempenho cair drasticamente quando cruzo a memória principal. isto é, mais núcleos que se comunicam através da memória principal são mais lentos do que menos núcleos que se comunicam via cache. Cada VM estava fazendo apenas uma coisa.