Fisicamente falando, a latência entre dois processadores separados separados por centímetros é uma batida em configurações multi-CPU em si. No entanto, essas configurações normalmente possuem cache independente, que é diferente do sistema multicore de matriz única / matriz dupla. Essas arquiteturas de cache compartilhado ganham aumentos consideráveis de desempenho quando o aplicativo correto está em execução (por exemplo, um com poucos erros no cache, usando todos os núcleos), mas os núcleos ainda competem por um recurso compartilhado que pode fazer o oposto acontecer - erros de cache terríveis que matam o desempenho.
Infelizmente, todo quadro e arquitetura é diferente. Sua pergunta pode ser respondida ou, pelo menos, adivinhada em uma determinada aplicação. Tal como está, no entanto, o júri saiu quando se trata de desempenho bruto.
O custo, no entanto, é outro assunto. Eu acho que é óbvio, dada a proliferação de sistemas multi-core que o custo é a favor do quad-core.