Geralmente você está certo: no curto prazo, o aumento da paralelização não é apenas viável, mas apenas o caminho a seguir. De fato, multi-núcleos, bem como caches, pipelining e hyper-threading são exatamente o que você propõe: ganho de velocidade através do aumento do uso da área de chip. Naturalmente, as geometrias encolhidas não colidem com o aumento do uso da área da matriz. No entanto, die yield é um grande fator limitante.
O rendimento de matriz cresce em proporção inversa ao tamanho do molde: as matrizes grandes são simplesmente mais propensas a "capturar" erros de wafer. Se um erro de bolacha atinge um dado, você pode jogá-lo fora. O rendimento do dado obviamente afeta o custo da matriz. Portanto, há um tamanho ideal de dados em termos de custos vs. lucros por dado.
A única maneira de produzir matrizes significativamente maiores é integrar estruturas tolerantes a falhas e redundantes. Isso é o que a Intel tenta fazer em seu projeto do Terra-Scale (UPDATE: e o que já está praticado em produtos cotidianos como Dan aponta).