Eu tenho pensado sobre isso mesmo. Eu acho que seria possível conseguir isso em CPUs multi-core atuais se uma VM usasse um processador emulado que pudesse espalhar sua largura de bit em todas as CPUs físicas em sincronia. Por exemplo, você pode fazer um chip de segmento de 3 Ghz 8 core 16 para o sistema operacional e programas em execução na VM como um chip 6 Ghz 4 Core 8 Thread ou um chip de 12 Ghz 2 Core 4 Thread. Não conheço essa VM, mas é provável que isso possa ser feito (com algumas reduções de IPC da CPU física, obviamente).
Quanto a um chip projetado para fazer isso, não há nenhum, mas se um design permitisse a conexão física da largura de bit conectando os núcleos para aceitar instruções ao longo de toda a largura por ciclo, você poderia fazer isso sem usar uma VM e um menor hit no IPC.
Muito surpreso nenhuma empresa de hardware ou software como a VM Ware, a Intel ou a AMD tentaram descobrir como fazer isso, considerando o atual estado das coisas no mercado de CPU. Imagine não ter que escolher entre uma CPU de jogos velozes ou uma CPU multi-core monstruosa com todas essas pistas PCIe extras ... você poderia então simplesmente alterar o modo da CPU quando estiver usando um programa que não utiliza muitos threads de CPU. Em seguida, ele retira a pressão dos desenvolvedores, se as CPUs puderem fazer isso, haverá menos necessidade de encadear o aplicativo. As VMs já podem aparecer como mais núcleos do que a sua CPU física com um imposto pesado sobre IPC, precisamos de algo que possa fazer o contrário, o desempenho de muitos programas ainda se beneficiaria muito se você pudesse fazer o que é perguntado neste tópico.