Depende do programa, de quantos dados você está escrevendo (tamanho do cache) e da velocidade do armazenamento em relação aos dados que você está escrevendo. Por exemplo, se eu tiver um programa trivial que acrescente uma quantidade infinita de inteiros de 64 bits juntos, fica claro que o programa será executado mais rapidamente se compilado para tirar proveito de um processador de 64 bits (em vez de usar as instruções de contraparte de 32 bits) ). No entanto, o trabalho realizado é trivial e a CPU pode adicionar números juntos muito mais rápido do que você pode armazená-los em um HDD / SSD (preenchendo assim o cache na unidade de disco, limitando a operação à velocidade de armazenamento).
No entanto, se olharmos para as operações feitas pela CPU, podemos ver que a versão de 32 bits demorará mais tempo para ser concluída, executando apenas o trabalho e copiando 32 bits de memória de cada vez para o controlador de cache (com o uso de acesso direto à memória (DMA) . Neste caso, a operação de 64 bits pode teoricamente preencher o controlador de cache do disco mais rapidamente para operações de burst, é mais provável que, em ambos os casos, o cache seja preenchido e a velocidade de operação seja limitada, na maioria das vezes. pela velocidade de gravação do próprio disco.