As palavras-chave que você provavelmente deve procurar são CISC , RISC e arquitetura superescalar .
CISC
Em uma arquitetura CISC (x86, 68000, VAX), uma instrução é poderosa, mas é preciso vários ciclos para ser processada. Em arquiteturas mais antigas o número de ciclos foi fixado, atualmente o número de ciclos por instrução geralmente depende de vários fatores (acerto / erro de cache, predição de ramificação, etc.). Existem tabelas para procurar essas coisas. Freqüentemente, também há a facilidade de medir quantos ciclos uma determinada instrução leva em certas circunstâncias (veja os contadores de desempenho ).
Se você tiver interesse nos detalhes da Intel, o Manual de referência de otimização Intel 64 e IA-32 é uma leitura muito boa.
RISC
A arquitetura RISC (ARM, PowerPC, SPARC) geralmente significa que uma instrução muito simples leva apenas alguns (geralmente apenas um) ciclo.
Superscalar
Mas, independentemente do CISC ou do RISC, existe a arquitetura superescalar. A CPU não está processando uma instrução após a outra, mas está trabalhando em muitas instruções simultaneamente, muito parecido com uma linha de montagem.
A conseqüência é: se você simplesmente procurar os ciclos para cada instrução do seu programa e, em seguida, adicioná-los todos, você terminará com um número elevado. Suponha que você tenha uma CPU RISC de núcleo único. O tempo para processar uma única instrução nunca pode ser menor que o tempo de um ciclo, mas a taxa de transferência geral pode ser várias instruções por ciclo.