Em geral, cada uma dessas operações usa um único ciclo de clock para executar se os argumentos estiverem nos registros nos vários estágios do pipeline.
O que você quer dizer com latência? Quantos ciclos uma operação gasta na ULA?
Você pode achar esta tabela útil: link
Como os processadores modernos são super escalares e podem ser executados fora de ordem, muitas vezes você pode obter instruções totais por ciclo que excedam 1. Os argumentos para o comando macro são os mais importantes, mas a operação também é importante, pois as divisões levam mais tempo que o XOR (< 1 latência do ciclo).
Muitas instruções x86 podem levar vários ciclos para completar alguns estágios se eles forem complexos (comandos REP ou piores MWAIT, por exemplo).