Ao contrário de muitas circunstâncias em um computador, por exemplo, endereçamento, onde aumentar o comprimento do endereço em um bit aumenta a quantidade de memória endereçável por uma potência de 2 (e por que os poderes de 2 são tão comuns na memória), o real comprimento da palavra da CPU pode ser qualquer valor conveniente.
Os comprimentos de palavras comuns para processadores (16, 32 e 64 bits) surgiram na verdade como múltiplos de 8 (em vez de potências de 2, embora, é claro, esses múltiplos particulares de 8 também sejam potências de 2), 8 bits sendo o tamanho mínimo para um único char , ele mesmo o menor tipo de dados primitivos comumente usados.
Como 8 bits são muito imprecisos para serem muito úteis para valores numéricos (ou mesmo para conjuntos de caracteres estendidos como UTF-16), palavras maiores que 8 bits permitem eficiência muito maior quando se trabalha com valores utilizando mais do que muitos bits de precisão, e múltiplos de 8 bits (o menor tipo de dados comumente usados) ainda são a escolha natural, permitindo armazenar um inteiro quantificar (por exemplo, 2, 4 ou 8) caracteres em uma palavra sem sair desperdiçado, não utilizado bits.
O artigo da wikipedia sobre palavras tem uma seção Escolha do tamanho do Word com um pouco mais de detalhes.