Como o @DragonLord diz, é porque você não pode endereçar bits individuais; cada endereço aponta para o início de um byte e todas as operações funcionam com pelo menos unidades de um byte.
Da mesma forma, se a máquina fosse endereçada por palavras (como alguns foram no passado), o tamanho da memória também seria expresso de forma semelhante:
The PDP-8's basic configuration had a main memory of 4,096 twelve-bit words