Eu imagino que você não tenha idade suficiente para se lembrar dos sons do PC Speaker ... fala inteligível e mais foi feito com um bit por amostra.
Tudo o que você realmente precisa é algum método para indicar ONDE o cone do alto-falante deve estar a qualquer momento. Com 2 bits por amostra, como você mostrou, você obtém 4 posições. Contanto que você possa mover o cone do alto-falante a qualquer distância, você pode criar som. Claro, ter mais posições (mais bits por amostra) permite um melhor controle sobre a posição e, portanto, uma melhor saída de som.
Pequenos movimentos de alto-falante (digamos, neste exemplo 1 - > 2), criariam um pequeno movimento do cone do alto-falante, criando um som menor e mais silencioso.
Grandes movimentos de alto-falante (3 - > 0) criam um grande movimento, produzindo um som mais alto.
O falante sempre pode se mover de uma extremidade à outra de sua viagem física, independentemente de quantos bits por amostra você estiver usando, quanto mais bits, mais posições discretas você puder selecionar, e melhor será o som qualidade.
Bits mais baixos por amostra geralmente fornecem um tipo de saída de ondas quadradas, que o alto-falante analógico modula em uma 'onda de seno quadrada' alterada, uma onda senoidal com um quadrado quadrado sobe e desce em vez do suave subida e descida de uma boa onda senoidal (som).