O alcance da maioria das audições humanas é de 20Hz a 20.000Hz.
O som é quando algo oscila para frente e para trás, vibrando o ar, que seu ouvido capta como som.
Se tivermos um sistema onde um dispositivo pode pegar bytes de 8 bits de um arquivo, convertê-los em voltagens analógicas que controlam um alto-falante, para reproduzir a maior freqüência possível, você precisará de dois bytes, um no valor mínimo ( 0) e um no valor máximo. (Codificar desta forma é chamado de PCM - estamos assumindo PCM de 8 bits para isso.)
Portanto, se você tiver um arquivo com 255, 0, 255, 0, 255, 0, o alto-falante será vibrado o mais rápido possível. Você precisa de alguma diferença nos valores para realmente mover o alto-falante e criar som (ou seja, "oscilar"). Se o seu arquivo não for nada além de 255, 255, 255, 255, o alto-falante ficará em uma posição e não criará nenhum som.
E se você deseja produzir toda a faixa de resposta de freqüência humana, seu dispositivo de saída precisa ser capaz de mover o alto-falante pelo menos 20.000 vezes por segundo. daqui pelo menos 40.000 bytes por segundo.
Eu não sei porque 44.100 foi selecionado como um padrão para CD's acima de 40.000Hz. 48.000Hz, que normalmente é de 49.152Hz, foi provavelmente selecionado porque é facilmente divisível por potências de 2 e mais facilmente manipulado por circuitos digitais.
1 amostra por segundo só pode gravar um som com um máximo de 0,5 Hz - não é muito útil.