Muitos dos codecs (algoritmos de compressão de áudio como, por exemplo, GSM ou G.729) usados na comunicação pela Internet são destinados à fala, não à música. Podem basear-se no modelo do trato vocal humano (cavidade nasal, cavidade oral, faringe, laringe, traqueia, véu, língua). Essa especialização permite alta taxa de compactação (= baixo uso de largura de banda) e qualidade relativamente boa para fala, mas pode causar efeitos terríveis ao processar outros sons.
Outro problema que pode contribuir é a diferença de volume entre a voz e a música de fundo calma (presumivelmente). Este fundo pode ser tratado como ruído e filtrado ou distorcido pelo filtro denoise ou parcialmente cortado pelo algoritmo de detecção de atividade de voz que pode parar a transmissão se o sinal estiver abaixo de determinado nível ou enviar o chamado "ruído de conforto" - novamente, para minimizar a largura de banda usada .