É simplesmente fazer com buffering e DMA.
O sistema operacional não reproduz o som diretamente, mas o decodifica (descompacta, etc) e o envia para o hardware de som para reprodução.
Isso raramente é feito pelo processador diretamente, mas pelo subsistema DMA (Direct Memory Access), que o manipula de forma independente. O processador basicamente diz ao sistema DMA para copiar o fragmento A da memória para o hardware de som e indicar quando isso é feito.
Se o sistema operacional tiver falhado, ele nunca receberá o sinal do chip DMA para informar que a transferência foi concluída, por isso nunca será capaz de dizer ao chip DMA para transferir o próximo bloco. Então, o que o chip DMA faz? Bem, a menos que tenha sido dito para fazer outra coisa, ele pode transferir a mesma quantidade de dados novamente ... e novamente ... e novamente ... até que seja desligado, resultando em um som repetido. A outra coisa que pode acontecer é que o sistema operacional recebeu o sinal para dizer que terminou a transferência e, em seguida, enviar o sinal para iniciar uma nova transferência, mas não colocou nenhum novo dado no buffer, resultando na mesma os dados sendo transferidos novamente ... e novamente ... etc. Qual deles está realmente acontecendo depende de como a MS decidiu usar o sistema DMA para reprodução de áudio, e sem ver o código-fonte para o Windows eu realmente não consegui diga qual é.
Espero que isso forneça algumas informações sobre isso.