Eu suspeito que você tenha cross-talk entre seus canais L e R, e os vocais estão fora de fase nos dois canais (seja por causa de algo como isto nos dados de áudio originais, ou porque é assim que a sua saída de som funciona). Quando os vocais do canal esquerdo são de voltagem positiva, os vocais do chanel direito são negativos e o cross-talk os mistura, resultando em vocais nulos. As outras partes da música não são exatamente o mesmo valor em ambos os canais (porque são ligeiramente à esquerda ou à direita do centro no áudio estéreo), então quando você adiciona os dois canais juntos, você ainda obtém algum som.
Eu observei isso quando conectei um conjunto de 4 condutores, TRRS, fones de ouvido com um microfone a um conector de áudio que foi projetado para um cabo TRS de 3 condutores. A versão de 4 condutores é compatível principalmente com conectores de 3 condutores, mas às vezes você consegue isso.