Você precisa inserir uma faixa silenciosa entre cada faixa conforme você especifica, para que você acabe com algo como:
sox track1.wav silence.wav track2.wav silence.wav ... output.wav
Você pode fazer isso manualmente (como acima), ou podemos fazer um loop no diretório atual com um loop in-line. Algo como isso deve funcionar:
sox -n -r 44100 -c 2 /tmp/silence.wav trim 0.0 2
sox $(for f in *.wav; do echo -n "$f /tmp/silence.wav "; done) output.wav
O gerador de silêncio é roubado daqui .