Eu acho que eu tenho ou muito perto, pelo menos. Eu ainda preciso descobrir como controlar a duração, mas o sinalizador -shortest o codifica na menor duração, que é realmente o que eu preciso neste caso.
ffmpeg -i video.mov -i audio1.wav -i audio2.wav -filter_complex "[1:a][2:a]amerge=inputs=2,pan=stereo|c0<c0+c1|c1<c2+c3[aout]" -map 0:v -map "[aout]" -shortest output.mp3