O método básico é usar o filtro de sobreposição. Se você souber a duração do áudio e estiver pronto para criar manualmente o comando para cada vídeo, use o modelo no comentário do @ LordNeckbeard.
Um comando genérico que você pode usar é
ffmpeg -i input.mp4 -filter_complex "[0]showwaves=s=320x240:r=10[a-dur];[a-dur][0]overlay"
-c:a copy -movflags +faststart output.mp4