Eu sugeriria usar o audcity para fazer o loop do áudio pelo tempo necessário e, em seguida, tocar os dois arquivos juntos. muxing é a compactação de arquivos de áudio e vídeo (e legendas) em um contêiner de mídia.
O ffmpeg deve ser capaz de demover seu vídeo (sem som) e muxá-lo com o seu arquivo novamente.