O método dematizador de concat no tutorial de apresentação de slides é a maneira de fazer isso. Você repetiu a última entrada da imagem uma vez, como mencionado?
Os arquivos de texto demuxer de concatenação especificam entradas seriais, portanto, não podem ser usados para especificar entradas pareadas ou paralelas. No entanto, você sempre pode usar dois arquivos de texto.
Arquivo de texto para imagens:
file 'image001.png'
duration 5
file 'image002.png'
duration 2
file 'image003.png'
duration 3
file 'image003.png'
Arquivo de texto para sons:
file 'sound001.wav'
outpoint 5
file 'sound002.wav'
outpoint 2
file 'sound003.wav'
outpoint 3
(Para arquivos de vídeo ou áudio, o ponto de entrada / ponto de saída precisa ser especificado para usar uma parte aparada do arquivo)
E com esses dois arquivos,
ffmpeg -f concat -i images.txt -f concat -i sounds.txt -r 25 -pix_fmt yuv420p out.mp4