Você pode usar o filtro de concatenar :
ffmpeg -i 01.jpg -i 01.wav -i 02.jpg -i 02.wav -i 03.jpg -i 03.wav -filter_complex "[0][1][2][3][4][5]concat=n=3:v=1:a=1[vv][a];[vv]format=yuv420p[v]" -map "[v]" -map "[a]" output.mp4
Isso pressupõe que todas as entradas tenham a mesma largura, altura, taxa de amostragem de áudio, número de canais de áudio, etc. Caso contrário, você pode adicionar mais filtros antes de usar a concatenação.