Para combinar vários fluxos de áudio em um, você precisa usar filtros para mesclar os fluxos:
ffmpeg -framerate 30 -i test_%03d.png -i s01.wav -i s02.wav \
-filter_complex "[1][2]amerge=2[a]" \
-map 0:v -map "[a]"
-c:v libopenh264 -c:a mp3 -ac 2 test.mp4
O framerate
é a opção certa para fluxos de imagem e brutos.
O -ac 2
mistura o áudio mesclado em 2 canais, já que esse é o limite máximo do codificador de MP3.
Para o comando atualizado,
ffmpeg -framerate 30 -i test_%03d.png
-ss 5 -t 20 -i s01.wav
-ss 10 -t 30 -i s02.wav
-filter_complex "[1]adelay=10000|10000,apad[a1];
[2]adelay=15000|15000[a2];
[a1][a2]amerge=2[a]" \
-map 0:v -map "[a]" -c:v libopenh264 -c:a mp3 test.mp4
O adelay
preenche o áudio na frente e leva valor em milissegundos por canal. O apad
preenche o áudio no final e é necessário porque o amerge termina com o fluxo mais curto.