Digamos que o tamanho da primeira imagem seja maior e seja WxH. Se não reduzir o tamanho 2 e depois pad. De qualquer forma, as duas imagens devem ter o mesmo tamanho.
ffmpeg -i image1.png -i image2.png -i audio1.wav -i audio2.wav
-filter_complex
"[0]setsar=1[a];
[1]pad=W:H:(ow-iw)/2:(oh-ih)/2:color=white,setsar=1[b];
[2]abitscope=r=25:s=WxH[a1v];
[3]abitscope=r=25:s=WxH[a2v];
[a1v][a]overlay[v1];
[a2v][b]overlay[v2];
[v1][2:a][v2][3:a]concat=n=2:v=1:a=1" out.mp4