Você precisa usar o filtro scale2ref
.
ffmpeg -i input1 -i input2
-filter_complex '[1][0]scale2ref[2nd][ref];[ref][2nd]vstack'
-map [vid] -c:v libx264 -crf 23 -preset veryfast output
Observe que isso só funciona bem se as proporções de ambos os vídeos forem as mesmas. Caso contrário, e você conhece a proporção do segundo vídeo, use [1][0]scale2ref=iw:iw*(H/W)[2nd][ref]
onde (H / W) deve ser substituído pela proporção da altura para a largura do segundo vídeo.
Com uma compilação de uma versão git recente do ffmpeg, uma versão simplificada é possível,
ffmpeg -i input1 -i input2
-filter_complex '[1][0]scale2ref=oh*mdar:ih[2nd][ref];[ref][2nd]vstack'
-map [vid] -c:v libx264 -crf 23 -preset veryfast output
Isso preservará automaticamente a proporção da segunda entrada.