Use
ffmpeg -i video1.mp4 -i video2.mp4 -filter_complex '[1][0]scale2ref=iw:ow/mdar[2nd][ref];[ref][2nd]vstack[vid]' -map [vid] -c:v libx264 -crf 23 -preset veryfast output.mp4
O bloco de saída do vstack não foi rotulado, portanto, o mapa não fará referência a nada. Dependendo do seu shell, talvez seja necessário citar o valor do mapa.