Use
ffmpeg -i input.mp4 -i input.mp3 -f lavfi -t 2 -i anullsrc -filter_complex "[2:a][1:a]concat=n=2:v=0:a=1[a0];[a0]apad[a]" -map 0:v -map [a] -shortest -y output.mp4
As alterações do comando do OP são que apenas um novo fluxo de áudio é gerado via concat
em vez de vídeo e áudio. O primeiro filtro preenche o segundo áudio (silencioso) para o MP3, depois o apad acrescenta esse resultado com silêncio de duração infinita. Mas o sinalizador mais curto interrompe a codificação quando o fluxo de vídeo é totalmente processado.