Use
ffmpeg -y -i 1.jpg -i 2.jpg -filter_complex "[0:v]scale=8000:-1,zoompan=z='min(zoom+0.0020,1.5)':d=417:s=800x450,setsar=1[v0]; [1:v]scale=8000:-1,zoompan=z='if(lte(zoom,1.0),1.5,max(1.021,zoom-0.0020))':d=417:s=800x450,setsar=1,fade=t=in:st=0:d=5[v1];[v0][v1]concat=n=2:v=1:a=0,format=yuv420p[v]" -c:v libx264 -map "[v]" -t 300 -threads 2 video.mp4
O zoompan opera em cada imagem individualmente. Adicionando -t 15
antes de cada imagem, ela irá operar sobre 375 quadros de cada imagem, produzindo, para cada um, um zoompan de 417 quadros! Eu não acho que isso é o que você quer.
Desde que o concat está reclamando sobre proporções de incompatibilidade, o setsar é adicionado para forçar um SAR comum.