Simplesmente, você não tem um fluxo de áudio em seus vídeos de imagens criados. Lá você tem apenas um fluxo de vídeo. Então, quando você tenta obter um fluxo de áudio de uma fonte onde um fluxo de áudio não está disponível, você recebe este erro. Em seu primeiro comando, basta criar um vídeo fora do conjunto de imagens e não há áudio envolvido. Portanto, na saída desse comando, haverá apenas um fluxo de vídeo. Em seu segundo comando [0:0]
refere-se ao primeiro fluxo da primeira entrada e é o fluxo de vídeo no seu caso. [0:1]
refere-se ao segundo fluxo da segunda entrada e onde ela morre não existe.
Como você não tem um áudio com nenhum dos vídeos que concatenou, a correção simples seria a seguinte.
ffmpeg -y -i video1.mp4 -i video2.mp4 -filter_complex
"[0:0][1:0]concat=n=2:v=1:a=0" output.mp4