Para qualquer um que se depara com isso e deseja alcançar a mesma coisa que eu, resolvi-o da seguinte forma:
ffmpeg -i "1.mp4" -f lavfi -i aevalsrc=0 -shortest -y "new_1.mp4"
O que isso diz é:
- Pegue 1.mp4 (que é o clipe de vídeo sem áudio) (-i "1.mp4")
- Gere o silêncio mínimo necessário (-f lavfi -i aevalsrc = 0 -shortest)
- Saída do resultado (-y "new_1.mp4")
A partir daqui eu concateno como fiz antes, mas substituindo "1.mp4" em clips.txt por "new_1.mp4"