Depois de várias horas de tentativas de várias soluções com o atrim e o adelay, que não funcionaram corretamente para mim, acabei seguindo esse caminho. Trabalhou como um encanto.
- Crie [s1]. N é o número de segundos
(para corresponder ao deslocamento do vídeo (itsoffset))
aevalsrc=0:d=N[s1]
- Concat [s1] e áudio do overlayvideo (onde [s1] é colocado antes de [1: a]):
[s1][1:a]concat=n=2:v=0:a=1[ovrla]
-
Amix áudio de basevideo ([0: a]) com [ovrla]
Ffmpeg -y -i basevideo.mp4 -itsoffset 4 -i overlayvideo.mov -filter_complex "aevalsrc=0:d=4[s1];[s1][1:a]concat=n=2:v=0:a=1[ovrla];[1:v]scale=1280:720[ovrl];[0:v][ovrl]overlay=eof_action=pass[outv];[0:a][ovrla]amix[outa]" -map [outv] -map [outa] -c:v mpeg4 -strict experimental -qscale:v 10 finalvideo.mp4