Use
ffmpeg -loop 1 -i background.jpg \
-vf "movie=overlay.mp4,scale=128:96[inner];[in][inner]overlay=70:70:shortest=1[out]" \
-y output.mp4
A imagem precisa estar em loop, mas isso criará um fluxo interminável, portanto, o argumento mais curto no filtro de sobreposição interromperá o filtro quando o filme terminar.
Com o áudio da sobreposição incluído
ffmpeg -loop 1 -i background.jpg -i overlay.mp4 \
-filter_complex "[1]scale=128:96[inner];[0][inner]overlay=70:70:shortest=1[out]" \
-map "[out]" -map 1:a -c:a copy -y output.mp4