Meu palpite é que -flags +cgop
faz isso. A Ajuda do YouTube menciona que seu pipeline está lidando com o closed-gop melhor do que com o open-gop.
Talvez atribua um -tune stillimage
e limite a perda de perda de reencodificação para obter uma melhor qualidade de áudio. Há também um como básico no wiki para isso.