O problema é que você está apenas copiando de um arquivo para outro. A menos que você comece exatamente em um dos quadros-chave, haverá um atraso até que ele alcance um quadro-chave.
Um quadro-chave é um quadro que contém dados suficientes para renderizar todo o quadro. Os quadros entre esses quadros-chave são progressivos e contêm apenas (com efeito) as alterações do quadro antes.¹
Se você quiser evitar essa pausa, precisará decodificar e recodificar cada quadro individualmente para que o primeiro quadro do arquivo de saída seja um quadro-chave.
Os quadros de som não sofrem com esse tipo de problema, e é por isso que o som é reproduzido, mas o vídeo não.
¹ É realmente muito mais complexo do que isso, mas isso está perto o suficiente por enquanto.