Esse problema pode ser causado por uma conversão incorreta de um fluxo MPEG2. Os fluxos MPEG2 não possuem uma taxa de quadros fixa; cada quadro é timestamped. Mas ao converter para formatos que exigem uma taxa de quadros de vídeo fixa, a maioria dos softwares simplesmente assume que os quadros vêm em intervalos regulares. Portanto, se o vídeo de origem tiver intervalos de tempo aleatórios dentro do fluxo de vídeo aqui e ali (não incomum com placas de captura de vídeo), o arquivo convertido terá diferentes deslocamentos de áudio em locais diferentes, exatamente como você descreve.
Se este é realmente o problema no seu caso, então a correção é bastante complicada. O ResyncMpeg2Audio pode ser usado para analisar a temporização do vídeo e gerar um script avisynth que reposicione automaticamente o áudio para que corresponda à taxa de quadros fixada no momento. Esteja ciente de que é um procedimento bastante misterioso (descrito em detalhes no wiki do projeto).