Como o derobert mencionou, você pode fazer tudo no mencoder, que usa as próprias bibliotecas do ffmpeg, e é muito mais poderoso, isso evitará a transcodificação que você está fazendo atualmente. A opção -audio-delay no mencoder define um offset para o áudio relativo ao vídeo, se a diferença de offset for absoluta. Você também pode tentar diferentes configurações de auto-sincronização (o valor padrão é 0, até 30 é mencionado no manual).