Na verdade, uma vez construí uma ferramenta que faz exatamente isso (exceto pelo fator de som). Eu não tenho mais a ferramenta, mas vou descrever como funciona (e talvez construí-lo novamente em breve)
Usando o ffmpeg , você divide o filme em quadros, um por segundo, depois usa compare para excluir todas as imagens duplicadas (> 90% de similaridade).
Depois disso, você vai acabar com diferentes seqüências de arquivos de imagem numerada (1..20,30..45, etc.), então você pega isso, e novamente usa ffmpeg para manter apenas as partes do arquivo que tem quadros diferentes.
Eu sei que esta é uma resposta descritiva em vez de prática, mas vou trabalhar nessa ferramenta e atualizá-la quando possível.