O Google implementou a API Web Speech (para reconhecimento e síntese de voz) no Chrome, que você pode usar se você é um desenvolvedor. Isso é o que o YouTube usa para gerar legendas em alguns vídeos. Talvez você encontre código para interagir com ele.
O fluxo de dados provavelmente seria:
Um arquivo de vídeo = > extrair e converter áudio = > envie para a API do Google = > obtenha o texto = > escreva em um SRT.
EDIT: parece não haver uma página oficial da API, além das especificações do W3C. Então, aqui estão mais links:
Esses exemplos são sobre como usar a API de dentro do Google Chrome, mas você pode consultar diretamente o mecanismo de reconhecimento de fala on-line do Google. Por exemplo, Jasper , um assistente pessoal de reconhecimento de voz do Raspberrry Pi, permite que você escolha o Google como o mecanismo de reconhecimento de fala.