Pode ser possível usar uma ferramenta de ditado como o Dragon NaturallySpeaking para tentar capturar as palavras em texto, mas isso seria, na melhor das hipóteses, desigual. Qualquer ruído de fundo em uma cena ou entonação / acento pode eliminá-lo. Haveria muita correção
Além disso, não geraria um timecode para o SRT, apenas o texto. Você precisaria adicionar os tempos em si mesmo de alguma forma