Como reproduzir legendas palavra por palavra geradas automaticamente pelo YouTube, para que sejam apresentadas palavra por palavra, não sentença por sentença ?
Eu posso baixar legendas geradas automaticamente usando o youtube-dl:
youtube-dl https://www.youtube.com/playlist?list=PLhpuT8UNWCyDZsF-ePrHuTW4vP3egLNPe --skip-download --write-auto-sub --sub-lang en -o "%(playlist_index)s - %(title)s.%(ext)s
Eu recebo legendas .vtt com palavras com carimbo de data / hora, aqui está um exemplo de trecho:
WEBVTT
Kind: captions
Language: en
Style:
::cue(c.colorCCCCCC) { color: rgb(204,204,204);
}
::cue(c.colorE5E5E5) { color: rgb(229,229,229);
}
##
00:00:00.740 --> 00:00:06.180 align:start position:19%
hey<00:00:01.740><c> everybody</c><c.colorCCCCCC><00:00:02.159><c> today</c><00:00:02.460><c> we're</c></c><c.colorE5E5E5><00:00:02.970><c> gonna</c><00:00:03.090><c> make</c><00:00:04.020><c> a</c></c>
00:00:04.080 --> 00:00:08.400 align:start position:19%
brief<c.colorE5E5E5><00:00:04.410><c> introduction</c><00:00:05.069><c> and</c><00:00:05.400><c> look</c><00:00:05.879><c> at</c><00:00:05.970><c> some</c><00:00:06.120><c> of</c></c>
00:00:06.180 --> 00:00:09.660 align:start position:19%
the<00:00:06.270><c> fundamental</c><c.colorE5E5E5><00:00:06.450><c> concepts</c><00:00:07.200><c> moving</c><00:00:08.040><c> forward</c></c>
00:00:08.400 --> 00:00:11.580 align:start position:19%
that<c.colorE5E5E5><00:00:08.490><c> we're</c></c><c.colorCCCCCC><00:00:08.639><c> gonna</c><00:00:08.730><c> cover</c><00:00:08.940><c> in</c><00:00:09.090><c> the</c><00:00:09.150><c> course</c><00:00:09.300><c> I'm</c></c>
00:00:09.660 --> 00:00:15.299 align:start position:19%
Michele<00:00:10.320><c> Behar</c><c.colorCCCCCC><00:00:10.559><c> B's</c></c><c.colorE5E5E5><00:00:10.710><c> and</c><00:00:11.070><c> I'm</c></c><c.colorCCCCCC><00:00:11.250><c> Vivek</c></c>
O uso de software mais próximo do que estou procurando é Potplayer . Mas o problema comigo é que ele exibe toda a sentença primeiro, depois vai estilizando palavra por palavra, o que é ótimo. Mas eu preciso que seja exibido palavra por palavra como no player do Youtube.
Outro problema com o PotPlayer é que ele estiliza palavras com diferenças muito pequenas nas cores, de modo que é difícil ver as palavras que são faladas ou não especialmente no fundo branco. Eu tentei mudar as cores do arquivo .vtt em si, mas nada muda, parece que as configurações de estilo do PotPlayer anulam.