Como remover conteúdo indesejado de legendas baixadas?

0

As legendas do YouTube geradas automaticamente contêm carimbos de data e hora para todas as palavras e outros conteúdos que dificultam a legibilidade:

00:00:30.230 --> 00:00:33.900 align:start position:19%
you<00:00:31.230><c> think</c><c.colorE5E5E5><00:00:31.470><c> from</c><00:00:31.650><c> my</c><00:00:31.740><c> calm</c><00:00:31.980><c> demeanor</c><00:00:32.010><c> that</c></c><c.colorCCCCCC><00:00:32.430><c> I</c></c>


00:00:32.580 --> 00:00:36.180 align:start position:19%
haven't<c.colorE5E5E5><00:00:32.760><c> got</c><00:00:32.910><c> a</c><00:00:32.940><c> care</c><00:00:33.150><c> in</c><00:00:33.210><c> the</c><00:00:33.330><c> world</c><00:00:33.420><c> that</c></c>

00:00:33.900 --> 00:00:38.160 align:start position:19%
you'd<00:00:34.019><c> be</c><00:00:34.140><c> wrong</c><00:00:34.410><c> you</c><00:00:34.680><c> see</c><c.colorE5E5E5><00:00:35.000><c> hidden</c><00:00:36.000><c> within</c></c>

Como posso salvar somente a fala com formatação razoável? Os vídeos centrados no discurso de alguns usuários são medidos em horas, em vez de minutos, e lendo, eu poderia terminar esses "talk shows de um homem" em uma fração do tempo.

    
por user598527 24.07.2017 / 20:33

1 resposta

1

Faça o seguinte:

  1. Faça uma cópia do arquivo.
  2. Abra o arquivo em um editor de texto que tenha funcionalidade de localizar e substituir baseada em Regex, como Notepad ++ ou Código do Visual Studio .
  3. Invoque a função localizar e substituir ( Ctrl + H nos exemplos que dei), encontre a seguinte expressão regular e substitua por nada:

    <.*?>
    

    Não esqueça de ativar o modo Regex. No Notepad ++, você precisa selecionar o botão de opção "Expressões regulares" e no Visual Studio Code, você precisa clicar no botão que diz: ". *" (Ou pressione Alt + R )

  4. Substitua todas as instâncias.

Aqui está o resultado do código do Visual Studio:

00:00:30.230 --> 00:00:33.900 align:start position:19%
you think from my calm demeanor that I

00:00:32.580 --> 00:00:36.180 align:start position:19%
haven't got a care in the world that

00:00:33.900 --> 00:00:38.160 align:start position:19%
you'd be wrong you see hidden within
    
por 16.10.2017 / 13:23

Tags