Extrair citações de uma transcrição de filme / tv no Notepad ++

1

Eu tenho uma transcrição de um documentário de 3 horas repleto de citações que gostaria de compartilhar. A transcrição é enorme, então passar manualmente levaria uma eternidade.

Então, basicamente, só quero remover todo o texto da transcrição, exceto o texto encontrado entre aspas: remover "manter" remover.

Tenho certeza que você pode fazer isso no Notepad ++, eu não sei como. Alguém pode ajudar por favor!

    
por nutman 22.03.2014 / 14:13

2 respostas

5

Esta solução para esse problema está no uso de RegEx , uma ferramenta que combina partes do texto com um conjunto de regras. Suas regras são bem simples - pegue tudo entre duas citações. Eu não sou o melhor da Regex, mas eu encontrei uma solução que parece combinar com o que você está procurando.

Eu recomendo usar o editor Sublime para fazer isso - em primeiro lugar, eu não consegui fazê-lo funcionar com facilidade no N ++, e em segundo lugar, o Sublime é realmente incrível!

Veja como extrair suas cotações.

  1. Abra o arquivo do qual você deseja extrair no Sublime.
  2. Pressione ctrl+f para abrir a ferramenta de localização na parte inferior da tela.
  3. Pressione o botão na extrema esquerda da ferramenta de localização com os símbolos .* . Isso habilita a correspondência RegEx.
  4. Na barra de localização, digite: %código%
  5. Na extremidade direita da ferramenta de localização, clique em "[^"]+"
  6. Pressione Find All para copiar todas as seleções.
  7. Abra um novo arquivo e clique em ctrl+c para colar todo o texto selecionado.

Explicação RegEx

Eu vou dividir a expressão em várias partes.

ctrl+v - começa o texto correspondente começando com aspas duplas.
" - corresponde a todo o texto que não inclui outra aspas duplas - importante, porque se fizermos corresponder as cotações, começaríamos a corresponder tudo em o arquivo após a primeira citação! Não é o que queremos. O símbolo [^"] é o caractere de negação no RegEx - indica que não corresponde ao que vem a seguir.
^ - Nos força a corresponder apenas ao texto que eventualmente acaba em outra aspa dupla. Isso nos impede de corresponder, digamos, a cotação final no documento ao final do documento e termina todas as correspondências que iniciamos anteriormente sem transbordar para as coisas que não queremos corresponder.

Eu imagino que existem maneiras mais bonitas de fazer isso, mas também espero que isso cubra o que você precisa. Se você tiver algum problema com isso, me avise!

Ah, e como nota final, parte da razão pela qual eu recomendei o Sublime é porque ele suporta vários cursores, o que permite selecionar diferentes partes do texto simultaneamente com facilidade. Tente abrir um documento e +" ing em alguns pontos diferentes e comece a digitar.

Editar

Haha, eu me esqueci completamente de procurar no ponto mais óbvio do Notepad ++ - a ferramenta de busca - para o RegEx embutido. Você pode fazer isso praticamente da mesma maneira, mas não havia uma boa maneira de selecionar todo o texto. A coisa mais simples era clicar em "Localizar tudo no documento atual" e selecionar todo o texto gerado na janela Localizar na parte inferior. Mas isso não é tão bonito quanto a forma como o Sublime administra isso.

    
por 22.03.2014 / 16:04
0

Tente isto:

  1. Ctrl + H
  2. Encontre o que: ^ (\ l +)
  3. Substituir por: (vazio)
  4. Substituir todos

    
por 22.03.2014 / 16:10