Remova tudo, exceto os URL's no Notepad ++

5

Depois de extrair manualmente os resultados de pesquisa do Google com um plug-in do Chrome, tenho as seguintes informações (apenas para dois resultados de pesquisa):

The History Teacher (@THTjournal) | Twitter
https://twitter.com/thtjournal  https://twitter.com/thtjournal
Vertaal deze pagina https://translate.google.nl/translate?hl=nl&sl=en&u=https://twitter.com/thtjournal&prev=search
Jim Carroll (@jcarrollhistory) | Twitter
https://twitter.com/jcarrollhistory https://twitter.com/jcarrollhistory
Vertaal deze pagina https://translate.google.nl/translate?hl=nl&sl=en&u=https://twitter.com/jcarrollhistory&prev=search

Meu objetivo é criar uma lista com URLs do Twitter como esta:

https://twitter.com/thtjournal

https://twitter.com/jcarrollhistory

Eu tenho o Notepad ++, então como posso usá-lo para obter uma lista apenas com os URLs? Todo o resto deve ser excluído.

    
por Arthur 17.08.2018 / 20:26

2 respostas

3
  • Ctrl + H
  • Encontre o que: ^.*?(\bhttps://twitter\.com/\w+)?.*$
  • Substituir por: (?1$1:)
  • check Embrulhe
  • verificar expressão regular
  • NÃO VERIFIQUE . matches newline
  • Substituir todos

Explicação:

^                           # beginning of line
  .*?                       # 0 or more any character but newline, not greedy
  (                         # start grpup 1
    \b                      # word boundary
    https://twitter\.com/   # literally
    \w+                     # 1 or more word character
  )?                        # end group, optional
  .*                        # 0 or more any character but newline
$                           # end of line

Substituição:

(?1$1:)         # if group 1 exists, then use it as replacement, else replace with nothing

Resultado para o exemplo dado:

https://twitter.com/thtjournal


https://twitter.com/jcarrollhistory
    
por 18.08.2018 / 09:50
2

Suponha que você tenha uma expressão regex que defina uma URL, e vamos chamá-la regex .

Use no Notepad ++ a caixa de diálogo Localizar, na guia Substituir, para fazer Substituir tudo de regex por \n$1\n . Isso separará todas as URLs em linhas que contêm apenas o URL, intercaladas com linhas de lixo.

Novamente na caixa de diálogo Localizar, na guia Marcar, marque todas as linhas que contêm regex usando a opção Bookmark line , usando a operação Mark All .

Por último, na pesquisa = > Bookmark , selecione a opção Remover linhas sem marcação .

Para uma boa expressão regex para URLs, consulte esta postagem:
Qual é a melhor expressão regular para verificar se uma string é uma URL válida? .

Para obter mais informações e capturas de tela, consulte este artigo para um caso semelhante: Notepad ++ como extrair endereços de e-mail de um arquivo .

    
por 17.08.2018 / 22:16

Tags