Como faço para extrair URLs específicos de um arquivo HTML [duplicado]

0

Eu tenho um arquivo HTML, sem formatação. Desejo extrair URLs do formato link * / ending e somente esses URLs.

Qual é a melhor maneira de fazer isso?

Esta questão NÃO é uma duplicata. A outra pergunta é perguntar sobre como puxar o conteúdo de um DIV específico chamado. Isso está perguntando como puxar uma lista de URLs, ajustando um formato específico.

    
por Daniel Goldman 04.03.2016 / 23:03

1 resposta

1

Um simples grep deve fazer isso para você:

grep -o "https://sitename.com/.+/ending" somefile.html

(Nota: Eu não tenho uma máquina * nix na minha frente agora para testar isso).

Edit: Ativei minha caixa de Linux e achei que isso funcionasse:

grep -wEo "https://sitename\.com/[^/]+/ending" somefile.html

Um .+ será ganancioso e irá capturar demais. Usando uma afirmação negativa irá encontrar corretamente o fim de um subdiretório. Observe que isso NÃO localizará subdiretórios aninhados, como https://sitename.com/sub/directory/ending .

    
por 04.03.2016 / 23:22

Tags