Como faço para extrair URLs específicos de um arquivo HTML [duplicado]

Question

Como faço para extrair URLs específicos de um arquivo HTML [duplicado]

#1 resposta do (1 votos)

0

Eu tenho um arquivo HTML, sem formatação. Desejo extrair URLs do formato link * / ending e somente esses URLs.

Qual é a melhor maneira de fazer isso?

Esta questão NÃO é uma duplicata. A outra pergunta é perguntar sobre como puxar o conteúdo de um DIV específico chamado. Isso está perguntando como puxar uma lista de URLs, ajustando um formato específico.

search

por Daniel Goldman 04.03.2016 / 22:03

1 resposta

Tags search

CentOS “reiniciar a rede de serviços” FAILED - onde está o log de erros? copia um diretório para vários diretórios

score 1 · Accepted Answer

Um simples grep deve fazer isso para você:

grep -o "https://sitename.com/.+/ending" somefile.html

(Nota: Eu não tenho uma máquina * nix na minha frente agora para testar isso).

Edit: Ativei minha caixa de Linux e achei que isso funcionasse:

grep -wEo "https://sitename\.com/[^/]+/ending" somefile.html

Um .+ será ganancioso e irá capturar demais. Usando uma afirmação negativa irá encontrar corretamente o fim de um subdiretório. Observe que isso NÃO localizará subdiretórios aninhados, como https://sitename.com/sub/directory/ending .