Como exportar todos os hiperlinks em uma página da Web?

Question

Como exportar todos os hiperlinks em uma página da Web?

#1 resposta do (2 votos)
#2 resposta do (0 votos)

0

Eu preciso de uma solução para exportar todos os hiperlinks em uma página da Web (em uma página da Web, não de todo o site) e uma maneira de especificar os links que desejo exportar, por exemplo, apenas hiperlinks começando com link excluindo todo o resto.
A exportação como arquivo de texto é preferencial e os resultados devem ser exibidos um abaixo do outro, um URL por linha:

https://superuser.com/questions/1  
https://superuser.com/questions/2  
https://superuser.com/questions/3
[...]

webpage hyperlink

por user598527 01.02.2017 / 16:48

2 respostas

0

Se você está bem com o uso do Firefox, você pode adicionar o addon Snap Links Plus

Mantenha pressionado o botão direito do mouse e arraste uma seleção pelos links.
Quando estiverem destacados, pressione e segure Control enquanto solta o botão direito do mouse.

por 01.02.2017 / 16:59

Tags webpage hyperlink

Como usar o nome do arquivo atual várias vezes em um comando pipe? Como extrair texto de um pdf baseado em imagem usando o Cuneiform no terminal

score 2 · Accepted Answer

Se você estiver executando em um sistema Linux ou Unix (como FreeBSD ou macOS), você pode abrir uma sessão de terminal e executar este comando:

wget -O - http://example.com/webpage.htm | \
sed 's/href=/\nhref=/g' | \
grep href=\"http://specify.com | \
sed 's/.*href="//g;s/".*//g' > out.txt

Em casos usuais, pode haver várias tags <a href> em uma linha, então você precisa cortá-las primeiro (o primeiro sed adiciona novas linhas antes de cada palavra-chave href para garantir que não haja mais de uma delas em uma única linha)

Para extrair links de várias páginas semelhantes, por exemplo, todas as perguntas das primeiras 10 páginas deste site, use um for loop.

for i in $(seq 1 10); do
wget -O - http://superuser.com/questions?page=$i | \
sed 's/href=/\nhref=/g' | \
grep -E 'href="http://superuser.com/questions/[0-9]+' | \
sed 's/.*href="//g;s/".*//g' >> out.txt
done

Lembre-se de substituir http://example.com/webpage.htm pelo seu URL de página real e http://specify.com pela string anterior que você deseja especificar.
Você pode especificar não apenas uma sequência precedente para o URL a ser exportado, mas também um padrão de Expressão Regular se usar egrep ou grep -E no comando fornecido acima.
Se você estiver usando um Windows, considere aproveitar o Cygwin . Não esqueça de selecionar os pacotes Wget , grep e sed .