Lynx lê URLs de links de arquivos e downloads

2
  1. tenho 500 URLs no meu arquivo.
  2. Eu preciso extrair todos os links que aparecem nesses URLs.

Como ler arquivos com o Lynx e extrair links dentro do arquivo?

Amostra de file.txt abaixo, 1 link por linha e 500 linhas no total

https://itunes.apple.com/
https://play.google.com/

... e assim por diante

    
por mrSmithrobertson 14.07.2016 / 14:05

2 respostas

2

Aqui está um script aprimorado:

#!/bin/sh
cat file.txt |while read url
do
    lynx -listonly -dump "$url"
done |
awk '/^[ ]*[1-9][0-9]*\./{sub("^ [^.]*.[ ]*","",$0); print;}'| \
sort -u

permitindo qualquer tipo de URL reconhecido pelo lynx (incluindo ftp, por exemplo). O script classifica o resultado, elimina duplicatas (o que o lynx não fará sozinho).

Leitura adicional:

por 14.07.2016 / 22:41
0

Chamando list.txt sua lista:

for i in $(cat list.txt) 
do 
  lynx -accept_all_cookies -dump $i |grep "http" |sed -e "s/^.*http/http/"
done

Sugiro redirecionar a saída em algum arquivo.

    
por 14.07.2016 / 16:39

Tags