Como uso o wget para baixar todos os links do meu site e salvá-los em um arquivo de texto?

0

Estou tentando baixar todos os links do aligajani.com. Existem 7 deles, excluindo o domínio facebook.com que eu não quero ignorar. Sim, isso significa que não quero baixar links que começam com o domínio facebook.com. Além disso, gostaria que fossem salvos em um arquivo .txt, linha por linha. Então, haveria 7 linhas. Aqui está o que eu tentei até agora. Isso apenas faz o download de tudo. Não quero isso.

wget -r -l 1 http://aligajani.com
    
por Ali Gajani 26.02.2014 / 07:35

4 respostas

16

wget não oferece essa opção. Por favor, leia a sua página de manual.

Você pode usar lynx para isso:

lynx -dump -listonly http://aligajani.com | grep -v facebook.com > file.txt

De sua página de manual:

   -listonly
          for -dump, show only the list of links.
    
por 26.02.2014 / 07:51
1

Como outros apontaram, wget não foi projetado para isso. Você pode, no entanto, analisar sua saída para obter o que deseja:

$ wget http://aligajani.com -O - 2>/dev/null | 
    grep -oP 'href="\Khttp:.+?"' | sed 's/"//' | grep -v facebook > file.txt

Isso cria um arquivo chamado file.txt com o seguinte conteúdo:

http://www.linkedin.com/pub/ali-ayaz-gajani/17/136/799
http://www.quora.com/Ali-Gajani
http://www.mrgeek.me/
http://twitter.com/aligajani
http://www.mrgeek.me
http://aligajani.com
    
por 26.02.2014 / 16:44
1

Use o seguinte no terminal:

      wget -r -p -k http://website

ou

      wget -r -p -k --wait=#SECONDS http://website

Observação: o segundo é para sites que podem marcar você se baixando muito rapidamente; pode também causar uma perda de serviço, então use o segundo para a maioria das circunstâncias para ser cortês. Tudo será colocado em uma pasta com o mesmo nome do site no diretório da pasta raiz ou em qualquer diretório em que você tenha um terminal no momento da execução do comando.

    
por 03.04.2016 / 00:22
0

Você pode usar -o log para isso, então navegar e extrair links do arquivo de log usando este link .-

    
por 28.07.2016 / 15:11

Tags