wget: recursivamente recupera urls de um website específico

6

Estou tentando recursivamente recuperar todos os URLs possíveis (URLs de páginas internas) de um site.

Você pode me ajudar com o wget? ou existe alguma alternativa melhor para conseguir isso? Eu não quero baixar o conteúdo de qualquer site, mas apenas deseja obter as urls do mesmo domínio.

Obrigado!

EDITAR

Eu tentei fazer isso no wget e grep o arquivo outlog.txt depois. Não tenho certeza, se este é o caminho certo para fazê-lo. Mas funciona!

$ wget -R.jpg,.jpeg,.gif,.png,.css -c -r http://www.example.com/ -o urllog.txt
$ grep -e " http" urllog1.txt | awk '{print $3}'
    
por abhiomkar 29.08.2011 / 12:40

1 resposta

1

Você também pode usar algo como nutch Eu só o usei para rastrear links internos em um site e indexá-los em < href="https://lucene.apache.org/solr/"> solr mas de acordo com este post também pode fazer links externos, dependendo do que você quer fazer com os resultados, pode ser um pouco exagerado.

    
por 20.04.2017 / 20:59