wget: recursivamente recupera urls de um website específico

Question

wget: recursivamente recupera urls de um website específico

#1 resposta do (1 votos)

6

Estou tentando recursivamente recuperar todos os URLs possíveis (URLs de páginas internas) de um site.

Você pode me ajudar com o wget? ou existe alguma alternativa melhor para conseguir isso? Eu não quero baixar o conteúdo de qualquer site, mas apenas deseja obter as urls do mesmo domínio.

Obrigado!

EDITAR

Eu tentei fazer isso no wget e grep o arquivo outlog.txt depois. Não tenho certeza, se este é o caminho certo para fazê-lo. Mas funciona!

$ wget -R.jpg,.jpeg,.gif,.png,.css -c -r http://www.example.com/ -o urllog.txt
$ grep -e " http" urllog1.txt | awk '{print $3}'

wget web-crawler

por abhiomkar 29.08.2011 / 10:40

1 resposta

Tags wget web-crawler

“Não é possível instalar o software de suporte do Windows” durante a atualização dos drivers do Boot Camp Como configuro meu M-AUDIO Fast Track Pro no Ubuntu?

score 1 · Answer 1

Você também pode usar algo como nutch Eu só o usei para rastrear links internos em um site e indexá-los em < href="https://lucene.apache.org/solr/"> solr mas de acordo com este post também pode fazer links externos, dependendo do que você quer fazer com os resultados, pode ser um pouco exagerado.