Como eu iria raspar o texto de um site? [fechadas]

1

O Schemer está fechando e estou tentando preservar o texto porque há muitas boas ideias no site. Gostaria de obter o texto em cada um dos links listados no sitemap .

Existe alguma maneira de fazer isso? HTTrack não está funcionando como eu gostaria.

    
por Matt 01.02.2014 / 21:39

1 resposta

0

Wget é uma ferramenta clássica de linha de comando para esse tipo de tarefa. Ele vem com a maioria dos sistemas Unix / Linux, e você pode obtê-lo para o Windows também.

Você faria algo como:

wget -r --no-parent https://www.schemer.com/sitemap?lo=1

Para mais detalhes, consulte o Manual do Wget e seu exemplos ou dê uma olhada nestes:

link

link

    
por 01.02.2014 / 22:51