obtém todas as páginas em um site

Question

obtém todas as páginas em um site

#1 resposta do (10 votos)
#2 resposta do (3 votos)
#3 resposta do (3 votos)
#4 resposta do (1 votos)

0

Eu preciso de um programa para obter todas as páginas da web em um site. O site é chinês, quero tirar todas essas palavras em inglês. Então eu posso extrair toda a informação que preciso. Alguma idéia para isso? Existe algum software para este fim?

Se NÃO, eu gostaria de escrever um. Alguma sugestão?

Muito obrigado.

java php

por Ryan 04.11.2009 / 21:47

4 respostas

Tags java php

Se o Virtual PC 2007 tiver cerca de 30MB, por que o VirtualBox tem cerca de 70MB, aproximadamente o dobro do tamanho? Atalhos de teclado úteis no Microsoft Word [closed]

score 10 · Answer 1

Use por exemplo, wget -r http://site.to.copy.com para recuperar recursivamente todas as páginas da web para sua máquina local (espero que não seja muito grande ...), então você pode pesquisar ou fazer qualquer coisa com os arquivos depois.

score 3 · Answer 2

3

wget ( página de manual aqui ) também pode ser usado como um rastreador, veja seu --recursive opção.

por 04.11.2009 / 21:56

score 3 · Answer 3

Você está descrevendo um rastreador da Web (algo que pega uma página, procura por todos os links, segue-os, etc.). Existem implementações de rastreadores já disponíveis, ferramentas que agem como rastreadores (como o wget) e perguntas relacionadas a elas aqui no Stack Overflow. Por exemplo ...

link

Quando você tiver algo que possa visitar cada página, precisará de um código que analise a página e procure pelo texto de seu interesse.

score 1 · Answer 4

Não é uma solução PHP, mas você pode usar o navegador da Web somente texto Lynx com as opções -crawl e -dump para visitar todas as páginas de um site e despejá-las como arquivos de texto. Você pode então usar um script para extrair as informações que deseja deles.