obtém todas as páginas em um site

0

Eu preciso de um programa para obter todas as páginas da web em um site. O site é chinês, quero tirar todas essas palavras em inglês. Então eu posso extrair toda a informação que preciso. Alguma idéia para isso? Existe algum software para este fim?

Se NÃO, eu gostaria de escrever um. Alguma sugestão?

Muito obrigado.

    
por Ryan 04.11.2009 / 22:47

4 respostas

10

Use por exemplo, wget -r http://site.to.copy.com para recuperar recursivamente todas as páginas da web para sua máquina local (espero que não seja muito grande ...), então você pode pesquisar ou fazer qualquer coisa com os arquivos depois.

    
por 04.11.2009 / 22:53
3

wget ( página de manual aqui ) também pode ser usado como um rastreador, veja seu --recursive opção.

    
por 04.11.2009 / 22:56
3

Você está descrevendo um rastreador da Web (algo que pega uma página, procura por todos os links, segue-os, etc.). Existem implementações de rastreadores já disponíveis, ferramentas que agem como rastreadores (como o wget) e perguntas relacionadas a elas aqui no Stack Overflow. Por exemplo ...

link

Quando você tiver algo que possa visitar cada página, precisará de um código que analise a página e procure pelo texto de seu interesse.

    
por 04.11.2009 / 22:53
1

Não é uma solução PHP, mas você pode usar o navegador da Web somente texto Lynx com as opções -crawl e -dump para visitar todas as páginas de um site e despejá-las como arquivos de texto. Você pode então usar um script para extrair as informações que deseja deles.

    
por 04.11.2009 / 22:52

Tags