Use por exemplo, wget -r http://site.to.copy.com
para recuperar recursivamente todas as páginas da web para sua máquina local (espero que não seja muito grande ...), então você pode pesquisar ou fazer qualquer coisa com os arquivos depois.
Eu preciso de um programa para obter todas as páginas da web em um site. O site é chinês, quero tirar todas essas palavras em inglês. Então eu posso extrair toda a informação que preciso. Alguma idéia para isso? Existe algum software para este fim?
Se NÃO, eu gostaria de escrever um. Alguma sugestão?
Muito obrigado.
Use por exemplo, wget -r http://site.to.copy.com
para recuperar recursivamente todas as páginas da web para sua máquina local (espero que não seja muito grande ...), então você pode pesquisar ou fazer qualquer coisa com os arquivos depois.
wget
( página de manual aqui ) também pode ser usado como um rastreador, veja seu --recursive
opção.
Você está descrevendo um rastreador da Web (algo que pega uma página, procura por todos os links, segue-os, etc.). Existem implementações de rastreadores já disponíveis, ferramentas que agem como rastreadores (como o wget) e perguntas relacionadas a elas aqui no Stack Overflow. Por exemplo ...
Quando você tiver algo que possa visitar cada página, precisará de um código que analise a página e procure pelo texto de seu interesse.
Não é uma solução PHP, mas você pode usar o navegador da Web somente texto Lynx com as opções -crawl
e -dump
para visitar todas as páginas de um site e despejá-las como arquivos de texto. Você pode então usar um script para extrair as informações que deseja deles.