Web spider para o Ubuntu

11

Estou à procura de uma teia de aranha para o Ubuntu como esta Webripper - Calluna Software . Você pode baixar um site inteiro como você pode com

wget -r -m example.com

mas o recurso que estou procurando é que você possa inserir um termo de pesquisa como "Linux" e pesquisar na Web e fazer o download deles. Existem programas no Ubuntu assim?

    
por zeitue 23.12.2011 / 08:24

4 respostas

4

Você pode usar os Alertas do Google para criar uma espécie de página de pesquisa entregue a um feed e usar um leitor de RSS ou o Thunderbird para lê-los.

Eu uso o Thunderbird para RSS. Não sei se há algum leitor de RSS que possa exportar o feed para um simples html.

    
por To Do 23.12.2011 / 11:39
9

Dê uma chance ao httrack (CLI) ou webhttrack (interface da web), está no repositório do universo. Não tenho certeza sobre o recurso de termos de pesquisa que você descreve, mas ele oferece várias opções facilmente configuráveis.

link

Copiador do site HTTrack - Navegador off-line de software livre (GNU GPL)

    
por bkzland 23.12.2011 / 11:14
3

Você pode testar o link

Aqui estão alguns recursos postados no site:

Free Software (GPL 3)
Generic (works with almost every website)
Runs on GNU/Linux and Windows
Nearly undetectable / blockable by servers
Built with python and pygtk

Captura de tela

Assista a um tutorial, do desenvolvedor do próprio httpripper:

Link para download:

Funcionou para mim no Ubuntu 11.10 x64

    
por blade19899 29.02.2012 / 15:01
-1

Existem módulos adequados no CPAN do Perl. Você só precisa de um pouco de script em perl.

Em particular, dê uma olhada no módulo WWW: Mechanize no módulo WWW: Mechanize .

    
por chris 08.01.2012 / 02:16