Perguntas sobre 'web-crawler'

2
respostas

Web scraping / crawling de um determinado livro do Google

Para o meu trabalho, preciso raspar o texto de um livro grande no Google Livros. O livro em questão é um livro muito antigo e está fora dos direitos autorais. O livro é um gazeta do mundo. Estaremos colocando o texto em um banco de dados, então...
28.08.2013 / 16:09
1
resposta

wgt faz o download de todos os arquivos, exceto para as imagens que eu quero

Eu tenho problemas para usar o wget para baixar imagens de uma galeria. como começo eu uso a página overwiew. tem polegares que apontam para as páginas individuais com as imagens grandes. aqui está o script que eu uso: wget --recursive --a...
08.08.2012 / 18:43
1
resposta

Procurando por programas de web spider / download que podem usar cookies de navegadores existentes e podem processar Javascript [closed]

Estou procurando um programa para indexar um site * e baixar o conteúdo em disco. Eu tenho os seguintes requisitos que parecem atrapalhar os programas que eu tentei: O processo de logon do site é distribuído entre várias páginas, portanto, p...
14.12.2009 / 02:29
1
resposta

Como alocado IP diferente ao rastrear páginas da web

Como posso atribuir endereços IP diferentes durante o rastreamento Estou rastreando bilhões de páginas todos os dias (a alocação de diferentes ip ajudará a bloquear bloqueios)     
17.12.2015 / 11:33
0
respostas

wget - limita a seguir para links específicos

Eu quero fazer o espelhamento do site, mas limitar a seguir apenas para links específicos. Comando: wget --recursive --page-requisites --html-extension --convert-links --domains linuxmagazine.pl http://www.linuxmagazine.pl/index.php/magazine/...
26.03.2015 / 13:06
1
resposta

Existe um rastreador da web gráfico que indexa um site no excel?

Estou tentando recriar o catálogo de produtos para um site de comércio eletrônico como uma tabela do Excel. Basicamente eu quero buscar o nome do produto, nome da marca, preço e quaisquer tags associadas e armazená-lo em uma tabela do Excel. Eu...
28.08.2012 / 11:49
1
resposta

Como salvar todos os arquivos / links de um chat / canal de telegramas?

Eu quero salvar TODOS os links e / ou arquivos do http, postados em algum chat de telegramas (privado ou em grupo) ou canal (como lista de discussão). Eu preciso de um análogo de TumblOne (para tumblr) VkOpt (capaz de salvar o histórico...
29.09.2017 / 02:14
2
respostas

addon do Firefox para baixar um site inteiro e um passo mais

Você conhece algum addon do Firefox que possa baixar um site inteiro e baixar todos os sites dos links no primeiro site? Quero dizer também todas as imagens e assim por diante.     
30.07.2011 / 22:47
2
respostas

Que sites rejeitam solicitações do rastreador?

Existe algum site que possa ser rejeitado por um rastreador? Estou usando o rastreador do Burp Suite para rastrear os sites. Eu quero saber quando e em quais casos um rastreador não consegue recuperar os resultados, pois preciso criar um si...
06.10.2011 / 09:37
3
respostas

Extraindo informações da página da web em determinado intervalo

Eu tenho um problema. Eu preciso extrair algo como 800 registros e levaria dias para fazer isso manualmente. A informação pode ser obtida inserindo alguns campos no formulário (sempre o mesmo) e, em seguida, uma variável em determinado interv...
21.03.2011 / 16:31