Perguntas sobre 'web-crawler'

0
respostas

Analisar todos os pedidos disponíveis no site [closed]

Gostaria de verificar algum site para todas as solicitações de solicitações / api disponíveis que podem ser feitas neste servidor. Existe alguma maneira de fazer isso? Obrigado     
18.11.2013 / 14:09
1
resposta

recursivamente baixando todas as pastas e subpastas da página da Web

Eu gostaria de baixar um diretório da página da web. Eu estou tentando fazer usando wget e rastreamento, mas eu não sou capaz de baixar o diretório inteiro como estava lá na página web ou de qualquer outra forma. suponha que a página da web seja...
28.05.2013 / 14:20
1
resposta

Aranha / rastreia um site e obtém cada URL e título da página em um arquivo CSV

Estou mudando de um antigo site de carrinho de compras do ASP para um site do Drupal / Ubercart. Parte desse movimento é garantir que os links antigos sejam redirecionados para os novos. Para fazer isso, tudo o que preciso é uma maneira de obter...
02.08.2012 / 07:54
0
respostas

web spidering / crawling, posso fazê-lo ou apenas mecanismos de pesquisa?

Eu já tinha uma pergunta respondida sobre o web-scraping com o wget. mas à medida que leio um pouco mais, percebo que talvez esteja procurando por um programa de rastreamento da web. particularmente a parte sobre rastreadores da web sendo capaze...
07.03.2011 / 08:35
2
respostas

O armazenamento de 300k arquivos em uma pasta pode causar problemas?

Estou rastreando um site grande (mais de 200 mil páginas) usando o wget (existe uma ferramenta melhor?). O Wget está salvando todos os arquivos em um diretório. A partição é HFS (eu acho), isso causará problemas se eu tiver todos os arquivos...
12.04.2011 / 15:08
1
resposta

Rastreando um diretório grande com wget com dois links apontando para a mesma coisa

Estou tentando rastrear um diretório em um site e basicamente baixar tudo nele. A estrutura é simples o suficiente (mas também há várias pastas), mas há uma coisa que faz com que o wget seja bloqueado. A fonte é algo como isto: <a href="in...
19.03.2011 / 04:39
5
respostas

Rastreador / spider do site para obter o mapa do site [fechado]

Eu preciso recuperar um mapa do site inteiro, em um formato como: link link link link link Eu preciso que ele seja baseado em links (sem arquivo ou dir brute-force), como: parse homepage -> retrieve all links -&g...
03.09.2012 / 16:23
1
resposta

Analise e mapeie o site e registre todos os links que contenham “string particular” neles

Existe uma ferramenta que escaneia um site e registra todos os links que possuem uma string específica neles? Eu vejo o Teleport Pro , mas parece que ele faz uma cópia do o site, mas eu só preciso de links.     
23.03.2012 / 06:20
1
resposta

Eu instalei e executei o Heritrix Web Crawler. Ele armazenou dados em arquivos .arc.gz

Se você usou o Heritrix Web Crawler, agradecemos sua ajuda. 3 perguntas: Um arquivo de arco provavelmente contém códigos-fonte de MUITAS páginas nele. Como faço para descobrir qual é qual? Como interpreto os arquivos .arc.gz? Eu os abri...
15.10.2009 / 00:31
1
resposta

Como fazer uma entrada em lote de um servidor web?

Eu estou tentando carregar um arquivo de estrutura de proteína (por exemplo, this ) para este website . Isso só nos permite carregar uma estrutura de cada vez. Mas eu tenho centenas de arquivos de estrutura para carregar. Existe uma maneira qu...
13.01.2018 / 12:31