Perguntas sobre 'web-crawler'

1
resposta

Rastreador HTTP de linha de comando para Windows? [duplicado]

Alguém teria uma recomendação para um rastreador de site que pode ser invocado e equipado com configurações da linha de comando? Isso precisaria ser executado em um ambiente Windows. Salvar os dados, seguindo os links da folha de estil...
24.05.2010 / 18:33
1
resposta

Qual é a melhor maneira de arquivar (spider) um site que será removido? [duplicado]

Três blogs diferentes que eu li recentemente anunciaram que serão descontinuados e removidos da web. Embora as páginas arquivadas provavelmente fiquem no cache do Google por algumas semanas depois de terem saído e algumas das páginas estarem...
22.04.2010 / 16:34
0
respostas

Qualquer extensão ou plug-in do Chrome pode salvar automaticamente páginas da Web visualizadas?

Estou procurando por um software ou extensão de navegador (melhor com o Chrome), que pode salvar todas as páginas da Web que eu visualizo automaticamente no local. Até onde eu sei, há um com o Firefox chamado ScrapBook, mas não suporta o Fire...
04.09.2018 / 05:00
1
resposta

Como rastrear uma grande lista de URLs? [fechadas]

Eu tenho uma lista enorme de URLs. Parece algo assim: www.example.com/api/users/1.json www.example.com/api/users/2.json www.example.com/api/users/3.json E continua cerca de 400.000 vezes. A intenção é encontrar uma string específica de te...
12.06.2018 / 03:52
0
respostas

Como baixar um site recursivamente que está por trás da autenticação do Google?

Quero fazer o download recursivo de um site que está por trás da autenticação do Google. Eu encontrei muitos links na loja do Google Chrome que me permitem fazer o download da página da web aberta no momento, mas nenhum deles segue links. Alg...
13.04.2018 / 14:34
0
respostas

Como extrair texto de sites

Estou procurando uma maneira de automatizar a extração de texto de vários sites para um documento do Word. Quando colado na palavra doc, eu preciso colá-lo usando "formatação de mesclagem". É assim que eu gostaria que o texto extraído fosse depo...
14.01.2016 / 04:14
1
resposta

salva página da web com todo o conteúdo relacionado

Estou tentando descobrir como posso salvar uma página da Web com todos os arquivos relacionados, por exemplo: link Eu quero salvar todos os arquivos no diretório como um rastreador, mas mais limitado e, se possível, no firefox     
30.11.2015 / 10:36
0
respostas

Acesso a todos os links em um domínio (sem hyperlink disponível)

Eu preciso ter acesso a todos os links, como: link link etc.para um determinado site: link (É claro que nenhum link para esses links está disponível no link ) O site não restringe o acesso aos links que eu quero, pois eles...
24.09.2014 / 09:16
1
resposta

Espelhando um site com páginas que usam JavaScript simples [duplicado]

Existem ferramentas simples e ótimas de download de sites que permitem criar um espelho local de sites simples sem infra-estrutura de JavaScript. No entanto, às vezes há casos em que um site parece simples (e até tem idade suficiente para ser...
04.04.2014 / 09:57
1
resposta

Como eu iria raspar o texto de um site? [fechadas]

O Schemer está fechando e estou tentando preservar o texto porque há muitas boas ideias no site. Gostaria de obter o texto em cada um dos links listados no sitemap . Existe alguma maneira de fazer isso? HTTrack não está funcionando como eu g...
01.02.2014 / 21:39