Perguntas sobre 'web-crawler'

1
resposta

Como eu poderia rastrear todos os arquivos no servidor de arquivos de forma recursiva?

Existem milhares de arquivos em um link do servidor de arquivos Eu tentei rastreá-lo com a ferramenta httrack Ele não funciona, existe alguma ferramenta alternativa que pode baixar os arquivos inteiros de forma recursiva com base em u...
23.11.2015 / 06:23
1
resposta

Como rastrear seu próprio site para salvar em cache

Estou usando o Squid , um programa de cache para armazenar meu site em cache. No entanto, para fazer isso, parece que cada página deve ser acessada pelo menos uma vez antes que o Squid possa armazená-la em cache. Minha pergunta é, existe um pro...
17.07.2013 / 10:50
1
resposta

Extrair texto da web

Eu estou procurando um pedágio fácil que possa rastrear a web que eu forneço e extrair todos os elementos de texto dele. Será bom se puder: texto simples, alt e título para imagens, seção de cabeçalho. Todos os separadamente, se possível. A saíd...
29.09.2010 / 11:24
1
resposta

Grava URLs em um arquivo de texto que corresponda a um padrão

Estou tentando analisar o site nickjr.com, especificamente " link " URL para episódios completos só. O nickjr.com tem seu site definido pelo título do programa, depois por jogos ou vídeos, pelo menos com patrulha de paw, de modo que o URL per...
14.08.2017 / 07:18
1
resposta

Como encontrar as páginas que ligam a uma página específica?

Eu tenho a seguinte página link Gostaria de encontrar as páginas em www.fda.gov com links para esta página? Como posso fazer isso?     
20.08.2016 / 17:43
1
resposta

Por que meu site pessoal está recebendo visitantes em URLs misteriosas? [fechadas]

Recentemente, fiz uma atualização no registro de visitantes do meu site e, ao verificar se estava funcionando corretamente, percebi que estou recebendo visitantes em URLs que não pertencem a mim. Fiquei surpreso ao ver bots, já que o site não es...
08.12.2014 / 01:10
1
resposta

Google indexou uma página desvinculada [fechada]

O Google indexou uma página em um site meu que não estava vinculado a nenhuma outra página. Ninguém nunca colocou um link para ele e o conteúdo do diretório não era navegável. Como isso pôde acontecer? Eu pensei que os rastreadores não têm como...
29.04.2010 / 19:51
0
respostas

O uso mínimo de memória no Firefox headless?

Eu planejo executar um bot em muitas instâncias paralelas separadas e gostaria de manter o uso de memória no mínimo. O bot só precisa de JS funcional e carregamento de página, mas nada é gráfico. Ele só usará uma única guia em um determinado mom...
12.03.2018 / 02:07
0
respostas

xauth: (argv): 1: não pôde consultar a extensão de segurança no visor “: 0”

Estou tentando configurar o go-selenium para usá-lo no teste de páginas da Web.Eu segui as instruções e concluí a instalação cada dependência necessária para o driver da web selenium (como geckodriver, chromedriver, etc, como mencionado na pág...
15.09.2017 / 22:27
0
respostas

Centos 7 - Apache banindo meu rastreador de segurança de aplicativos web

Estou tentando executar uma verificação no meu site usando o Vega, mas depois que o rastreador enviou alguns pedidos, meu endereço IP fica bloqueado por 30 minutos. Isso não é culpa do fail2ban (que está instalado), porque ele só tem uma cadeia...
18.09.2016 / 18:41