Técnicas para filtragem de spiders / bots durante a análise de arquivos de log

2

Vou começar contando o que fazemos.

As medidas que implementamos capturam muitas aranhas, mas não temos idéia de quantas estão faltando. Atualmente, aplicamos um conjunto de medidas que são obviamente parcialmente sobrepostas:

  1. monitore solicitações para nosso arquivo robots.txt : depois, é claro, filtre todas as outras solicitações do mesmo endereço IP + agente do usuário

  2. compare o agente do usuário e os endereços IP com as listas publicadas : o iab.net e o user-agents.org publicam as duas listas que parecem ser as mais usadas para essa finalidade

  3. análise de padrões : certamente não temos limites predefinidos para essas métricas, mas ainda assim os consideramos úteis. Nós olhamos para (i) as visualizações de página como uma função do tempo (isto é, clicar em muitos links com 200 mseg em cada página é probativo); (ii) o caminho pelo qual o 'usuário' atravessa o Site, é sistemático e completo ou quase assim (como seguir um algoritmo de rastreamento de retorno); e (iii) visitas programadas com precisão (por exemplo, três horas por dia).

Mais uma vez, tenho quase certeza de que estamos obtendo o resultado mais próximo, mas estou interessado em obter as visualizações da comunidade.

    
por doug 15.12.2009 / 00:47

1 resposta

-2

Estas postagens no Boletim informativo com a tag Análise de Logs da Web no
as páginas de sites comerciais do Analisador de log da Web da Nihuo podem ser úteis para leitura.

    
por 15.12.2009 / 03:43