Técnicas para filtragem de spiders / bots durante a análise de arquivos de log

Question

Técnicas para filtragem de spiders / bots durante a análise de arquivos de log

#1 resposta do (-2 votos)

2

Vou começar contando o que fazemos.

As medidas que implementamos capturam muitas aranhas, mas não temos idéia de quantas estão faltando. Atualmente, aplicamos um conjunto de medidas que são obviamente parcialmente sobrepostas:

monitore solicitações para nosso arquivo robots.txt : depois, é claro, filtre todas as outras solicitações do mesmo endereço IP + agente do usuário
compare o agente do usuário e os endereços IP com as listas publicadas : o iab.net e o user-agents.org publicam as duas listas que parecem ser as mais usadas para essa finalidade
análise de padrões : certamente não temos limites predefinidos para essas métricas, mas ainda assim os consideramos úteis. Nós olhamos para (i) as visualizações de página como uma função do tempo (isto é, clicar em muitos links com 200 mseg em cada página é probativo); (ii) o caminho pelo qual o 'usuário' atravessa o Site, é sistemático e completo ou quase assim (como seguir um algoritmo de rastreamento de retorno); e (iii) visitas programadas com precisão (por exemplo, três horas por dia).

Mais uma vez, tenho quase certeza de que estamos obtendo o resultado mais próximo, mas estou interessado em obter as visualizações da comunidade.

website log-files analytics

por doug 14.12.2009 / 23:47

1 resposta

Tags website log-files analytics

(reverse-) conexão ssh “time out during banner exchange” desempenho do servidor em nuvem vs servidor dedicado com a mesma especificação?

score -2 · Accepted Answer

Estas postagens no Boletim informativo com a tag Análise de Logs da Web no
as páginas de sites comerciais do Analisador de log da Web da Nihuo podem ser úteis para leitura.