O que é o “artigo de 2001” para bloquear “programas de recuperação automatizada” referidos pela página do manual do wget?

11

A página wget man indica isso, na seção referente ao parâmetro --random-wait :

    Some web sites may perform log analysis to identify retrieval
    programs such as Wget by looking for statistically significant
    similarities in the time between requests. [...]

    A 2001 article in a publication devoted to development on a popular
    consumer platform provided code to perform this analysis on the
    fly.  Its author suggested blocking at the class C address level to
    ensure automated retrieval programs were blocked despite changing
    DHCP-supplied addresses.

Eu quero obter uma cópia deste artigo para leitura e tentei muitas pesquisas na Internet para determinar o artigo. No entanto, tudo o que posso encontrar com essas pesquisas é a man page de wget hospedada em diferentes sites; e alguns outros trabalhos de pesquisa não tendo qualquer relação com este tópico.

Alguém sabe qual artigo está sendo consultado e onde posso obter uma cópia?

    
por user2064000 09.11.2015 / 16:17

2 respostas

15

Embora não seja uma resposta direta, git blame e git log revelam que esta seção foi introduzida no commit 2c41d783 por um committer chamado hniksic , que acaba por ser Hrvoje Niksic. Seu endereço de e-mail pode ser encontrado no arquivo ChangeLog do wget (não vou publicá-lo aqui por razões óbvias). Eu sugiro perguntar diretamente a ele, pois ele pode ser o melhor para dar uma resposta mais adequada. Enquanto isso, você pode considerar perguntar se ele se importaria de atualizar a manpage de acordo. ;)

    
por 09.11.2015 / 17:27
4

Acho que pode ser este artigo:

Criando dados significativos a partir de registros da web usando o SAS base

Há um parágrafo discutindo o bloqueio dos intervalos de classe C:

Once the IP address is separated into its components the filtering of ranges of IP addresses is simple. A class B filter is done against the first two octets, e.g. 168.126.xx.xx. This is variable Onetwo in the code example above. Class C ranges are more commonly used as they target entire servers and use three of the four octets, e.g. 168.126.56.xx. In the code sample above, this the field Three given that Usrhost is the web log’s TCP/IP address value.

E um que menciona wget no bloqueio baseado em string do agente do usuário:

Our preferred method for user agent string identification utilizes the index pattern matching function. For example:

if index(lowcase(agentstr), 'keynote') or
index(lowcase(agentstr), 'sureseeker') or
index(lowcase(agentstr), 'wget') or

Foi o quinto resultado em Pesquisando "wget de análise de logs" para o ano 2001 .

    
por 09.11.2015 / 18:46