Bloquear navegadores offline

2

Existe uma maneira de bloquear navegadores offline (como Teleport Pro, Webzip, etc ...) que são mostrados nos registros como "Mozilla"?

Exemplo: O Webzip é mostrado em meus registros do site como "Mozilla / 4.0 (compatível; MSIE 8.0; Win32)"

Teleport Pro é mostrado nos meus registros do site como "Mozilla / 4.0 (compatível; MSIE 7.0; Windows NT)"

Eu fiz alguns testes usando o arquivo .htaccess mas todos eles acabaram com o meu navegador bloqueado (Mozilla e Chrome) e é claro que eu não quero bloquear visitantes normais, mas apenas os capturadores de banda (que também comem muita CPU / RAM com solicitações theyr), mais parece que os navegadores off-line ignoram o arquivo robots.txt. Alguém sabe uma maneira de identificá-los e bloqueá-los? Se é possível me dê exemplos.

    
por Alex 03.01.2013 / 10:40

3 respostas

2

Resposta curta: não

Longa Resposta: ...

A maioria dos "Navegadores Offline" / Scrapers apenas baixam o HTML / JS / CSS bruto para serem processados pelo navegador mais tarde. Estas, se suas Strings de User-Agent se parecem com Legit "Browsers Online", é tudo o que você tem que passar e, portanto, não pode bloqueá-las.

Se eles executassem javascript em seu scrape (útil para sites que usam javascript para carregar partes da página, etc.), então você pode testar sua API JavaScript para ver quais recursos eles têm e direcioná-los dessa maneira. No entanto, isso é muito inútil, pois é provável que usem um sistema como o WebKit que outros navegadores legítimos também usam.

Alguns Scrapers podem obedecer ao arquivo Robots.txt, mas são mais propensos a serem os scrapers, como o Google Search / Cache e não os "navegadores off-line".

O último método é usar a autenticação que os downloads ocultam. Isso é efetivo desde que o usuário do raspador offline não forneça uma sessão autenticada.

Espero que ajude:)

    
por 04.01.2013 / 22:30
1

Eu realmente não tenho uma boa resposta, apenas algumas idéias. Mas é uma questão interessante. Eu não acho que a resposta seja simples, exceto se alguém colocou muito trabalho em escrever um programa para fazer isso. Se eles não querem dizer que são robôs, eles não precisam. Você teria que usar algum tipo de truque para ver se eles são.

Talvez você possa colocar um link invisível no topo da página, um que um ser humano não possa seguir, e bloquear qualquer um que o siga.

Por invisível, quero dizer colocar em um comentário html. Eu não sei o suficiente sobre navegadores offline para saber se eles são inteligentes o suficiente para não seguir links dentro de comentários em html.

Qualquer pessoa que siga um novo link exatamente a cada x segundos também é um robô. Bloqueie-os.

Coisas assim.

    
por 03.01.2013 / 10:51
0

Se você precisa proteger seus downloads grandes, a melhor maneira de lidar com isso é colocá-los em um logon. Como você descobriu, mexer com o bloqueio via htaccess ou robôs contra o agente do usuário correrá o risco de bloquear o tráfego legítimo.

    
por 04.01.2013 / 22:09