Bloqueio de arquivo a partir de Crawling My Site?

Question

Bloqueio de arquivo a partir de Crawling My Site?

#1 resposta do (0 votos)

0

Meu site está sendo copiado por archive.today. Este site é semelhante ao archive.org respeitável, mas o archive.today não obedece ao robots.txt, falsifica um user agent genérico e tenta ocultar seus IPs. O site então regurgita seu conteúdo e indexa os mecanismos de busca.

iptables firewall internet-filter

por Kohjah Breese 23.01.2015 / 05:49

1 resposta

Tags iptables firewall internet-filter

A Sincronização do Chrome Salva Sua Senha da Conta do Google In The Clear? Mover e-mails específicos para outra pasta (MS Outlook 2013)

score 0 · Accepted Answer

Você pode bloquear o rastreador bloqueando os seguintes intervalos de IP:

78.46.174.128/27 & 108.61.0.0/16 & 5.101.96.0/21

Uma vez que você os bloqueia, tentar indexar uma página com archive.today deve resultar em um loop infinito em seu site.

Você pode fazer isso no iptables como:

sudo iptables -A INPUT -s 78.46.174.128/27 -j DROP
sudo iptables -A INPUT -s 108.61.0.0/16 -j DROP
sudo iptables -A INPUT -s 5.101.96.0/21 -j DROP

E imagino que o Apache e o ngix tenham uma maneira de fazer algo semelhante.

archive.today derrotado:

Se você não vir isso, eles provavelmente terão novos IPs.