Bloqueio de arquivo a partir de Crawling My Site?

0

Meu site está sendo copiado por archive.today. Este site é semelhante ao archive.org respeitável, mas o archive.today não obedece ao robots.txt, falsifica um user agent genérico e tenta ocultar seus IPs. O site então regurgita seu conteúdo e indexa os mecanismos de busca.

    
por Kohjah Breese 23.01.2015 / 06:49

1 resposta

0

Você pode bloquear o rastreador bloqueando os seguintes intervalos de IP:

78.46.174.128/27 & 108.61.0.0/16 & 5.101.96.0/21

Uma vez que você os bloqueia, tentar indexar uma página com archive.today deve resultar em um loop infinito em seu site.

Você pode fazer isso no iptables como:

sudo iptables -A INPUT -s 78.46.174.128/27 -j DROP
sudo iptables -A INPUT -s 108.61.0.0/16 -j DROP
sudo iptables -A INPUT -s 5.101.96.0/21 -j DROP

E imagino que o Apache e o ngix tenham uma maneira de fazer algo semelhante.

archive.today derrotado:

Se você não vir isso, eles provavelmente terão novos IPs.

    
por 23.01.2015 / 06:49