Bloqueia bots / spiders do servidor de desenvolvimento e do domínio de ativo estático

1

Nós executamos servidores de desenvolvimento apache (no Windows) e NGINX (no CentOS). Eu tenho o problema que o Google como manter o controle dos endereços de desenvolvimento e indexa-los (poderia ser a partir da barra de endereços do Chrome?) Existe uma maneira de bloquear todo o tráfego de bots / spiders em um nível de servidor, antes de ter recorrer a arquivos robots.txt individuais em cada site ou acesso somente por senha?

Um problema relacionado está no ambiente ao vivo (NGINX no CentOS) onde usamos um domínio de ativo estático para servir imagens e js etc, novamente, o Google foi e indexou isso dentro de seus resultados de pesquisa, existe uma maneira de evitar isso? ?

    
por Eric Harth 09.08.2013 / 09:33

1 resposta

0

Antes de mais nada, você deve fornecer um arquivo robots.txt válido na raiz do seu domínio. É uma maneira comum de pedir ao Google e a outros rastreadores legais da Web que não acessem seu website.

Com o nginx etc, é muito fácil proibir useragents selecionados:

if ($http_user_agent ~ (Googlebot|bingbot|whatever) ) {
    return 403;
}

você pode colocar esse código em um arquivo separado e incluí-lo em todos os blocos server .

    
por 09.08.2013 / 14:54