Bloqueia bots / spiders do servidor de desenvolvimento e do domínio de ativo estático

Question

Bloqueia bots / spiders do servidor de desenvolvimento e do domínio de ativo estático

#1 resposta do (0 votos)

1

Nós executamos servidores de desenvolvimento apache (no Windows) e NGINX (no CentOS). Eu tenho o problema que o Google como manter o controle dos endereços de desenvolvimento e indexa-los (poderia ser a partir da barra de endereços do Chrome?) Existe uma maneira de bloquear todo o tráfego de bots / spiders em um nível de servidor, antes de ter recorrer a arquivos robots.txt individuais em cada site ou acesso somente por senha?

Um problema relacionado está no ambiente ao vivo (NGINX no CentOS) onde usamos um domínio de ativo estático para servir imagens e js etc, novamente, o Google foi e indexou isso dentro de seus resultados de pesquisa, existe uma maneira de evitar isso? ?

nginx google apache-2.2 centos web-server

por Eric Harth 09.08.2013 / 07:33

1 resposta

Tags nginx google apache-2.2 centos web-server

Apache2: instalando um módulo Crie um tema de usuário personalizado para o Outlook Web App (OWA) no Exchange 2013

score 0 · Answer 1

Antes de mais nada, você deve fornecer um arquivo robots.txt válido na raiz do seu domínio. É uma maneira comum de pedir ao Google e a outros rastreadores legais da Web que não acessem seu website.

Com o nginx etc, é muito fácil proibir useragents selecionados:

if ($http_user_agent ~ (Googlebot|bingbot|whatever) ) {
    return 403;
}

você pode colocar esse código em um arquivo separado e incluí-lo em todos os blocos server .