Configure o .htaccess para bloquear a indexação de bots, mas permitir a listagem / visualização do diretório do navegador

1

Eu sei, a fim de mostrar uma lista de diretórios dos meus arquivos em um navegador através de .htaccess eu posso usar

Options +Indexes

e para impedir que o Google e a maioria dos bots rastreiem meu diretório, posso usar

Options -Indexes

É possível ainda permitir uma listagem de diretórios visível por meio de um navegador, mas impedir o rastreamento / indexação de bots exclusivamente com .htaccess ?

    
por RCNeil 29.10.2012 / 05:52

1 resposta

3

Seu arquivo .htaccess não pode distinguir magicamente usuários "reais" de usuários "bot". Desde a perspectiva do servidor web, não há distinção.

No entanto, como regra geral, os bots respeitarão o conteúdo de robots.txt , enquanto os navegadores da Web não.

Como alternativa, se você tivesse alguma maneira de determinar o que era um bot e o que não era, você poderia trabalhar essa regra na configuração .htaccess . Uma tática comum é aplicar um conjunto de RewriteRules que são filtrados com base no cabeçalho User-Agent informado. Por exemplo, um user-agent que contenha a palavra "googlebot" é provavelmente executado pelo Google.

User-Agents.org tem uma lista de identificadores populares de agente de usuário. Mas lembre-se de que o conteúdo desse cabeçalho é definido pela pessoa que está executando o bot / browser e pode conter qualquer coisa que ele queira. Assim, por exemplo, os usuários mal-intencionados geralmente copiam a string User-Agent de um navegador popular ou talvez de um mecanismo de busca popular. Então você não pode depender disso.

    
por 29.10.2012 / 06:53