Seu arquivo .htaccess
não pode distinguir magicamente usuários "reais" de usuários "bot". Desde a perspectiva do servidor web, não há distinção.
No entanto, como regra geral, os bots respeitarão o conteúdo de robots.txt
, enquanto os navegadores da Web não.
Como alternativa, se você tivesse alguma maneira de determinar o que era um bot e o que não era, você poderia trabalhar essa regra na configuração .htaccess
. Uma tática comum é aplicar um conjunto de RewriteRules que são filtrados com base no cabeçalho User-Agent
informado. Por exemplo, um user-agent que contenha a palavra "googlebot" é provavelmente executado pelo Google.
User-Agents.org tem uma lista de identificadores populares de agente de usuário. Mas lembre-se de que o conteúdo desse cabeçalho é definido pela pessoa que está executando o bot / browser e pode conter qualquer coisa que ele queira. Assim, por exemplo, os usuários mal-intencionados geralmente copiam a string User-Agent de um navegador popular ou talvez de um mecanismo de busca popular. Então você não pode depender disso.