Você pode fazer algo parecido com o seguinte em .htaccess
para bloquear todos os URLs que iniciam /INVOICE-CT/
ou /CT/
. Isso usa mod_rewrite para retornar um sistema gerado (ou um documento de erro personalizado do Apache 404 se você tiver definido um ErrorDocument
):
RewriteEngine On
RewriteRule ^(invoice-)?ct/ - [R=404]
Se o seu documento de erro não contiver o código do GA, o GA não registrará a solicitação.
Ideally, this should not interfer with "human-generated" 404 errors.
Presumo que outros 404s sejam gerados por seu aplicativo da web, não pelo Apache? Caso contrário, precisaríamos repensar a abordagem acima e reescrever para uma URL alternativa.
As Google Analytics does not reveal visitor IPs, how can you identify the bot IPs in Ubuntu to subsequently block them?
Obviamente, este método não identifica IPs de bots. Qualquer solicitação para esses URLs totalmente inválidos será bloqueada da mesma maneira. Identificar esses bots mal-intencionados não é uma tarefa trivial e provavelmente é melhor feito com um módulo de servidor como mod_security ou fail2ban.
What is the best way to block this kind of traffic in
.htaccess
?
A "melhor maneira" provavelmente não é usar .htaccess
(ou configuração do Apache), mas no próprio aplicativo da web (para priorizar o tráfego "bom"). Somente depois que seu aplicativo determinar que é um erro 404, verifique o URL solicitado. Se for um desses URLs totalmente inválidos, exiba um documento 404 simples (não-GA), caso contrário, exiba seu documento de erro 404 padrão (que contém o código GA).
...large amount of spam traffic that destroys the visitor statistics.
Embora presumivelmente esse "tráfego de spam" já esteja gerando 404s e não esteja atingindo seus URLs reais?