A melhor maneira de fazer isso é bloquear o tráfego usando o netfilter / iptables, já que este é essencialmente mais eficiente que o bloqueio via apache2 / php. O problema aqui é que você precisa saber o ip / hostname dos raspadores de conteúdo.
Uma extensão possível pode ser a tentativa de detectar raspadores de conteúdo com base no comportamento deles (- métodos estatísticos! - por exemplo, solicitações por minuto) ou, por exemplo, procure por useragent ausente ou outras coisas que um navegador de usuário normal teria e, em seguida, negue o acesso a elas. É claro que você também pode adicionar o IP / Hostname via php (ou qualquer ambiente que você use) ao iptables, então ele é bloqueado. Mas normalmente isso requer permissão de root e NÃO é uma boa idéia dar permissão de root ao seu apache2.