Parece um tipo de limitação de taxa. Existem vários módulos do apache que farão isso, mod_qos
sendo um deles. Geralmente, eles retornam corpo curto, além do código 403 forbidden
, com pouco mais detalhes, como link para Política de uso aceitável ou semelhante. Veja se o seu script de raspador pode mostrar que, além do código de erro 403. Também pode haver proxy reverso antes do apache fazer o limite.
Como solução, mantenha seu número de solicitações simultâneas no mesmo site baixo (se não 1). E obedeça robots.txt
! Anote também os Termos de Serviço do site de destino e Política de Uso Aceitável .
UPDATE sim, mod_evasive
também fará isso. Você pode desativá-lo (se tiver controle sobre o site) ou ajustar seus parâmetros. Especificamente no seu caso, ele será bloqueado se você fizer mais de DOSSiteCount
solicitações em DOSSiteInterval
time. Então você precisa aumentar o número permitido de solicitações ou diminuir sua velocidade de busca (limitando o paralelismo de download e / ou inserindo atrasos após cada um)