A webcrawler has bought our site down twice
Se um webcrawler pode derrubar seu site, eles demonstraram que seu site é muito vulnerável ao DOS. Apesar de sim, uma solução rápida é bloquear o acesso do webcrawler, ele realmente não oferece muita proteção contra outros rastreadores da Web / DOS / grandes volumes de tráfego legítimo.
Concordo com Bobby - quando você sabe que a solicitação é de um cliente mal comportado, a resposta correta é um código de erro 4xx - mas você pode colocar qualquer mensagem de status na resposta - e deve repeti-la no corpo. Eu não acho que precisa de um novo código de status - 409 parece resolver a situação.
Realmente você deve estar olhando como lidar com esse tráfego de forma mais elegante - a garantia de largura de banda mínima é mais eficaz do que a captura de largura de banda, mas é mais rara do que a última. Limitar o número de conexões e a taxa de conexão por endereço IP também é uma boa abordagem (mas cuidado com os problemas do PoP IPv6 se estiver usando o IPv4).
Se você quiser uma solução adaptativa em execução no espaço do usuário (supondo que isso esteja no Linux / BSD), dê uma olhada no fail2ban.
Restringir a largura de banda / condenações ainda são remediação - uma solução melhor é melhorar o desempenho / capacidade do seu sistema.