Antes de mais nada, você deve fornecer um arquivo robots.txt válido na raiz do seu domínio. É uma maneira comum de pedir ao Google e a outros rastreadores legais da Web que não acessem seu website.
Com o nginx etc, é muito fácil proibir useragents selecionados:
if ($http_user_agent ~ (Googlebot|bingbot|whatever) ) {
return 403;
}
você pode colocar esse código em um arquivo separado e incluí-lo em todos os blocos server
.