A pesquisa do Google requer captcha ao usar o servidor proxy

1

Atualmente, temos uma configuração do servidor Squid Proxy em nossa rede, uma escola secundária. Estamos enviando todo o tráfego de dispositivos estudantis (iPads) por meio do proxy, tanto interna quanto externamente. O tráfego é enviado para o nosso Firewall e, a partir daí, passa para o servidor proxy. O servidor proxy envia o tráfego através do nosso filtro de internet, que também está no nível do Firewall.

A configuração parece funcionar bem para todos os sites, exceto o Google. Quando pesquiso no Google, sou redirecionado para ipv4.google.com quando precisamos inserir um CAPTCHA para continuar pesquisando. O Google acha que há atividade incomum quando passa pelo servidor proxy.

Existe alguma maneira de contornar isso? Existe uma maneira melhor de fazer nosso proxy para que o Google não considere isso uma atividade incomum? Outra opção seria talvez não ter nenhum tráfego do Google através do nosso proxy, mas não sei como fazer isso.

Qualquer ajuda seria apreciada.

Obrigado!

    
por Alex Brady 14.08.2014 / 18:08

3 respostas

1

Como usar o proxy para tudo, exceto o Google

Se você estiver invadindo o tráfego para enviá-lo por meio de um proxy "transparente", configure o dispositivo que está fazendo o seqüestro para não seqüestrar os intervalos de IP conhecidos por pertencer ao Google. Então essas solicitações não passarão pelo proxy.

Se você estiver confiando em um script de detecção automática de proxy da Web, poderá atualizar o script para considerar o nome do host antes de decidir usar um proxy ou uma conexão direta.

No entanto, se essas solicitações acabarem passando por um único NAT, em vez de por meio de um único proxy, o Google pode nunca saber a diferença. Ele ainda veria todos os mesmos pedidos vindos de um único IP, que pode parecer igualmente suspeito se feito através de NAT ou proxy.

Pode ser que a única maneira de obter um IP separado para cada dispositivo seja usando o IPv6. Felizmente, o Google suporta o IPv6, portanto, se você tiver IPv6 na sua rede, o Google poderá diferenciar as solicitações de diferentes dispositivos.

Outras abordagens

Pode haver um único ou alguns dispositivos em sua rede, que estão inundando o Google com solicitações abusivas. Tente rastrear os dispositivos que fazem o maior número de solicitações ao Google e descubra se eles são legítimos. Se você tem algumas máquinas infectadas por botnets, limpá-las pode resolver o problema.

Você também pode verificar se o seu proxy está enviando todas as informações para o Google, o que pode ajudar o Google a identificar clientes. Se o Google puder identificar quais solicitações vieram de qual dispositivo, elas só poderão bloquear os dispositivos de abuso e nem tudo que estiver passando por seu proxy. Para http você pode garantir que todas as solicitações para o Google recebam um X-Forwarded-For de cabeçalho. Pode ser que o Google ignore completamente esse cabeçalho, você pode realmente descobrir apenas tentando.

Se as solicitações forem feitas em https , não há muito o que você pode fazer. Você não pode ajudar o Google a identificar clientes individuais e não consegue descobrir quais solicitações são executadas, apenas o volume. No entanto, o volume de solicitações pode ser suficiente para identificar se há dispositivos abusivos na sua rede.

    
por 14.08.2014 / 19:22
1

O Google normalmente não permite a utilização de proxies para pesquisas, pois isso pode afetar seus resultados de pesquisa. Tentei em várias ocasiões, mas com o mesmo resultado.

Isso pode ser devido ao motivo pelo qual os proxies podem afetar as posições de classificação em SERP (s) ou talvez eles queiram que todos venham direto sem se esconder.

    
por 06.04.2015 / 16:23
1

O Google mudou todo o tráfego HTTP para https. O que isso significa é que a entrada X-Forwarded-For não pode ser modificada por um servidor proxy, a menos que o servidor proxy esteja realizando uma interceptação Man In the Middle do https e produzindo um certificado não autorizado afirmando ser * .google.com.

Acreditar que o Google confiaria em um endereço IP listado no cabeçalho X-Forwarded-For: não é um bot louco. Qualquer codificador de bot poderia simplesmente codificar seu bot para usar um endereço ip aleatório no cabeçalho X-Forwarded-For e o Google apenas confiaria que ele não era um bot.

Acreditando que o Google confiaria que algum servidor proxy que esteja seqüestrando a sessão https e falsificando o certificado ssl / tls seja confiável o suficiente para dizer que não é um bot, é uma loucura.

Alguém realmente demonstrou em 2015 que o Google Captcha pára de acontecer depois de seqüestrar os https, inserir um cabeçalho X-Forwarded-For e falsificar o certificado ssl / tls?

    
por 24.11.2015 / 23:30