Quando você executa este comando:
wget https://translate.google.hu/?hl=hu&tab=wT#en/hu/Enthusiast
o que realmente acontece é:
- você executa
wget
com o URL " link "; - e comercial significa que
wget
será executado em segundo plano; - uma variável chamada
tab
é definida e recebe um valorwT#en/hu/Enthusiast
.
A razão para tudo isso é que o shell reserva alguns caracteres, incluindo E comercial, para coisas especiais. Para evitar que o shell interprete oe comercial, use aspas:
wget 'https://translate.google.hu/?hl=hu&tab=wT#en/hu/Enthusiast'
Com isso resolvido, você ainda está recebendo uma resposta "Proibida".
É uma corrida entre clientes que querem contornar a interface e os provedores que não querem deixá-los. O Google obtém sua receita de anúncios e sabe que seu script não exibirá nenhum. Assim, eles estão tomando medidas para proibir qualquer acesso, mas via navegador.
As únicas pessoas que podem dizer exatamente por que você é "Proibido" são os engenheiros do Google. Dito isto, as técnicas mais fáceis são bem conhecidas.
Um dos mais fáceis é o bloqueio por "string do agente do usuário". Esta é uma string que identifica a marca e a versão do cliente (seu navegador ou wget). Parece assim:
Wget/1.16.3 (linux-gnu)
O cliente envia essa string a cada solicitação. O servidor pode usá-lo para ajustar a aparência do resultado ou negar o acesso, como no seu caso.
wget
aceita --user-agent
flag onde você pode especificar a string do agente do usuário a ser enviada. Para imitar o seu próprio navegador, você pode digitar "o que é meu agente de usuário" no mesmo Google e copiar a string de lá :) Em seguida, basta passá-lo para wget
da seguinte forma:
wget --user-agent='Mozilla/5.0 (Windows NT 6.3; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0' \
'https://translate.google.hu/?hl=hu&tab=wT#en/hu/Enthusiast'