De acordo com as Solicitações de saída , o Google App Engine usa o serviço Busca de URL para emitir solicitações de saída. As solicitações do seu aplicativo estão sendo intermediadas por proxy pelo serviço de busca de URL do Google. Outros sites podem identificar com bastante facilidade a origem dessas solicitações. Além disso, o App Engine anexará uma string de identificação ao cabeçalho User-Agent
para permitir que os servidores identifiquem solicitações do App Engine de acordo com Solicitar cabeçalhos .
Não há nenhum serviço de lista de permissões disponível que permita que seu aplicativo do App Engine busque URLs e receba 2xx
de respostas. Solicitar um determinado URL e analisar a resposta HTML para uma parte de seu conteúdo é comumente chamado de "scraping" e a maioria dos grandes sites tem políticas severas sobre esse tipo de interação.
Facebook, por exemplo
Os Termos de Serviço do Facebook explicitamente desautorizam a extração informando o seguinte:
You will not collect users' content or information, or otherwise access Facebook, using automated means (such as harvesting bots, robots, spiders, or scrapers) without our prior permission.
O Facebook tem sua API de gráficos , que é a principal maneira de obter dados dentro e fora do gráfico social do Facebook. Isso requer o registro de um aplicativo e a obtenção de um app secret
. Dessa forma, você pode fornecer uma appsecret_proof
para chamadas de API do Graph para autenticação. Em seguida, você pode usar a URL
chamada para obter essencialmente um objeto do Facebook (compartilhamentos, comentários, etc.), fornecendo um URL externo do Facebook.
O caso geral
A maioria dos outros sites de mídia social tem suas próprias APIs também. Isso porque eles querem decidir como aplicativos externos, como o seu, acessam o conteúdo e o conteúdo que recebem de seus usuários. Você deve ter certeza de respeitar os termos de serviço de cada site se quiser acessar seus recursos.