Como os sites pagos acessam suas páginas no Google? [fechadas]

Question

Como os sites pagos acessam suas páginas no Google? [fechadas]

#1 resposta do (3 votos)

-1

Noto que sites com paywall, como o New York Times, aparecem nas pesquisas do Google, mas se você tentar clicar no link, encontrará um paywall. Além disso, percebo que o Google NÃO possui um cache dos sites com paywall. Por exemplo, aqui estão alguns resultados de pesquisa:

Então, aqui você pode ver que os dois últimos links têm pequenos triângulos verdes que levam ao conteúdo do cache, mas os links do NYT acima NÃO possuem o triângulo verde. Isso é o resultado de algum tipo de negócio sujo que o NYT tem que dar acesso secreto ao conteúdo para o Google em troca de promover seu conteúdo paywall? Obviamente, o Google tem acesso às páginas pagas desde que elas foram indexadas. Por que eles não dão acesso ao cache da página?

google-search

por Tyler Durden 17.04.2017 / 14:10

1 resposta

Tags google-search

ffmpeg problema de conversão a que porcentagem de uso de memória física uma pessoa deve se preocupar [fechada]

score 3 · Answer 1

Como os sites pagos recebem suas páginas no Google?

Primeiro, o googlebot indexa toda a web. Eles querem indexar todos os sites, incluindo os sites paywalled. Meu site pessoal completamente insignificante é indexado pelo google o tempo todo.

O Google só pode indexar o que o site permite que eles visualizem, eles não tentam ignorar a segurança ou acessar arquivos que não são oferecidos a eles.

Se o site alimenta o google como paywall, indexa-o e pára nele porque é tudo o que está disponível. Existem diferentes tags HTML para sugerir se algo deve ser armazenado em cache ou não. O Google provavelmente respeita isso.

link

<meta http-equiv="cache-control" content="max-age=0" />
<meta http-equiv="cache-control" content="no-cache" />
<meta http-equiv="expires" content="0" />
<meta http-equiv="expires" content="Tue, 01 Jan 1980 1:00:00 GMT" />
<meta http-equiv="pragma" content="no-cache" />

Cada bot, inclui google, downloads de cada site robots.txt para mais instruções sobre o que fazer.

Vamos ver as nwtimes: robots.txt

User-agent: *
Allow: /ads/public/
Allow: /svc/news/v3/all/pshb.rss
Disallow: /ads/
Disallow: /adx/bin/
Disallow: /archives/
Disallow: /auth/
Disallow: /cnet/
Disallow: /college/
Disallow: /external/
Disallow: /financialtimes/
Disallow: /idg/
Disallow: /indexes/
Disallow: /library/
Disallow: /nytimes-partners/
Disallow: /packages/flash/multimedia/TEMPLATES/
Disallow: /pages/college/
Disallow: /paidcontent/
Disallow: /partners/
Disallow: /reuters/
Disallow: /register
Disallow: /thestreet/
Disallow: /svc
Disallow: /video/embedded/*
Disallow: /web-services/
Disallow: /gst/travel/travsearch*

Sitemap: http://spiderbites.nytimes.com/sitemaps/www.nytimes.com/sitemap.xml.gz
Sitemap: http://www.nytimes.com/sitemaps/sitemap_news/sitemap.xml.gz
Sitemap: http://spiderbites.nytimes.com/sitemaps/sitemap_video/sitemap.xml.gz
Sitemap: http://spiderbites.nytimes.com/sitemaps/www.nytimes.com_realestate/sitemap.xml.gz
Sitemap: http://spiderbites.nytimes.com/sitemaps/www.nytimes.com/2016_election_sitemap.xml.gz

Agora vamos ver tnooz: robots.txt

User-agent: msnbot
User-agent: AhrefsBot
User-agent: bingbot
User-agent: YandexBot
Crawl-delay: 10

Nenhuma restrição única pode ser encontrada em seu arquivo.

qz.com tem apenas algumas restrições:

   # If you are regularly crawling WordPress.com sites, please use our firehose to receive real-time push updates instead.
# Please see https://developer.wordpress.com/docs/firehose/ for more details.

Sitemap: https://qz.com/news-sitemap.xml

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
# Sitemap archive
Sitemap: https://qz.com/sitemap.xml

Disallow: /wp-login.php
Disallow: /activate/ # har har
Disallow: /cgi-bin/ # MT refugees
Disallow: /mshots/v1/
Disallow: /next/
Disallow: /public.api/

User-agent: IRLbot
Crawl-delay: 3600

Alguns sites oferecem artigos parciais / parciais do googlebots e o google armazenará em cache as partes oferecidas a eles.

Fonte (abaixo) link

If you want to reliably block a page from showing up in the search results, you need to use a meta robots noindex tag. That means the search engine has to be able to index that page and find the noindex tag, so the page should not be blocked by robots.txt.

link