Como os sites pagos recebem suas páginas no Google?
Primeiro, o googlebot indexa toda a web. Eles querem indexar todos os sites, incluindo os sites paywalled. Meu site pessoal completamente insignificante é indexado pelo google o tempo todo.
O Google só pode indexar o que o site permite que eles visualizem, eles não tentam ignorar a segurança ou acessar arquivos que não são oferecidos a eles.
Se o site alimenta o google como paywall, indexa-o e pára nele porque é tudo o que está disponível. Existem diferentes tags HTML para sugerir se algo deve ser armazenado em cache ou não. O Google provavelmente respeita isso.
<meta http-equiv="cache-control" content="max-age=0" />
<meta http-equiv="cache-control" content="no-cache" />
<meta http-equiv="expires" content="0" />
<meta http-equiv="expires" content="Tue, 01 Jan 1980 1:00:00 GMT" />
<meta http-equiv="pragma" content="no-cache" />
Cada bot, inclui google, downloads de cada site robots.txt para mais instruções sobre o que fazer.
Vamos ver as nwtimes: robots.txt
User-agent: *
Allow: /ads/public/
Allow: /svc/news/v3/all/pshb.rss
Disallow: /ads/
Disallow: /adx/bin/
Disallow: /archives/
Disallow: /auth/
Disallow: /cnet/
Disallow: /college/
Disallow: /external/
Disallow: /financialtimes/
Disallow: /idg/
Disallow: /indexes/
Disallow: /library/
Disallow: /nytimes-partners/
Disallow: /packages/flash/multimedia/TEMPLATES/
Disallow: /pages/college/
Disallow: /paidcontent/
Disallow: /partners/
Disallow: /reuters/
Disallow: /register
Disallow: /thestreet/
Disallow: /svc
Disallow: /video/embedded/*
Disallow: /web-services/
Disallow: /gst/travel/travsearch*
Sitemap: http://spiderbites.nytimes.com/sitemaps/www.nytimes.com/sitemap.xml.gz
Sitemap: http://www.nytimes.com/sitemaps/sitemap_news/sitemap.xml.gz
Sitemap: http://spiderbites.nytimes.com/sitemaps/sitemap_video/sitemap.xml.gz
Sitemap: http://spiderbites.nytimes.com/sitemaps/www.nytimes.com_realestate/sitemap.xml.gz
Sitemap: http://spiderbites.nytimes.com/sitemaps/www.nytimes.com/2016_election_sitemap.xml.gz
Agora vamos ver tnooz: robots.txt
User-agent: msnbot
User-agent: AhrefsBot
User-agent: bingbot
User-agent: YandexBot
Crawl-delay: 10
Nenhuma restrição única pode ser encontrada em seu arquivo.
qz.com tem apenas algumas restrições:
# If you are regularly crawling WordPress.com sites, please use our firehose to receive real-time push updates instead.
# Please see https://developer.wordpress.com/docs/firehose/ for more details.
Sitemap: https://qz.com/news-sitemap.xml
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
# Sitemap archive
Sitemap: https://qz.com/sitemap.xml
Disallow: /wp-login.php
Disallow: /activate/ # har har
Disallow: /cgi-bin/ # MT refugees
Disallow: /mshots/v1/
Disallow: /next/
Disallow: /public.api/
User-agent: IRLbot
Crawl-delay: 3600
Alguns sites oferecem artigos parciais / parciais do googlebots e o google armazenará em cache as partes oferecidas a eles.
Fonte (abaixo) link
If you want to reliably block a page from showing up in the search results, you need to use a meta robots noindex tag. That means the search engine has to be able to index that page and find the noindex tag, so the page should not be blocked by robots.txt.