Que software é necessário para websites de associação e como eles ainda podem ser indexados pelo Google [closed]?

2

Noto que, em alguns casos, os artigos de notícias indexados parecem ter sido indexados pelo Google porque trechos da matéria aparecem no resultado da pesquisa.

No entanto, quando vou a esses sites usando uma identidade do Googlebot (robô), as informações não estão lá para rastrear o artigo. Isso parece sugerir que o editor está, de alguma forma, enviando seus artigos pagos (e URLs associados) para o Google e não fazendo com que eles sejam rastreados. Obviamente tal submissão seria não-trivial porque teria que ter tanto o conteúdo do artigo quanto vários metadados concernentes a ele, como a URL onde ele está localizado e sua data de expiração.

Existe tal mecanismo? Se assim for, pode um webmaster comum como eu, usá-lo?

    
por Tyler Durden 29.03.2016 / 19:42

2 respostas

2

Sim, é possível

O Google tem uma página chamada Adquira seu conteúdo no Google , que, a partir de hoje, 21 de maio de 2018, é uma referência abrangente sobre como obter seu conteúdo indexado pelo Google. Existem vários links que você pode tentar, incluindo:

  • Adicione seu URL
  • Rastreamento de aplicativos
  • Search Console
  • Guia para iniciantes de otimização de mecanismos de pesquisa (SEO)

Esta resposta foi postada por @acejavelin dois anos e um mês atrás como um comentário. Talvez a página a qual nos ligamos não fosse tão abrangente quanto é hoje, ou então não vejo por que ele não a publicou como uma resposta completa. Além disso, vejo o OP considerar essa página "muito meta" na época, mas hoje é exatamente o que ele quer.

Sites podem detectar Googlebots falsos

Os sites às vezes impedem que o conteúdo da web seja rastreado por navegadores da Web que usam strings do agente do usuário Googlebot falsas. Você pode encontrar mais informações sobre esse assunto no site Panopticlick da Electronic Frontier Foundation . Mas, para resumir, o Googlebot tem outros recursos de identificação do que apenas um agente do usuário.

    
por 21.05.2018 / 13:49
1

O fato de o servidor da empresa ter retornado o infame Erro HTTP 404 para um URL não significa que o recurso não existe. Significa apenas que o servidor web decidiu que para você este recurso não existe .

O servidor da Web pode identificá-lo como um cliente pagante por vários métodos, chefe entre eles é uma identificação cookie HTTP armazenados no seu navegador. Quando o cookie não for encontrado, o servidor web geralmente pedirá que você faça login, e se for bem sucedido, retornará esse cookie.

A questão é, então, por que o Googlebot permite o acesso, mas você não está?

O Googlebot acabará descobrindo quase qualquer site, mas o webmaster pode solicitar uma visita antecipada usando as ferramentas contidas Coloque seu conteúdo no Google . Ele também pode direcionar o bot para certas pastas usando um arquivo Robots.txt .

Um exemplo de tal arquivo é:

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /

O bot identifica-se usando no cabeçalho da solicitação HTTP um Agente do usuário tag, por exemplo googlebot .

No entanto, assumir a identidade do Googlebot não é uma tarefa fácil. O site pode facilmente verifique a identidade do bot fazendo um pesquisa reversa de DNS no endereço IP de acesso. O nome de domínio retornado deve, nesse caso, ser googlebot.com ou google.com , que é algo que você mesmo não pode fingir.

Se você controlar totalmente seu servidor da Web, por exemplo, via PHP, você pode duplicar esse mecanismo e criar o que é chamado de "site de associação". Tal software é chamado Software para afiliação .

Se você não é um programador PHP, ou não está disposto a tal investimento seu tempo, existem muitas alternativas de software de código aberto, mas também muitos produtos comerciais que competirão pelo seu negócio. Seja muito crítico se você decidir escolher um e verifique cuidadosamente na web para comentários.

Para mais informações, consulte estes recursos que encontrei através de uma pesquisa (não necessariamente os melhores, e alguns são bastante comerciais por natureza, mas eles vão começar você):

por 21.05.2018 / 22:02