O Googlebot pode rastrear ou extrair URLs / URIs do índice do Apache / sites de fantasia? [fechadas]

0

É isso, é tudo o que eu quero saber disso. - Eu fiz uma pesquisa no Google e nem sequer menciona tais situações (rastreando sites com índice Apache / layout de índice fantasia); mas sei que posso enviar uma aranha para um site e encontrar todos os tipos de coisas que não estão vinculadas. O Googlebot também pode fazer o mesmo com sites como o meu [insurgent.info]?

    
por Y Treehugger Cymru 13.05.2018 / 03:28

1 resposta

2

Can Googlebot crawl or pull URLs/URIs from Apache index/fancy index sites?

Sim.

I did a search on Google and it does not even mention such situations (crawling websites with Apache index/fancy index layout).

Provavelmente porque realmente não há nada de notável para mencionar. =)

A incapacidade de analisar algumas ou todas as páginas normalmente surge apenas com o JavaScript, uma vez que, excluindo o Google, a maioria dos rastreadores da Web não executa o código JavaScript. O Apache retorna índices (mesmo as versões mais sofisticadas) como páginas HTML simples (sem JavaScript).

É provável que haja uma conversa sobre otimização do mecanismo de pesquisa com sites somente de índice, mas provavelmente é sobre isso . Dito isso, pesquisando " firefox ftp " retorna link como seu primeiro resultado.

I know that I can send a spider to a site and find all kinds of things that are not linked...

Tudo o que uma aranha (ou o que você usa) normalmente acessa está vinculada como um URL / URI em algum lugar no código das páginas que são analisadas (mesmo que não seja visível para " "visitantes normais".

As únicas exceções para isso podem ser:

  • Links que exigem o acesso de JavaScript (por exemplo, no carregamento lento), que bots mais avançados às vezes podem fazer de qualquer maneira, pelo menos em conjunto com navegadores sem cabeça.

  • Links baseados em adivinhação de URL de força bruta (na maioria das vezes praticados por scripts / ferramentas maliciosos, etc.).

  • Links criados por engano por algum erro de configuração do servidor ou vulnerabilidade de segurança, que levam a arquivos fora da raiz da Web.

... so can Googlebot do likewise with sites like mine?

Com relação às páginas do índice Apache / índice de fantasia, o Googlebot pode indexar tudo o que um visitante regular (ou até mais experiente) pode acessar.

    
por 14.05.2018 / 14:39