O Googlebot pode rastrear ou extrair URLs / URIs do índice do Apache / sites de fantasia? [fechadas]

Question

O Googlebot pode rastrear ou extrair URLs / URIs do índice do Apache / sites de fantasia? [fechadas]

#1 resposta do (2 votos)

0

É isso, é tudo o que eu quero saber disso. - Eu fiz uma pesquisa no Google e nem sequer menciona tais situações (rastreando sites com índice Apache / layout de índice fantasia); mas sei que posso enviar uma aranha para um site e encontrar todos os tipos de coisas que não estão vinculadas. O Googlebot também pode fazer o mesmo com sites como o meu [insurgent.info]?

apache-http-server google-search

por Y Treehugger Cymru 13.05.2018 / 01:28

1 resposta

Tags apache-http-server google-search

Encontre configurações duplicadas em dotfiles Windows 10 não reconhece o segundo monitor conectado a gráficos integrados

score 2 · Accepted Answer

Can Googlebot crawl or pull URLs/URIs from Apache index/fancy index sites?

Sim.

I did a search on Google and it does not even mention such situations (crawling websites with Apache index/fancy index layout).

Provavelmente porque realmente não há nada de notável para mencionar. =)

A incapacidade de analisar algumas ou todas as páginas normalmente surge apenas com o JavaScript, uma vez que, excluindo o Google, a maioria dos rastreadores da Web não executa o código JavaScript. O Apache retorna índices (mesmo as versões mais sofisticadas) como páginas HTML simples (sem JavaScript).

É provável que haja uma conversa sobre otimização do mecanismo de pesquisa com sites somente de índice, mas provavelmente é sobre isso . Dito isso, pesquisando " firefox ftp " retorna link como seu primeiro resultado.

I know that I can send a spider to a site and find all kinds of things that are not linked...

Tudo o que uma aranha (ou o que você usa) normalmente acessa está vinculada como um URL / URI em algum lugar no código das páginas que são analisadas (mesmo que não seja visível para " "visitantes normais".

As únicas exceções para isso podem ser:

Links que exigem o acesso de JavaScript (por exemplo, no carregamento lento), que bots mais avançados às vezes podem fazer de qualquer maneira, pelo menos em conjunto com navegadores sem cabeça.
Links baseados em adivinhação de URL de força bruta (na maioria das vezes praticados por scripts / ferramentas maliciosos, etc.).
Links criados por engano por algum erro de configuração do servidor ou vulnerabilidade de segurança, que levam a arquivos fora da raiz da Web.

... so can Googlebot do likewise with sites like mine?

Com relação às páginas do índice Apache / índice de fantasia, o Googlebot pode indexar tudo o que um visitante regular (ou até mais experiente) pode acessar.