Can Googlebot crawl or pull URLs/URIs from Apache index/fancy index sites?
Sim.
I did a search on Google and it does not even mention such situations (crawling websites with Apache index/fancy index layout).
Provavelmente porque realmente não há nada de notável para mencionar. =)
A incapacidade de analisar algumas ou todas as páginas normalmente surge apenas com o JavaScript, uma vez que, excluindo o Google, a maioria dos rastreadores da Web não executa o código JavaScript. O Apache retorna índices (mesmo as versões mais sofisticadas) como páginas HTML simples (sem JavaScript).
É provável que haja uma conversa sobre otimização do mecanismo de pesquisa com sites somente de índice, mas provavelmente é sobre isso . Dito isso, pesquisando " firefox ftp " retorna link como seu primeiro resultado.
I know that I can send a spider to a site and find all kinds of things that are not linked...
Tudo o que uma aranha (ou o que você usa) normalmente acessa está vinculada como um URL / URI em algum lugar no código das páginas que são analisadas (mesmo que não seja visível para " "visitantes normais".
As únicas exceções para isso podem ser:
-
Links que exigem o acesso de JavaScript (por exemplo, no carregamento lento), que bots mais avançados às vezes podem fazer de qualquer maneira, pelo menos em conjunto com navegadores sem cabeça.
-
Links baseados em adivinhação de URL de força bruta (na maioria das vezes praticados por scripts / ferramentas maliciosos, etc.).
-
Links criados por engano por algum erro de configuração do servidor ou vulnerabilidade de segurança, que levam a arquivos fora da raiz da Web.
... so can Googlebot do likewise with sites like mine?
Com relação às páginas do índice Apache / índice de fantasia, o Googlebot pode indexar tudo o que um visitante regular (ou até mais experiente) pode acessar.