O que é a Deep Web? [fechadas]

0

Eu recentemente deparei com este site , que afirma que a deep web é uma tremenda seção da world wide web que não é acessível via regulares consultas através do Yahoo, Google ou vários outros motores de busca.

De acordo com o site:

  • Informações públicas gerais na Web profunda são, na verdade, de 4 a 5 mil vezes maiores em comparação com as geralmente caracterizadas como World Wide Web.
  • A Web profunda consiste em 6.500 terabytes de informações em comparação com 20 terabytes de informações que podem ser acessadas na Web de superfície
  • A Web profunda é composta de 550 bilhões de registros e documentos únicos, em contraste com os 1 bilhão da superfície da Web
  • 60 dos maiores sites de grande alcance consistem mutuamente em 750 terabytes de dados - o suficiente por si só para ultrapassar o tamanho da Web pública em 40 vezes
  • O material de conteúdo de qualidade geral da Web profunda é de 1.000 a 2.000 vezes melhor que o da Web de superfície

As afirmações acima são verdadeiras? Especialmente o último. Em caso afirmativo, existe uma maneira de pesquisar conteúdo na Web profunda usando um mecanismo de pesquisa como o Google ou por qualquer outro meio?

    
por Green Noob 18.05.2012 / 15:29

3 respostas

6

Um monte de conteúdo não é pesquisável pela simples razão de que é criado dinamicamente quando solicitado, ou está por trás de acesso limitado de várias maneiras (paredes de pagamento, etc.). Este é o significado original do fraseado " Deep web ".

Por sua própria definição, a "deep web" não é pesquisável. É um termo para descrever a coleção de material que é explicitamente não pesquisável.

Não é, como algumas entidades gostam de usar o termo, alguma parte "legal" da internet onde "pessoas comuns" não são permitidas. Admito que "deep web" soa legal da mesma forma que "buraco negro", mas na prática isso não faz diferença alguma.

Por exemplo Eu corro um servidor web pessoal. Algumas partes dele são restritas a conhecidos da vida real de diferentes maneiras. Isso faria sentido para você acessá-lo? Dica: não.

As declarações que você cita, por exemplo

  • Overall quality content material from the deep Web is 1,000 to 2,000 times better than that of the surface Web

são apenas um disparate, na verdade.

    
por 18.05.2012 / 15:50
0
Quase todos esses pontos são marketing puro e eu não acredito neles, mas poderia ter alguma pequena verdade por trás deles. O que provavelmente está acontecendo é duas coisas:

  1. O mecanismo de pesquisa pode não respeitar robots.txt (a versão curta é um arquivo que informa a pesquisa motores para não incluir uma página que você tem em seu site nos resultados da pesquisa). Então, como inclui todas as páginas da Web (não apenas as que foram permitidas), elas terão mais resultados de pesquisa.

  2. Ele procura tor por serviços ocultos e lista-os nos resultados da pesquisa. Esses sites têm .onion no final do nome de domínio e você deve usar um proxy de proxy para acessá-los.

Entre esses dois métodos, eu acho que posso ver de onde eles estão tirando seus números, mas não vejo como isso é " 1.000 a 2.000 vezes melhor que o da Web de superfície "

    
por 18.05.2012 / 15:45
0

Pelo que entendi, 'Deep Web' refere-se à parte da web que não é facilmente indexada de maneira automática; por exemplo, muitas páginas são geradas dinamicamente em tempo real em resposta a uma consulta ou a um formulário sendo preenchido. Ou, alguns sites exigem login de membro antes que todo o conteúdo esteja disponível. Esses tipos de sites geralmente não são transparentes para robôs de pesquisa automatizados e, portanto, a única parte do site que acaba sendo indexada é a parte "superficial".

Os números reais são difíceis de provar; o artigo da Wikipedia faz referência a este estudo que especula no tamanho como sendo em torno de 91.000 TB.

Recentemente, o Google anunciou que está trabalhando para melhorar a maneira como seus bots de pesquisa "lêem" páginas da web, o que implica que eles estão tentando indexar mais conteúdo difícil de acessar. O Engadget tem um artigo sobre aqui .

    
por 18.05.2012 / 16:00