É possível descobrir todos os arquivos e subdiretórios de um URL?

2

Gostaria de saber se existe um software que eu possa usar para descobrir todos os arquivos e subdiretórios com um URL?

Por exemplo, considerando www.some-website.com/some-directory/ , gostaria de encontrar todos os arquivos no diretório /some-directory/ , bem como todos os subdiretórios (e seus arquivos) em /some-directory/ .

Isso seria para o protocolo HTTP.

    
por Mark 10.12.2011 / 15:34

3 respostas

2

Nos sistemas de tipos CMS, não há diretórios e subdiretórios, apenas rotas que correspondem a nós / IDs informativos atribuídos às informações que você está solicitando. Essas rotas são criadas dinamicamente, dependendo do método de categorização usado para acessar essas informações (novas postagens, categorias, tags, listas de marcas e qualquer outro método de categorização de apresentação que o proprietário do site possa usar para ajudá-lo a encontrar o nó final)

Portanto, as informações que você está procurando podem ser representadas por várias variações dependentes da rota usada para acessar o nó final (página virtual)

Para manter o proprietário do website satisfeito por não sobrecarregar o servidor, faça como o Google e procure o arquivo sitemap.xml. Se o proprietário do site estiver seguindo as práticas recomendadas, será uma listagem completa das páginas canônicas disponíveis no site, o que significa que você só precisa acessar a página virtual final uma vez, não terminando o download de várias cópias da mesma coisa.

    
por 10.12.2011 / 18:39
1

Depende de como o servidor no site que você deseja rastrear está configurado. A URL nem sempre é proporcional ao diretório físico onde os arquivos estão localizados.

Normalmente, se um arquivo de índice não for criado em um diretório do servidor, o servidor retornará o conteúdo do diretório. Se um arquivo de índice é criado, é quase impossível buscar o conteúdo do diretório diretamente.

No entanto, você pode usar um rastreador de sites como o Internet Download Manager para rastrear um site por meio de links fornecidos no conteúdo HTML de um site. O IDM recupera todos os arquivos HTML / imagens / conteúdo multimídia / txt / PDF em um site para você.

Verifique seus Termos de Serviço antes de rastrear.

    
por 10.12.2011 / 15:53
0

wget faz isso, se você está no * nix. Sua fonte livre e aberta. Provavelmente você pode obtê-lo para o Windows, embora não tenha certeza.

Naturalmente, as limitações são as mesmas mencionadas acima. A maioria dos sites hoje em dia não tem URLs que mapeiam diretamente para estruturas de diretórios, mas você pode efetivamente espelhar um site inteiro com o wget. Ou seja, você pode fazer o download de todos os espaços no site que estão publicamente disponíveis e com hiperlinks de uma página que você pode acessar.

Muitos sites bloquearão você se detectarem um rastreador não autorizado espelhando o site deles com muita rapidez. Então, você pode precisar ser educado - faça com que o programa de rastreamento abaixe apenas algumas páginas por segundo.

    
por 10.12.2011 / 17:45