Comando Wget que retorna [uma lista de] todas as páginas da Web em um servidor da web

2

Digamos que temos um site www.example.com com as seguintes páginas:

www.example.com/page1
www.example.com/unknown
www.example.com/unknown

Existe um comando Wget que produziria a seguinte saída:

page1
page2
page3

Como esse comando mudaria se a estrutura do site fosse:

www.example.com/xxxx/page1
www.example.com/xxxx/page2
www.example.com/xxxx/page3

Essencialmente, eu tenho um endereço IP do servidor e gostaria de poder listar todas as páginas mantidas no servidor, para ver se há algum em que estou interessado em fazer o download.

Por exemplo, posso fazer wget -r www.example.com/page1 e quero saber se há outros diretórios ( page2 , page3 , etc) que eu possa estar interessado.

Eu pesquisei a opção --spider e outras, mas sem alegria.

    
por RedGrittyBrick 26.02.2011 / 19:45

4 respostas

3

Você pode dizer ao wget para baixar recursivamente um site inteiro, mas o faz seguindo os links em cada página. Se não souber a página1, a página2 e a página3, elas nunca serão recuperadas.

Sem rodeios, o HTTP não funciona dessa maneira - felizmente.

    
por 26.02.2011 / 21:37
4

Você não pode fazer isso do lado do cliente, mas pode procurar um mapa do site, às vezes o link arquivo pode conter uma lista. Pode haver uma maneira de pedir uma lista ao Google e pode haver um último na máquina de retorno.

    
por 26.02.2011 / 22:13
3

Isso não é possível. Não há um método de solicitação HTTP para isso, uma solicitação de recuperação HTTP sempre obtém um URL específico como parâmetro.

    
por 26.02.2011 / 21:04
1

Como Rens e franziskus dizem, não há como fazer isso a partir da página 1, a única chance dependerá de como o site que você deseja copiar está configurado.

É improvável no diretório raiz, mas os subdiretórios (desde que você saiba que eles existem) podem ser configurados de tal forma que eles forneçam uma lista de arquivos (algum tipo de ftp visual). Mas você está explorando o que a maioria dos webmasters está tentando esconder de você: os componentes internos de seus sites.

Eu explorei isso com sucesso para obter informações que estava confiante de que existiam, mas que não consegui encontrar de nenhuma maneira na navegação do site. Só funciona com poucos sites.

    
por 26.02.2011 / 21:59