Posso usar o wget para baixar todos os arquivos recursivamente, mas não o conteúdo deles?

2

Às vezes, desejo apenas obter a estrutura de diretórios de um site, mas os arquivos em si não são importantes. Eu só quero o nome deles. Mais ou menos como um espelho, onde cada entrada é apenas um arquivo fictício vazio.

Claro, fazer um wget -r e depois executar um script para esvaziar todos os arquivos funciona bem, mas parece um desperdício porque não é legal nem para o servidor nem para minha largura de banda. Uma maneira mais eficiente, mas ainda menos elegante, é parar e reiniciar manualmente o processo sempre que você acessar um arquivo grande ou definir um tempo limite muito curto. Pelo menos isso reduz significativamente a quantidade de dados que eu tenho que baixar.

A minha pergunta é: Posso fazer o wget apenas criar um arquivo, mas não baixar o seu conteúdo? Ou estou usando a ferramenta errada para o trabalho?

    
por Hohmannfan 25.06.2016 / 20:35

1 resposta

4

Publicando uma resposta conforme solicitado:

Use a opção --spider :

wget -r -nv --spider http://example.com

Em seguida, você pode analisar a estrutura do site a partir da saída. Isso não fará o download de arquivos que não têm chance de conter links, como imagens.

    
por 25.06.2016 / 21:04

Tags