Faça o download de TODAS as pastas, subpastas e arquivos usando o Wget

14

Eu tenho usado o Wget e me deparei com um problema. Eu tenho um site, que tem várias pastas e subpastas dentro do site. Eu preciso baixar todo o conteúdo dentro de cada pasta e subpasta. Eu tentei vários métodos usando Wget, e quando eu verificar a conclusão, tudo o que posso ver nas pastas são um arquivo "index". Eu posso clicar no arquivo de índice, e ele vai me levar para os arquivos, mas eu preciso dos arquivos reais.

alguém tem um comando para Wget que eu tenha esquecido, ou há outro programa que eu poderia usar para obter todas essas informações?

Exemplo de site

:

www.mysite.com/Pictures/ dentro do Pictures DDR, existem várias pastas .....

www.mysite.com/Pictures/Accounting/

www.mysite.com/Pictures/Managers/América do Norte / Califórnia / JoeUser.jpg

Eu preciso de todos os arquivos, pastas, etc .....

    
por Horrid Henry 07.10.2013 / 18:05

3 respostas

24

Eu quero supor que você não tenha tentado isso:

wget -r --no-parent http://www.mysite.com/Pictures/

ou para recuperar o conteúdo, sem baixar os arquivos "index.html":

wget -r --no-parent --reject "index.html*" http://www.mysite.com/Pictures/

Referência: Usando o wget para recursivamente buscar um diretório com arquivos arbitrários

    
por 07.10.2013 / 18:23
13

Eu uso wget -rkpN -e robots=off http://www.example.com/

-r significa recursivamente

-k significa converter links. Portanto, os links na página da Web serão localhost em vez de example.com/bla

-p significa obter todos os recursos da página da Web para obter imagens e arquivos javascript para que o site funcione corretamente.

-N é recuperar os timestamps, portanto, se os arquivos locais forem mais recentes que os arquivos no site remoto, ignore-os.

-e é uma opção de sinalização que precisa estar lá para que o robots=off funcione.

robots=off significa ignorar arquivo de robôs.

Eu também tinha -c neste comando, então se a conexão cair, continuaria de onde parou quando eu re-executar o comando. Eu percebi que -N iria bem com -c

    
por 20.12.2014 / 10:22
0

wget -m -A * -pk -e robots = desativado www.mysite.com/ isso fará o download de todos os tipos de arquivos localmente e apontará para eles a partir do arquivo html. e vai ignorar arquivo de robôs

    
por 20.12.2014 / 10:11

Tags