Wget - Faça o download de todas as imagens do servidor da web

1

Então eu quero baixar todas as imagens de um servidor web, particularmente jpegs. O comando que estou executando parece legítimo e sei que o site tem jpegs nele. Então, por exemplo

wget -r -P C:/ -A.jpg http://somesitewithjpegs.com

Entendo que este comando varrerá todo o servidor de forma recursiva, pesquisando obedientemente somente para imagens JPEG e então baixando essas imagens para minha unidade C: /. Por alguma razão, isso não está funcionando.

Olhando para o código-fonte, vejo que as imagens não estão realmente incorporadas diretamente na página, mas são hospedadas em outro diretório no servidor. É por isso que o wget não está conseguindo baixar essas imagens?

    
por Scandalist 09.12.2013 / 03:07

2 respostas

2

Para responder a minha própria pergunta, é verdade que o wget só pode seguir links e baixar arquivos diretamente. Vendo como a maioria das imagens está vinculada a um diretório que não suporta listagens de diretórios ou tem restrições, o wget não tem como analisar o conteúdo do diretório.

Um bom exemplo disso é um site wordpress que armazena imagens na pasta wp-content. A tentativa de percorrer esta pasta gera um erro 403 proibido. Mesmo que possamos ver essa imagem em nosso navegador como uma imagem vinculada, o wget não tem acesso a ela porque a imagem é armazenada em um diretório sem acesso direto.

Alguém pode adicionar a esta resposta se eu estiver perdendo detalhes ou não explicando o processo corretamente.

    
por 09.12.2013 / 05:56
0

Is this why wget is failing to download these images?

Ans: Talvez / Muito provavelmente.

Experimente adicionar estas opções:

-l1 -H

O -H diz ao aplicativo para abranger domínios, o que significa que ele deve seguir links que apontam para fora do site (talvez as imagens sejam exibidas em um servidor diferente) . E o -l1 significa apenas percorrer um nível de profundidade: isto é, não siga os links no site vinculado. Dessa forma, você poderá baixar o conteúdo de um servidor diferente que hospede arquivos de imagem.

iirc, enquanto espelhando um site wordpress completo, você pode acessar imagens da pasta wp-content.

    
por 09.12.2013 / 14:38

Tags