Pegue todas as imagens “não incorporadas” de uma página web

1

Estou procurando uma maneira de capturar todas as imagens de um blog, mesmo que elas não estejam visíveis (incorporadas) no próprio blog. Em outras palavras, imagens que são enviadas para uma página da Web, mas ainda não incorporadas em um artigo.

Que alguém tenha um blog: bestblogever.com /

E ele publicou o artigo: bestblogever.com/24/11 /

Nesse artigo, há apenas uma imagem: bestblogever.com/24/11/IMG_23.jpg

Eu sei que o diretório bestblogever.com/24/11/ contém mais imagens, eu não sei o URL. Existe uma maneira (preferencialmente) de um software que possa pesquisar e baixar todas as imagens não listadas? Por exemplo:

bestblogever.com/24/11/IMG_23.jpg

bestblogever.com/24/11/IMG_55.jpg

bestblogever.com/24/11/IMG_08.jpg

bestblogever.com/24/11/IMG_65.jpg

Eu tentei o HTTrack, mas parece que ele só captura as imagens realmente exibidas na página da Web.

    
por Arete 07.08.2015 / 15:47

1 resposta

0

Em nosso site irmão StackOverflow, você pode ler algo semelhante a [ 1 ]

for /L %%I in (0,1,100) do (
    wget "http://download/img%%I.png"
    sleep 1
)

No Linux, você pode usar a mesma construção ou, por exemplo,

seq 0 1 100 | awk '{printf("wget http://download/img%d.png\n",$1)}'| /bin/sh

Notas:

  • Se você usar %3.3d em vez de %d , obterá img000.png ... img012.png ... img100.png , em vez de img0.png ... img12.png ... img100.png .
  • Se você evitar o último canal ( | /bin/sh ), você imprimirá no shell a saída gerada.
    Depois que você verificou a sua exatidão, você pode adicioná-lo novamente e executá-lo.
  • O \n adiciona uma nova linha à saída. Você pode querer adicionar sleep 1.23 \n depois para adicionar uma nova linha que espera 1.23 segundos entre os downloads.
  • Talvez seja necessário adicionar algumas opções para o comando [ 2 ] linha.
por 04.02.2016 / 13:15