Como baixar todas as imagens com a resolução completa (ou seja, svg) de um único artigo da wikipedia [duplicado]

1

Eu estava me perguntando como baixar

  • todas as imagens (.svg)
  • de um único artigo da wikipedia

sem fazer isso manualmente para cada imagem. A Wikipedia está oferecendo imagens em diferentes resoluções e vários formatos usando um esquema de URL de aparência mais complexo

Exemplo de URL:

https://en.wikipedia.org/wiki/Thirty-six_Views_of_Mount_Fuji

    
por dufte 12.09.2018 / 09:09

1 resposta

1

Eu encontrei uma solução perfeita em dougie.io Usando o Wget, Grep e Sed para baixar papéis de parede de domínio público de uma página da Web . Estou tentando resumir os passos principais (para mantê-lo disponível aqui também):

  1. Faça o download da página HTML usando wget :

    wget https://en.wikipedia.org/wiki/Thirty-six_Views_of_Mount_Fuji \
         -O page.html -O page.html
    
  2. Extraia os URLs de imagem usando grep e sed . Em seguida, extraia os URLs do artigo e grave-os em um novo arquivo urls.txt :

    grep -E "(https?:)?//[^/\s]+/\S+\.(jpg|png|gif|svg)" page.html -o | 
    sed "s/(^https?)?\/\//https\:\/\//g" -r > urls.txt
    
  3. Faça o download das imagens usando wget :

    • Imagens de polegar
       Se você só precisa das imagens do polegar, você pode começar por:

      wget -i urls.txt -P downloads/
      
    • Imagens em tamanho real
      Para obter as imagens em tamanho real, filtre o arquivo de URLs ( urls.txt ) para um novo arquivo ( urls-new.txt ):

      sed -E "s/\/thumb//g; s/\/[0-9]+px-.+\.(jpg|png)$//g" urls.txt |
      uniq > urls-new.txt
      

      reinicie o download:

      wget -i urls-new.txt -P downloads_full_size/
      

O crédito total vai para o artigo vinculado.

    
por 12.09.2018 / 09:17