Usei o wget para baixar arquivos html, onde estão armazenadas as imagens no arquivo?

10

O Firefox estava carregando muito devagar, então decidi usar wget para salvar arquivos HTML. Usei o seguinte comando,

wget http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Os arquivos foram salvos em minha pasta pessoal. Mas eu não sei onde as imagens estão armazenadas. Eu preciso que elas sejam usadas em Anki .

Então onde estão as imagens armazenadas?

    
por Registered User 08.11.2013 / 15:43

4 respostas

24

Eu prefiro usar --page-requisites ( -p para breve) em vez de -r aqui, pois ele baixa tudo o que a página precisa para exibir, mas nenhuma outra página, e eu não preciso pensar em que tipo de arquivos Eu quero.

Na verdade, geralmente estou usando algo como

wget -E -H -k -p http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Isso significa:

  • -E : Anexar .html ao nome do arquivo, se ele for um arquivo HTML, mas não terminar em .html ou similar
  • -H : Download de arquivos de outros hosts, também
  • -k : Após o download, converta qualquer link nele para que eles apontem para os arquivos baixados
  • -p : faça o download de qualquer coisa que a página precise para uma visualização off-line adequada
por Florian Diesch 08.11.2013 / 16:52
2

usando o parâmetro -r deve permitir que o wget baixe toda a pasta, incluindo suas imagens.

wget -r http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter
    
por vegard torvund 08.11.2013 / 15:55
2

Download dos arquivos de imagem separadamente

Eu acho que esse comando poderia começar.

 wget -r -P /save/location -A jpeg,jpg,bmp,gif,png http://textbook.s-anand.net/ncert/class-xii/chemistry/hello-this-first-chapter

Ele permite que você especifique o local para salvar as imagens e quais tipos de arquivos você deseja. Talvez baixar as imagens como tal seja mais fácil.

Fonte :

  

-r ativa a recuperação recursiva. Veja Download Recursivo para mais informações.

     

-P define o prefixo do diretório onde todos os arquivos e diretórios são salvos.

     

-A define uma lista de desbloqueio para recuperar apenas determinados tipos de arquivos. Strings e padrões são aceitos e ambos podem ser usados em uma lista separada por vírgulas (como visto acima). Veja Tipos de Arquivos para mais informações.

Copiando os arquivos de imagem da sua pasta

Tenho notado que o site usa arquivos de imagem PNG. Você pode simplesmente copiar os da sua pasta. Isso deve ser executado na pasta onde você armazenou a página da Web.

find . -name "*.png" -exec cp '{}' ./some_dir/somewhere/ \;
    
por don.joey 08.11.2013 / 15:55
1

O Wget simplesmente faz o download do arquivo HTML da página, não das imagens na página, pois as imagens no arquivo HTML da página são gravadas como URLs. Para fazer o que você deseja, use a -R (recursiva), a opção -A com os sufixos do arquivo de imagem, a opção --no-parent para fazer com que ela não suba e a opção --level com 1 . / p>

Especificamente wget -R -A .jpg,.png,.gif --no-parent --level <url>

Ainda melhor, a maioria dos navegadores tem métodos para salvar páginas para visualização off-line .

    
por Ramchandra Apte 08.11.2013 / 15:55