Faça o download do site com os requisitos da página, mas apenas imagens e css

0

Estou usando o comando wget , que faz o download de uma página inteira com todos os recursos, requisitos e salva-a em uma pasta personalizada para um trabalho posterior.

Meu código atual:

$ wget --adjust-extension --span-hosts --convert-links --page-requisites \
 --no-directories --restrict-file-names=windows --no-parent \
 --user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6"\
 ‐‐execute robots=off --limit-rate 400k --directory-prefix=elbache \
 ‐‐output-document=index.html http://www.bachecubano.com/celulares

Até agora tudo funciona muito bem, mas eu quero reduzir o --page-requisites para apenas CSS e imagens (eu não quero arquivos .JS). As páginas baixadas podem ser reduzidas em quase 40% se eu não carregar os ativos .js, o que não é necessário para o meu propósito.

Como faço para configurar wget para aceitar apenas .css e / images , mas não em arquivos * .js?

    
por Erich García 26.07.2018 / 16:44

1 resposta

1

Na página wget man:

   -A acclist --accept acclist
   -R rejlist --reject rejlist
       Specify comma-separated lists of file name suffixes or patterns to 
       accept or reject. Note that if any of the wildcard characters, 
       *, ?, [ or ], appear in an element of acclist or rejlist, it will be
       treated as a pattern, rather than a suffix.

Então você adicionaria a seguinte opção ao que você já tem:

-A css,png,jpg,gif,jpeg

OBSERVAÇÃO: você terá que jogar com isso e descobrir quais formatos de imagem esse site em particular usa.

    
por 27.07.2018 / 08:31

Tags