wget: siga os atributos de URL personalizados

3

O wget é uma ótima ferramenta para criar um instantâneo rápido de um site pequeno. Tanto quanto eu sei (eu realmente espero que eu não consegui encontrá-lo em wget --help ), o wget pode seguir apenas atributos de URL HTML conhecidos, como <a href=... , <img src=... e assim por diante. No entanto, às vezes, um site específico pode usar atributos não padrão que representam URLs reais que não se parecem com URLs para wget. Digamos que, se um site tiver uma galeria "estática" com imagens ampliadas, uma determinada página de imagem poderá ter algo assim:

<div zoomed_img="/gallery/image.jpg">
    <img src="/gallery/image_small.jpg"/>
</div>

Assim, wget ignora o atributo zoomed_img com /gallery/image.jpg . Meu comando wget é:

wget --recursive \
    --domains domain \
    --no-parent \
    --page-requisites \
    --no-clobber \
    --html-extension \
    --convert-links \
    http://domain/gallery

É possível fazer com que o wget siga os atributos HTML de URL personalizados?

    
por Lyubomyr Shaydariv 31.01.2016 / 09:39

1 resposta

2

wget (pelo menos 1.16.3) não permite que um usuário especifique atributos personalizados. Houve uma sugestão para estender a opção --follow-tags com uma sintaxe como --follow-tags=a/href , mas ninguém seguiu isso.

Se você não se importar em aplicar um hack rápido para ajudar no seu cenário, consulte este commit para o trabalho necessário para adicionar tags ou atributos personalizados.

Como alternativa, você mesmo pode escrever um pós-processador.

    
por 31.01.2016 / 13:00

Tags