Fazendo com que os wget's --convert-links respeitem http vs https

2

Estou usando o seguinte comando para espelhar um site https:

wget --directory-prefix=/tmp/mirror --mirror --no-host-directories \
     --regex-type pcre --reject-regex "$SKIP_REGEXP" \
     --convert-links --adjust-extension --header "Accept-Language: en-US,en" \
     --header "X-Build-Mirror: True" -o /tmp/mirror.log https://logic.ff.cuni.cz

(Na verdade, o comando é executado como uma única linha -. Eu quebrei-lo ao longo de várias linhas para melhorar a legibilidade)

Por documentação do --convert-links bandeira, links para arquivos baixados são convertidos em links relativos para visualização local e links para arquivos que não são baixados (por exemplo, devido --reject-regexp ) são convertidos em links absolutos. No entanto, na conversão, embora o URL de host é uma ligação url, todos os links absolutos tornar link Links !!

Este é um bug em wget ou há alguma maneira de forçá-lo a respeitar o tipo de protocolo? (Eu sei que eu posso usar o --https-only , mas isso evitaria a obtenção de qualquer recurso http .

    
por jonathanverner 14.08.2018 / 12:49

0 respostas

Tags