Estou usando o seguinte comando para espelhar um site https:
wget --directory-prefix=/tmp/mirror --mirror --no-host-directories \
--regex-type pcre --reject-regex "$SKIP_REGEXP" \
--convert-links --adjust-extension --header "Accept-Language: en-US,en" \
--header "X-Build-Mirror: True" -o /tmp/mirror.log https://logic.ff.cuni.cz
(Na verdade, o comando é executado como uma única linha -. Eu quebrei-lo ao longo de várias linhas para melhorar a legibilidade)
Por documentação do --convert-links
bandeira, links para arquivos baixados são convertidos em links relativos para visualização local e links para arquivos que não são baixados (por exemplo, devido --reject-regexp
) são convertidos em links absolutos. No entanto, na conversão, embora o URL de host é uma ligação url, todos os links absolutos tornar link Links !!
Este é um bug em wget
ou há alguma maneira de forçá-lo a respeitar o tipo de protocolo? (Eu sei que eu posso usar o --https-only
, mas isso evitaria a obtenção de qualquer recurso http .