wget mirror não obtendo tudo

0

Estou correndo

 wget -mk --no-check-certificate https://singpolyma.net/

E parece que está puxando para baixo todas as páginas e recursos e posts do blog, mas falta um grande número de URIs / actionstream / *. Obtém alguns deles, e cada uma dessas páginas tem links prev / next, o que deve significar que ele pode obter todos eles, mas isso não acontece. Nenhum erro na saída.

Eu tentei mudar para iniciar em https://singpolyma.net/actionstream/reply-httpidenti-canotice72478545-russellmcormond-thats/ , mas isso também não funcionou, de fato, ele tem menos dos itens / actionstream / *.

Deve haver algum switch que esteja faltando. Eu pensei que o -l inf de -m faria isso.

Alguma idéia?

    
por singpolyma 05.05.2011 / 22:11

1 resposta

1

Você é mais atingido pelo bug # 31354: o wget não analisa arquivos html vinculados por link . Correção já está no porta-malas por algum tempo (desde r2434 ). Abaixo eu colei trecho de ChangeLog sobre isso.

2010-10-18  Manfred Koizar  (tiny change)

    * html-url.c (tag_handle_link): Do not assume external links type
    to be always "text/html".

A última versão oficialmente lançada infelizmente é bem antiga (1.12 saiu em setembro de 2009), então você tem que baixar e construir uma versão mais recente. O software GNU tem o site alpha.gnu.org/gnu , onde você pode obter versões mais recentes.

    
por 06.05.2011 / 01:45