Como Wget com Subcondição Condição + gerar CHM /… e-book?

1

Eu quero gerar um CHM / ... e-book por wgetting com uma condição de subconjunto: baixe um subconjunto de dados recursivamente no website que está dentro da classe HTML .container para um livro CHM. Pseudocódigo

  1. wget recursivamente todos os links de capítulos

    # TODO returns only index.html
    wget --random-wait -r -p -nd -e robots=off -A".html" \ 
     -U mozilla https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
    
  2. Conteúdo na página principal atual em .container da Fig. 1 e conteúdo nas páginas filhas dos links.

  3. crie um e-book CHM e / ou outro formato

1 Inspeção do CDC Yellow Book .container

Saída:apenasindex.html

Saídaesperada:e-bookCHMe/ououtroformato

WgetProposals

  1. TimS

    wget-w5--random-wait-r-nd-erobots=off-A".html" -U mozilla https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
    

    Saída: igual ao primeiro código.

  2. Com lista de rejeição

    wget -w5 --random-wait -r -nd -e robots=off -A".html" \
     -U mozilla -R css https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
    

    Saída: o mesmo que sem listas de rejeição.

  3. Outra variante

    wget -w5 --random-wait -r -nd -e robots=off -A".html" \
     -U mozilla https://wwwnc.cdc.gov/travel/yellowbook/2018/table-of-contents
    

    Saída: semelhante a antes.

A ferramenta www.html2pdf.it dá

Cannot get http://wwwnc.cdc.gov/travel/yellowbook/2016/table-of-contents: http status code 404

OS: Debian 8.7

    
por Léo Léopold Hertz 준영 19.04.2016 / 18:01

2 respostas

2

Eu encontrei seu problema. O -A".html" o restringe a aceitar somente arquivos que terminam em .html . Se você remover essa seção, começará a baixar todos os arquivos.

wget -w5 -r -nd -e robots=off -U mozilla http://wwwnc.cdc.gov/travel/yellowbook/2016/table-of-contents

Editar: Se você quiser excluir arquivos js / css / etc, seria melhor usar -R para formar uma lista de rejeição, em vez de incluir apenas html .

    
por 20.04.2016 / 00:01
1

Eu não acho que você deva incluir / excluir coisas, faça o download de tudo. O CHM é compilado em HTML, então você precisará de um CSS para substituir o existente - que solução melhor do que usar o CSS existente como base.

Quanto ao JavaScript, talvez você queira inspecionar o que ele faz porque você nunca sabe, por padrão, que alguns dados podem estar ocultos ...

Lembre-se, você pode definir o que você inclui / exclui em seu master.hhc (para o seu CHM).

Você precisará do Workshop de Ajuda do Microsoft HTML para compilar o CHM, eu aconselho usar FAR também para editar o que você quer e o que você não quer.

Essas ferramentas são projetadas para funcionar no Windows, tenho certeza que elas funcionam com vinho, no entanto, eu não testei isso.

    
por 25.06.2017 / 11:55

Tags