Massa converte milhares de documentos HTML baixados (com wget) em DOCX

1

Eu gostaria de processar e converter todos os arquivos baixados do wget em formato HTML de um URL.

Eu quero converter uma página da web completa no formato DOCX. Estamos falando de 3000 documentos HTML baixados do URL. Esta tarefa torna-se tediosa com o Pandoc sem automatizar.

Poderia ser feito automaticamente de alguma forma?

    
por user3127939 24.04.2018 / 02:38

1 resposta

0

1. Converter depois de baixar

Qual é o problema com o uso do Pandoc em seus arquivos HTML salvos?

Supondo que o seu HTML esteja em um diretório chamado wget-html , você pode fazer o seguinte:

 cd wget-html

 find . -name "*.docx" \
   | xargs -0     \
   pandoc         \
     --from=html  \
     --to=docx    \
     --toc        \
     --standalone \
     --output={}.pdf
     {} \;

Isso criará um arquivo PDF para cada "caminho / para / alguma.html" chamado "caminho / para / algum.html.pdf" .

2. Converter durante o download

Se você quiser conseguir isso, diga. Mas primeiro por favor indique qual comando exato do wget você estava usando.

    
por 15.12.2018 / 20:15