Traverse & Converter diretório de documentação baseado em HTML para TEXT ou PDF

0

A documentação de um pacote de sistema padrão está contida em:

 /usr/share/doc/rsyslog-5.8.10 (distros: RHEL 6/Centos 6)

no entanto, é tudo * .html. Gostaria de percorrer todos os arquivos na ordem correta e gerar um arquivo PDF ÚNICO ou um arquivo SINGLE TXT para que a documentação possa ser impressa e lida off-line sem passar manualmente de página para página.

Como faço isso?

    
por mdpc 06.02.2017 / 23:06

2 respostas

1

(find /usr/share/doc/rsyslog-5.8.10/ -type f -name \*.html -exec w3m -dump {} \; ) > /path/to/mydocs.txt

Se a ordem em que find lista os arquivos for do seu interesse organizacional, você pode usar isso para usar w3m (um cliente HTTP do console) para renderizar o HTML para você e colocá-los em um arquivo .

Se você não gostar do pedido, pode evitar o parâmetro -exec para obter a lista de arquivos e, em seguida, reordená-los antes de mastigar essa lista gerada e classificada com w3m .

    
por 06.02.2017 / 23:21
0

Como não encontrei w3m da resposta anterior no meu sistema, eu instalaria html2text e executaria:

find /usr/share/doc/rsyslog-5.8.10/ -type f -name \*.html -exec html2text {} >> all_docs.txt \;
    
por 07.02.2017 / 09:22