porque html2text não é capaz de arquivos .html locais.

0

Embora eu tenha visto várias perguntas semelhantes àquelas que vou fazer, por exemplo, Como posso converter todos os arquivos html que entro em arquivos de texto depois de um comando wget?

Eu também vi um post no blog que descreve e viu que funciona. Eu tentei mesmo localmente e descobri que mesmo isso funciona, mas em arquivos locais, ou seja, arquivos que estão residindo dizem em algum /usr/share/doc/$PACKAGENAME/index.html e número de páginas ligadas a ele, deve haver uma maneira mais fácil de obter pelo menos a página principal.

Eu tentei fazer algo como -

html2text file:///usr/share/doc/$PACKAGENAME/html/index.html > packagename-doc.txt

mas isso não funcionou.

Eu recebo a saída -

Cannot open input file "file:///usr/share/doc/$PACKAGENAME/html/index.html".

Eu não estou dando nomes de pacotes, pois isso realmente não importa e existem muitos pacotes que hoje em dia dão documentação em páginas html ao invés de man ou info, mas que estão fora do tópico.

Alguém pode dizer por que ou dar uma maneira alternativa de fazê-lo através do html2text ou de alguma outra ferramenta que o faça de maneira simples.

    
por shirish 26.04.2018 / 01:52

1 resposta

2

@Karkouch tem a ideia certa - você precisa remover a parte file:// . As ferramentas do shell geralmente não entendem ou esperam URLs como parâmetros.

Na verdade, file:///[…]/html/index.html é um caminho válido , mas aponta para um arquivo dentro de um diretório chamado html , etc., finalmente dentro de um diretório dentro do PWD chamado literalmente file: . Várias barras são simplesmente tratadas como uma única barra , e todos os caracteres visíveis (e os mais invisíveis) são válidos em um caminho * nix. O único caractere não válido em um caminho é o NUL.

    
por 26.04.2018 / 05:51