Usando muitas ferramentas como pandoc
, podemos converter um arquivo de texto ou HTML em um arquivo DOCX. Mas há um problema, os arquivos de saída devem ser multi-page. Deve haver algo no arquivo de entrada que indica onde inserir quebra de página.
Existe algum utilitário para usar do terminal para converter arquivos .TXT ou .HTML para .DOCX com uma marcação (ou qualquer outro método) que divida as páginas?
Eu tenho um sistema que extrai texto de outras fontes. Eu não tenho acesso a geradores DOCX no sistema, mas posso criar arquivos de texto. Então, minha ideia é gerar arquivos de texto como este:
Page 1 from 2:
Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat.
________________________ [NEWLINE_HERE]
Page 2 from 2:
Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry's standard dummy text ever since the 1500s, when an unknown printer took a galley of type and scrambled it to make a type specimen book.
E enviá-los para outro servidor que atua como uma API para converter esse arquivo em formato de arquivo DOCX, mas em vez de inserir um arquivo de texto inteiro como uma única página, transformá-los em um único arquivo com várias páginas marcadas com um feed NEWLINE. / p>
Por favor, deixe-me saber se eu não poderia explicar isso.
Tags text conversion html documents