Leia um arquivo do MS Word (doc) página por página

1

Existe alguma maneira de tornar o wvWare (ou possível alguma outra ferramenta de linha de comando, ou biblioteca Python) para ler um arquivo doc página por página? Eu não consigo encontrar nada no manual do wvWare, nem em Abiword, Antiword ou em catdoc.

    
por leo 28.10.2014 / 15:53

1 resposta

1

Uma maneira incrivelmente feia de fazer isso seria procurar por ^ L no documento original e descobrir onde no texto eles ocorrem (documentos do Word não docx são na maioria textos simples: às vezes eu uso o comando strings para ler o conteúdo).

^ L é control-L, código de caractere 12 e às vezes chamado de "feed de formulário". Se você olhar para um documento bruto do Word no emacs (ou qualquer editor que mostre códigos de controle), você verá um desses no final de cada página.

    
por 29.10.2014 / 17:50