Plataforma cruzada, utilitários de linha de comando para converter PDF, DOC e DOCX em texto

1

Estou fazendo um mecanismo de pesquisa de texto. Eu preciso primeiro converter documentos binários em texto. Eu quero ir com multi-plataforma (desenvolvemos tanto no windows e linux) linha de comando (para que eu possa obter a saída via subprocesso python). Quais são as escolhas para isso?

    
por aitchnyu 28.07.2011 / 13:00

2 respostas

0

Existem pdftotext para PDFs e antiword para DOC (não tenho certeza sobre DOCX). Ambos software livre para linha de comando. Usado tanto no Linux antes, funcionou muito bem.

O Sphider, um mecanismo de pesquisa gratuito, usa pdftotext e catdoc . catdoc eu usei também, e trabalhei bem também.

Para arquivos DOC, há também wv e abiword ( abiword é uma GUI, mas também possui uma interface de linha de comando). Não foi capaz de testá-los, no entanto.

Uma dica para DOCX:

link

Eu usei isso para converter DOC para PDF antes, foi muito bom. Talvez ele também seja compatível com TXT ou você pode usar pdftotext . LiveDocX também pode ser acessado através de um serviço web SOAP

PS: há também as ferramentas de linha de comando pdftohtml , pdftk e, em seguida, a suíte / s LibreOffice , OpenOffice , que pode levar DOCX e converter nativamente / salvar tudo em texto. Não tente o LibreOffice e o OpenOffice a partir da linha de comando, embora ...

    
por 28.07.2011 / 13:10
-1

Um suplemento para o pdf para texto, eu conheço outra fonte aberta: ferramenta PDFLib . essa biblioteca pode converter páginas inteiras em pdf em texto com o layout da página. e suporta vários idiomas (toda a linguagem ascii), como inglês, francês, latim, além disso, a linguagem CJK também é suportada, por isso é muito útil para o seu mecanismo de pesquisa de texto. e eu encontro uma ferramenta online de pdf para texto usando PDFLib, para que você possa fazer uma performance do PDFlib.

    
por 17.10.2015 / 04:04

Tags