PDF para a ferramenta de linha de comando open source TEXT

9

Ferramenta de linha de comando de código aberto PDF to TEXT? Deve ser utilitário de linha de comando & deve ser open source, livre para usar.

    
por Mandar Pande 08.06.2011 / 19:28

4 respostas

8

Pessoalmente, eu uso o PDFMiner for Python (> = 2.6). É bastante simples e sempre pareceu funcionar de forma consistente.

    
por 08.06.2011 / 19:33
8

Eu uso o pdftotext no poppler-utils no Ubuntu. Isso funciona muito bem. A opção -layout é especialmente útil em tabelas.

    
por 08.06.2011 / 19:34
7

Pdftotext , que faz parte de Xpdf pacote, é o que você está procurando.

    
por 08.06.2011 / 19:32
1

Você pode tentar usar o pdftotext, que é um utilitário de linha de comando de código-fonte aberto para converter arquivos PDF em arquivos de texto simples.

Aqui está o exemplo de uso:

ls *.pdf | xargs -L1 -I% pdftotext % %.txt

Alternativamente:

ls *.pdf | xargs -n1 pdftotext
find . -name '*.pdf' -print0 | xargs -0 -n1 pdftotext

Leia mais:

por 01.08.2014 / 11:22