Como extrair texto do pdf no script no Linux?

19

No Linux - Como extrair texto de um .pdf em que o texto realmente é texto, não uma imagem digitalizada? Eu quero algo que eu possa usar na linha de comando / em um script, não interativamente. (Eu não quero converter para .tif e usar o OCR - o texto já está disponível no arquivo .pdf , então por que introduzir imprecisões de OCR imperfeito?)

    
por RobM 05.11.2010 / 20:30

2 respostas

21

pdftotext que vem com o poppler tentará extrair qualquer texto encontrado no PDF.

    
por 05.11.2010 / 20:33
9

A resposta de Ignacio está bem. Na verdade, seria a primeira coisa na minha lista. Bem, isso e talvez sugerir a ferramenta pdftohtml que também vem com o poppler, combinada com pdfreflow se você quiser tentar remontar o texto em parágrafos, etc. (Claro, isso lhe dará saída HTML, mas a conversão de HTML em texto simples pode ser feita de várias maneiras.)

Aqui estão algumas outras opções também.

A ferramenta de linha de comando ebook-convert do Caliber , que pode converter .PDFs em texto sem formatação (ou RTF ou um número de ebook formatos, como ePub, etc.)

pdftxtextract de Podofo

Abiword pode ser chamado a partir da linha de comando para converter entre qualquer formato que possa inserir de / export para, e com o plugin de importação apropriado, isso inclui PDFs:

abiword --to=txt file.pdf

(Para ser justo, acho que o AbiWord e o calibre usam as bibliotecas do poppler, mas eu não sou positivo.)

    
por 05.11.2010 / 22:14