Como extrair texto do pdf no script no Linux?

Question

Como extrair texto do pdf no script no Linux?

#1 resposta do (21 votos)
#2 resposta do (9 votos)

19

No Linux - Como extrair texto de um .pdf em que o texto realmente é texto, não uma imagem digitalizada? Eu quero algo que eu possa usar na linha de comando / em um script, não interativamente. (Eu não quero converter para .tif e usar o OCR - o texto já está disponível no arquivo .pdf , então por que introduzir imprecisões de OCR imperfeito?)

pdf linux export script

por RobM 05.11.2010 / 19:30

2 respostas

Tags pdf linux export script

Ocultar os botões 'ferramentas', 'comentar' e 'assinar' no Adobe Reader XI chkdsk pedindo para desmontar volume, isso é seguro?

score 21 · Answer 1

pdftotext que vem com o poppler tentará extrair qualquer texto encontrado no PDF.

score 9 · Answer 2

A resposta de Ignacio está bem. Na verdade, seria a primeira coisa na minha lista. Bem, isso e talvez sugerir a ferramenta pdftohtml que também vem com o poppler, combinada com pdfreflow se você quiser tentar remontar o texto em parágrafos, etc. (Claro, isso lhe dará saída HTML, mas a conversão de HTML em texto simples pode ser feita de várias maneiras.)

Aqui estão algumas outras opções também.

A ferramenta de linha de comando ebook-convert do Caliber , que pode converter .PDFs em texto sem formatação (ou RTF ou um número de ebook formatos, como ePub, etc.)

pdftxtextract de Podofo

Abiword pode ser chamado a partir da linha de comando para converter entre qualquer formato que possa inserir de / export para, e com o plugin de importação apropriado, isso inclui PDFs:

abiword --to=txt file.pdf

(Para ser justo, acho que o AbiWord e o calibre usam as bibliotecas do poppler, mas eu não sou positivo.)