pdftotext
que vem com o poppler tentará extrair qualquer texto encontrado no PDF.
No Linux - Como extrair texto de um .pdf
em que o texto realmente é texto, não uma imagem digitalizada?
Eu quero algo que eu possa usar na linha de comando / em um script, não interativamente.
(Eu não quero converter para .tif
e usar o OCR - o texto já está disponível no arquivo .pdf
, então por que introduzir imprecisões de OCR imperfeito?)
pdftotext
que vem com o poppler tentará extrair qualquer texto encontrado no PDF.
A resposta de Ignacio está bem. Na verdade, seria a primeira coisa na minha lista. Bem, isso e talvez sugerir a ferramenta pdftohtml
que também vem com o poppler, combinada com pdfreflow se você quiser tentar remontar o texto em parágrafos, etc. (Claro, isso lhe dará saída HTML, mas a conversão de HTML em texto simples pode ser feita de várias maneiras.)
Aqui estão algumas outras opções também.
A ferramenta de linha de comando ebook-convert
do Caliber , que pode converter .PDFs em texto sem formatação (ou RTF ou um número de ebook formatos, como ePub, etc.)
pdftxtextract
de Podofo
Abiword pode ser chamado a partir da linha de comando para converter entre qualquer formato que possa inserir de / export para, e com o plugin de importação apropriado, isso inclui PDFs:
abiword --to=txt file.pdf
(Para ser justo, acho que o AbiWord e o calibre usam as bibliotecas do poppler, mas eu não sou positivo.)