Pessoalmente, eu uso o PDFMiner for Python (> = 2.6). É bastante simples e sempre pareceu funcionar de forma consistente.
Ferramenta de linha de comando de código aberto PDF to TEXT? Deve ser utilitário de linha de comando & deve ser open source, livre para usar.
Eu uso o pdftotext no poppler-utils no Ubuntu. Isso funciona muito bem. A opção -layout é especialmente útil em tabelas.
Você pode tentar usar o pdftotext, que é um utilitário de linha de comando de código-fonte aberto para converter arquivos PDF em arquivos de texto simples.
Aqui está o exemplo de uso:
ls *.pdf | xargs -L1 -I% pdftotext % %.txt
Alternativamente:
ls *.pdf | xargs -n1 pdftotext
find . -name '*.pdf' -print0 | xargs -0 -n1 pdftotext
Leia mais:
Tags command-line pdf conversion