Você tem muitas opções!
pdftotext
do poppler já foi mencionado.
Existe um programa do Haskell chamado pdf2line
que funciona bem.
calibre ebook-convert
programa de linha de comando (ou calibre próprio) é outra opção; Ele pode converter PDF para texto simples, ou outro formato de e-book (RTF, ePub), na minha opinião, gera resultados melhores que o pdftotext, embora seja consideravelmente mais lento.
ebook-convert file.pdf file.txt
O AbiWord pode converter qualquer formato que conheça da linha de comando, e pelo menos opcionalmente tem um plugin de importação de PDF:
abiword --to=txt file.pdf
No entanto, outra opção é podofotextextract
da biblioteca de ferramentas PDF do podofo. Eu realmente não tentei .
Se você combinar as duas ferramentas do Ghostscript, pdf2ps
e ps2ascii
, terá ainda outra opção.
Eu posso pensar em mais alguns métodos, mas vou deixar por enquanto. ;)