Você deve tentar pdftotext
(vem no Ubuntu no pacote poppler-utils
).
É um conversor de linha de comando. Ele pressupõe que o PDF tenha texto e não consista apenas em imagens.
Se o arquivo PDF consistir em imagens (sem informações de OCR), você terá que optar por uma solução de OCR, que é muito mais lenta.
Eu usei com sucesso o método OCR, bem como em texto PDF que foi embaralhado (posicionando os caracteres individuais em uma página de maneira não linear). Então você usa, por exemplo pdftoppm
para obter imagens individuais das páginas e OCR essas.