Como fã de código aberto (e automação), eu odeio dizer isso, mas os melhores resultados que obtive (em um PDF grande e complexo) foram abri-lo no Adobe Reader e, em seguida, escolher Arquivo | Salvar como texto .
(Eu estou pré-processando para experimentos de análise de texto, não como um leitor, mas acho que minha primeira e segunda escolha seria a mesma.)
Eu tenho comparado a saída lado-a-lado. Minha segunda opção é o ebook-convert.
Adobe : à esquerda no FF para quebras de página, à esquerda nos números de página, não converteu títulos / parágrafos em linhas únicas, mas fixou hífens. Lixo que estava oculto no PDF não obteve saída. Corretamente obteve as grandes capitais no início das seções, por exemplo "O", não "o" ou mesmo "o".
ebook-convert : Deixados nos números das páginas e algum lixo oculto no cabeçalho / rodapé (mas sem FFs). Converte a maioria dos parágrafos para linhas únicas. Os que faltam são em espaço duplo! As balas nem sempre se alinham com o texto. Corretamente tem "The" no início do capítulo.
pdftotext (sem --layout) : Não é ruim, os marcadores se alinham, mas o ruído de cabeçalho / rodapé. FFs estão lá. Hífens removidos. Pior para letras maiúsculas no início do capítulo: "T \ n \ nhe".
pdftotext (com --layout) : Similar, mas mais travessões. "T ele" para o começo do capítulo.
pdftohtml > > pdfreflow > > htmltotext : removeu os números de página, mas ainda assim, o lixo no cabeçalho / rodapé. "T ele" para o começo do capítulo. Hífens removidos. (Ele usa várias linhas por parágrafo, mas elas não são as mesmas que as outras versões!)