O texto no PDF consiste em fragmentos de texto posicionados de forma absoluta e, na linha de caso geral, as quebras de parágrafo não são especificamente indicadas. Portanto, a tarefa de determiná-los corretamente se torna mais um OCR, que é uma tarefa complexa, e você provavelmente precisará de um software complexo para obter resultados satisfatórios.
O próprio MS Word, por exemplo, tem o recurso de importar documentos PDF, mas também nem sempre reconhece os intervalos perfeitamente (por exemplo, quando os fragmentos de texto são um pouco 'inclinados', como é o caso dos arquivos digitalizados e Documentos OCR-ed).