Eu não posso dizer muito sem ver esse PDF, mas algumas noções básicas:
Um PDF contém objetos e alguns objetos contêm fluxos de uma variante simplificada do Postscript, que coloca os glifos em uma página. (Você pode ver os objetos abrindo o PDF em um editor de texto e, se descompactar os fluxos, por exemplo, com mutool
, também poderá ver os fluxos em um editor de texto).
É realmente difícil reconvertê-lo para o texto original (suponho que seja o que você entende por "legível por máquina"), porque qualquer tentativa desse tipo tem que fazer suposições sobre como o aplicativo de renderização funciona. Se o aplicativo de renderização apenas colocar os glifos na ordem em que eles estão no texto original, você poderá tentar remapear os glifos para os caracteres e exibir os caracteres nessa ordem.
Se o programa de renderização fez algo mais complexo, por exemplo, porque você tem dois idiomas com direções de leitura diferentes, essas tentativas falharão.
Então, se você realmente precisa disso, terá que observar de perto como o PDF faz as coisas e escrever um programa personalizado para convertê-lo em texto.