Observe que o PDF não contém o texto original, mas uma descrição com a qual os glifos devem ser colocados. A pesquisa de texto em um PDF depende de (1) o PDF ter tabela (s) que descrevem quais glifos correspondem a quais caracteres unicode (2) uma maneira de remontar esses caracteres traduzidos em suposições de palavras (3) sobre como o aplicativo de geração funcionou, por exemplo coloque os glifos na ordem do texto (o que, por exemplo, falhará horrendamente quando o texto de duas colunas for renderizado em ambas as colunas simultaneamente).
Para levar em conta a hifenização, seria necessário implementar um algoritmo que detectasse traços no final de uma linha (diferentes glifos poderiam ser usados para isso) e mesclasse a palavra (e considerasse as regras especiais de hifenização , por exemplo, para o alemão ck
).
Então, sim, isso pode ser feito, mas não facilmente, e então funcionaria apenas para alguns idiomas / scripts.