A questão é provavelmente que os caracteres que são renderizados usando a fonte do subconjunto têm uma codificação personalizada - a representação numérica dos caracteres não corresponde a ASCII, Latin-1 ou qualquer outra codificação comum.
Veja
- Codificação de fontes PDF
- Documento em PDF não pesquisável e impagável
- Como sei se as fontes em um arquivo PDF estão incorporadas ou não?
Isso significa que não há uma solução fácil.