como extrair texto do pdf com fontes subconjunto incorporadas

1
O

Pdftotext do xpdf está funcionando bem para o arquivo normal de fontes incorporadas, mas falha quando há fontes de subconjuntos incorporados. Existe alguma solução para este problema?

    
por Nishanth Lawrence 08.10.2013 / 11:20

2 respostas

0

A questão é provavelmente que os caracteres que são renderizados usando a fonte do subconjunto têm uma codificação personalizada - a representação numérica dos caracteres não corresponde a ASCII, Latin-1 ou qualquer outra codificação comum.

Veja

Isso significa que não há uma solução fácil.

    
por 08.10.2013 / 11:23
0

Nessa situação, imprimi os PDFs usando a impressora Adobe PDF por meio de uma imagem de alta resolução (1200 dpi +) e alta qualidade (qualquer configuração possível). Então, eu oculto o PDF da imagem, deixando-me com um PDF pesquisável e viável.

Quando tenho muitos PDFs para fazer em milhares de páginas, abri várias janelas PDF ao mesmo tempo para fazer isso simultaneamente usando vários núcleos para vários PDFs. É um PITA, mas funciona.

Espero que seus arquivos sejam pequenos! Eu fiz isso para mais de 10.000 páginas uma vez (construindo livros de código). Não é divertido.

    
por 08.10.2013 / 11:45