Redefinindo mapeamentos Unicode em texto PDF

0

PDFs geralmente contêm fontes sem mapeamento explícito para Unicode, impedindo-nos de extrair o texto correto delas - amaldiçoá-lo, Adobe!

Eu preciso processar PDFs em lotes em um sistema Linux. Eu tenho vários exemplos aqui com linhas hifenizadas, mas para as quais nenhuma ferramenta tentei pode identificar os hifens; os resultados sempre contêm muitas meias-palavras quebradas.

Existe uma maneira de contribuir com mapeamentos de caracteres ausentes em vez de descartar os símbolos indefinidos?

    
por Aaron Brick 08.12.2017 / 08:00

1 resposta

1

O exemplo PDF está codificado corretamente: ele inclui tabelas de fonte para unicode e, se eu tentar copiar e colar com mupdf , o hífen em Хлебникова no segundo parágrafo se tornará U + 00AD SOFT HYPHEN. Portanto, deve ser possível juntar palavras, se desejado, com um pouco de pós-processamento.

Infelizmente, para muitas ferramentas PDF, o suporte unicode está quebrado.

Identificar espaços em PDFs é difícil, porque o formato PDF não descreve espaços, apenas descreve onde os glifos são colocados na página. Portanto, o algoritmo de adivinhação de espaço na conversão de e-books parece estar abaixo do ideal, mas isso não tem nada a ver com a codificação.

AFAIK, mupdf não inclui uma ferramenta para extrair texto em lote, mas o googling localiza, por exemplo, este código de terceiros . Eu não tentei isso.

    
por 08.12.2017 / 11:19