Redefinindo mapeamentos Unicode em texto PDF

Question

Redefinindo mapeamentos Unicode em texto PDF

#1 resposta do (1 votos)

0

PDFs geralmente contêm fontes sem mapeamento explícito para Unicode, impedindo-nos de extrair o texto correto delas - amaldiçoá-lo, Adobe!

Eu preciso processar PDFs em lotes em um sistema Linux. Eu tenho vários exemplos aqui com linhas hifenizadas, mas para as quais nenhuma ferramenta tentei pode identificar os hifens; os resultados sempre contêm muitas meias-palavras quebradas.

Existe uma maneira de contribuir com mapeamentos de caracteres ausentes em vez de descartar os símbolos indefinidos?

pdf unicode linux character-encoding embedded-fonts

por Aaron Brick 08.12.2017 / 07:00

1 resposta

Tags pdf unicode linux character-encoding embedded-fonts

Como restaurar o Windows 8 da recuperação USB para a nova unidade? Categorize os dados da String no Excel usando If-Statements aninhados ou, alternativamente, uma Tabela de Consulta

score 1 · Accepted Answer

O exemplo PDF está codificado corretamente: ele inclui tabelas de fonte para unicode e, se eu tentar copiar e colar com mupdf , o hífen em Хлебникова no segundo parágrafo se tornará U + 00AD SOFT HYPHEN. Portanto, deve ser possível juntar palavras, se desejado, com um pouco de pós-processamento.

Infelizmente, para muitas ferramentas PDF, o suporte unicode está quebrado.

Identificar espaços em PDFs é difícil, porque o formato PDF não descreve espaços, apenas descreve onde os glifos são colocados na página. Portanto, o algoritmo de adivinhação de espaço na conversão de e-books parece estar abaixo do ideal, mas isso não tem nada a ver com a codificação.

AFAIK, mupdf não inclui uma ferramenta para extrair texto em lote, mas o googling localiza, por exemplo, este código de terceiros . Eu não tentei isso.