O exemplo PDF está codificado corretamente: ele inclui tabelas de fonte para unicode e, se eu tentar copiar e colar com mupdf
, o hífen em Хлебникова no segundo parágrafo se tornará U + 00AD SOFT HYPHEN. Portanto, deve ser possível juntar palavras, se desejado, com um pouco de pós-processamento.
Infelizmente, para muitas ferramentas PDF, o suporte unicode está quebrado.
Identificar espaços em PDFs é difícil, porque o formato PDF não descreve espaços, apenas descreve onde os glifos são colocados na página. Portanto, o algoritmo de adivinhação de espaço na conversão de e-books parece estar abaixo do ideal, mas isso não tem nada a ver com a codificação.
AFAIK, mupdf
não inclui uma ferramenta para extrair texto em lote, mas o googling localiza, por exemplo, este código de terceiros . Eu não tentei isso.