Estou tentando copiar texto de um PDF, mas recebo lixo

Question

Estou tentando copiar texto de um PDF, mas recebo lixo

#1 resposta do (2 votos)

4

Estou tentando copiar texto de um arquivo PDF , mas recebo lixo. Estou usando o Document Reader no Ubuntu para ler o documento. Não é como se não permitisse que eu copiasse, mas apenas que o texto copiado se parece com isso:

RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS    

5XQDVURRW

LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!

$53+HDGHUDVVXPLQJ(WKHUQHW,3Y

GH¿QH$53B5(48(67
$535HTXHVW

GH¿QH$53B5(3/<
$535HSO\

W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH

XBLQWBWSW\SH
3URWRFRO7\SH

XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK

XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK

XBLQWBWRSHU
2SHUDWLRQ&RGH

XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV

XBFKDUVSD>@
6HQGHU,3DGGUHVV

XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV

XBFKDUWSD>@
7DUJHW,3DGGUHVV

O que posso fazer para corrigir isso? sua grande quantidade de dados demorará muito tempo para digitar.

Além disso, aliás, o texto colado ficou assim no gedit (Ubuntu):

(note que parece diferente quando colado aqui nesta questão!)

Sinto que, de alguma forma, é um problema de codificação, mas não tenho como saber como consertar isso.

pdf encoding ubuntu

por Chani 28.01.2012 / 21:46

1 resposta

Tags pdf encoding ubuntu

Como posso impedir que o zsh faça a autocorreção nos comandos apropriados? aplicação DOS para permitir gerenciamento remoto de arquivos através de link serial

score 2 · Accepted Answer

O texto subjacente é distorcido. Eu acho que o @skub está correto ao pensar que pode ser de propósito. Uma maneira de obter o texto seria exportar cada página como uma imagem (por exemplo, .jpg ou .png ) e, em seguida, digitalizar as imagens com OCR software. Eu pude testar isso no Windows 7 com o Adobe Acrobat X; funcionou.

Atualização:

Se o visualizador de documentos tiver um recurso semelhante, copy with formatting copia o texto conforme o esperado. Indo mais fundo, posso confirmar que as fontes incorporadas todas têm uma codificação personalizada .