Estou tentando copiar texto de um PDF, mas recebo lixo

4

Estou tentando copiar texto de um arquivo PDF , mas recebo lixo. Estou usando o Document Reader no Ubuntu para ler o documento. Não é como se não permitisse que eu copiasse, mas apenas que o texto copiado se parece com isso:

RFRPSLOHJFFDUSVQLIIHUFRDUSVQLIIOSFDS    

5XQDVURRW

LQFOXGHSFDSK!
LQFOXGHVWGOLEK!
LQFOXGHVWULQJK!

$53+HDGHUDVVXPLQJ(WKHUQHW,3Y

GH¿QH$53B5(48(67
$535HTXHVW

GH¿QH$53B5(3/<
$535HSO\

W\SHGHIVWUXFWDUSKGU^
XBLQWBWKW\SH
+DUGZDUH7\SH

XBLQWBWSW\SH
3URWRFRO7\SH

XBFKDUKOHQ
+DUGZDUH$GGUHVV/HQJWK

XBFKDUSOHQ
3URWRFRO$GGUHVV/HQJWK

XBLQWBWRSHU
2SHUDWLRQ&RGH

XBFKDUVKD>@
6HQGHUKDUGZDUHDGGUHVV

XBFKDUVSD>@
6HQGHU,3DGGUHVV

XBFKDUWKD>@
7DUJHWKDUGZDUHDGGUHVV

XBFKDUWSD>@
7DUJHW,3DGGUHVV

O que posso fazer para corrigir isso? sua grande quantidade de dados demorará muito tempo para digitar.

Além disso, aliás, o texto colado ficou assim no gedit (Ubuntu):

(note que parece diferente quando colado aqui nesta questão!)

Sinto que, de alguma forma, é um problema de codificação, mas não tenho como saber como consertar isso.

    
por Chani 28.01.2012 / 22:46

1 resposta

2

O texto subjacente é distorcido. Eu acho que o @skub está correto ao pensar que pode ser de propósito. Uma maneira de obter o texto seria exportar cada página como uma imagem (por exemplo, .jpg ou .png ) e, em seguida, digitalizar as imagens com OCR software. Eu pude testar isso no Windows 7 com o Adobe Acrobat X; funcionou.

Atualização:

Se o visualizador de documentos tiver um recurso semelhante, copy with formatting copia o texto conforme o esperado. Indo mais fundo, posso confirmar que as fontes incorporadas todas têm uma codificação personalizada .

    
por 28.01.2012 / 23:46