Extraindo texto de um livro digitalizado .PDF [closed]

6

Eu digitalizei um livro em formato PDF, mas a qualidade é bastante ruim:

(A língua é romena e é um livro de fisiologia médica, caso você esteja se perguntando)

Eu quero extrair o texto do livro (1500 páginas), mas manter as imagens como elas são. Eu realmente acho que não tenho nenhuma chance de encontrar uma solução, então eu certamente vou comprar o livro.

No offchance, existe algum software poderoso que possa fazer o que eu estou procurando? Também tem que reconhecer romeno.

    
por ChristianM 01.11.2009 / 23:33

7 respostas

1

Eu comprei o livro!

    
por 10.11.2009 / 08:58
6

Eu postei anteriormente um answer detalhando como usar Cuneiforme (código-fonte aberto software) para fazer o OCR em arquivos PDF e como criar um arquivo PDF com o texto reconhecido em uma camada de texto oculta "atrás" da imagem original. Tanto quanto eu sei, Cuneiform realmente suporta romeno também.

Embora a solução específica seja para o Linux, o Cuneiform também está disponível para o Windows.

    
por 02.11.2009 / 12:12
2

O Adobe Acrobat Professional pode fazer isso. Não tenho certeza se existe uma versão romena ...

    
por 02.11.2009 / 00:29
2

O ABBYY Fine Reader é um software OCR muito strong. Ele lida com layouts muito complexos e suporta muitos formatos (incluindo pdf). O romeno é suportado com dicionário, isto é, o software usa dicionário para priorizar hipóteses durante o reconhecimento. ( aqui ).

Em qualquer caso, a literatura científica de OCR-ing, com baixa qualidade de digitalização, é uma tarefa difícil. Esteja preparado para gastar muito tempo para ajudar o software com os resultados a verificar e a definir as correções. Na sua digitalização, vejo muito texto de baixa qualidade :(. Eu não acho que nenhum software OCR funcione normalmente com ele.

    
por 03.11.2009 / 10:55
1

Recognita OmniPage é de longe o melhor programa de OCR que já tive usava. Tenho certeza de que reconhecerá o texto romeno; não teve nenhum problema com o meu húngaro nativo. Você pode baixar uma versão de avaliação do link e usá-la para converter seu livro. Infelizmente, a versão completa é bem cara ($ 499,99) ...

    
por 03.11.2009 / 09:02
0

Bem, para reconhecimentos de texto, um geralmente procura por programas OCR (reconhecimento óptico de caracteres). Há uma variedade deles por aí, então uma simples pesquisa no google fará mais bem do que eu aqui.

Eu não entendi a última parte "reconhecer romeno" - você quer dizer que tem que reconhecer a língua romena, ou ser localizada (traduzida) para romeno? No caso do primeiro, acredito que não haverá problema; se o segundo for o caso, então não tenho tanta certeza.

Além disso, se não for um livro de seus conterrâneos locais, então há uma chance de que ele já esteja traduzido em inglês ... então se você o tiver em pdf em romeno, tente procurar por uma versão em inglês ... O único problema é que você sabe ... ilegal (às vezes não se tem escolha).

    
por 02.11.2009 / 01:26
-1

Experimente o PDFCubed.com . É um serviço de OCR on-line que facilita a criação de PDF de texto pesquisável. Os documentos digitalizados podem ser enviados via web, email ou caixa de depósito.

    
por 19.11.2010 / 18:49

Tags