PDF baseado em imagem do OCR [duplicado]

2

Eu tenho um manual de > 200 páginas em pdf que foi produzido por digitalização de cópia impressa. Eu gostaria de convertê-lo para um formato de texto pesquisável, mas não estou tendo nenhum sucesso em encontrar uma ferramenta para fazer isso. Os resultados de pesquisa do Google são altamente poluídos com software de avaliação de software que só pode fazer as primeiras páginas do arquivo. O único aplicativo verdadeiramente gratuito que encontrei, o renderizador de pdf do FreeOCR não consegue lidar com nada além das primeiras páginas do arquivo.

O visualizador de pdf do Google faz o OCR; mas não parece fornecer nenhuma opção de exportação além de copiar / colar; além de ser muito tedioso, o que ele coloca na área de transferência é apenas texto simples; o que significa que eu perderia toda a arte da linha e formatação significativa devido ao posicionamento horizontal.

    
por Dan Neely 20.05.2012 / 17:44

1 resposta

2

Se você fizer o upload do seu PDF para o Google Drive (Documentos) e tiver suas configurações de conversão de upload para converter imagens em texto e, em seguida, converter o documento em um Documento Google (tudo isso pode ser feito no upload). Você deve então poder abrir o documento, clicar em arquivo > baixar como e selecione o formato que você quer?

Eu só fiz isso, é uma página de revista e funcionou bem, nem todas as fontes foram reconhecidas.

    
por 20.05.2012 / 18:19

Tags