Existe um programa freeware para editar o fluxo de texto de PDFs?

5

Os PDFs são um excelente formato de arquivo para imagens digitalizadas, mas o Acrobat não permite editar a camada de texto do documento (a parte que pode copiar e colar), deixando você com apenas o OCR bruto. Existem alternativas de freeware que permitem editar a camada de texto?

    
por Emil 24.06.2010 / 17:42

3 respostas

1

Editores gratuitos de PDF são muito escassos.

O único gratuito que eu conheço é o OpenOffice com Extensão de importação de PDF da Sun .

Do artigo do techsupportalert Um arquivo PDF permite a edição no layout 100% Precisão :

Sun PDF Import ExtensionOpenOffice with Sun PDF Import Extension produces a hybrid PDF / ODF file. The file created will have a normal .pdf file extension. By itself, it is a PDF file and can be viewed by any PDF viewer such as Adobe Reader, PDF-XChange Viewer or Foxit Reader.

On top of this, it contains a source ODF file, which can be opened with OpenOffice directly from the PDF file for editing without loosing any layouts, bookmarks, hyperlinks or formats.

To create a hybrid PDF file, run OpenOffice with Sun PDF Import Extension installed, select "File", choose "Export as PDF", a PDF Options window like the screen shot will open, then tick "Create hybrid file" and click "Export".

This hybrid PDF file saves you in keeping two separate file formats as it has combined two into one. It is ready for sharing and viewing with a PDF reader, yet it can be opened for perfect editing just the way a normal OpenOffice file can be. Probably it will be a good idea to name the hybrid file ending with "-odf.pdf" to differentiate from the normal PDF file.

Sun PDF Import Extension is compatible with OpenOffice.org (3.0 or later) or StarOffice 9.

    
por 24.06.2010 / 19:51
1

Um documento digitalizado convertido em PDF inicialmente não contém nenhum texto . É composto de páginas cobertas por uma imagem de pixel de página inteira. Esta imagem pode ou não conter áreas que parecem as mesmas formas de caracteres, identificadas por cérebros humanos como letras e "texto".

Programaticamente, não é texto, apenas pixels.

Para inserir em um PDF derivado de imagens digitalizadas algo que seja real texto , só é possível empregar um processo de OCR. Isto irá adicionar uma camada extra de conteúdo às páginas PDF. Essa camada extra conteria todos os caracteres identificados (ou identificados incorretamente) por trás das formas de pixel como glifos reais a partir de uma fonte real. No entanto, esses caracteres de texto real têm uma marcação especial em PDF, marcando-os para não serem renderizados visualmente por um visualizador (ou ao imprimir). Seus existens só apareceriam quando pesquisando (ou destacando) o texto (ou ao tentar copiar e colar as áreas da imagem enquanto a Acrobat Text Touchup Tool estivesse ativa) .

Portanto, esta é a sua verdadeira pergunta: "Os resultados do OCR dos meus documentos PDF digitalizados estão abaixo do ideal. Nem todos os caracteres estão identificados corretamente. Quero editar o texto oculto para melhorar o resultado do OCR. Como faço isso com uma ferramenta gratuita? " ?

Editar: Normalmente não estou usando o Acrobat. Mas agora eu tive a oportunidade de olhar para uma versão 9.1.3 Professional no PC de um colega.

A primeira coisa que verifiquei: É realmente verdade que o Acroabat não permite editar o texto do OCR?

Resposta: Não, não é verdade. Eu poderia usar o mecanismo de OCR incorporado do Acrobat para capturar o texto de um documento digitalizado aleatório que eu pesquisei e baixei do Google na Web. Depois disso, este texto foi perfeitamente editável com a TouchUp Text Tool disponível através da entrada do menu Edição Avançada .

Procedimento:

  1. Inicie o Acrobat Professional; carregar seu documento PDF digitalizado.
  2. No menu Documento , clique em Reconhecimento de texto OCR e selecione Reconhecer texto usando OCR .
  3. Decida quais páginas você deseja usar como OCR na janela Reconhecer texto .
  4. Inicie o processo e aguarde até que seja concluído.
  5. Agora, use o menu Ferramentas , * Edição avançada "e inicie a Ferramenta de texto Retoque .
  6. A partir daqui, você mesmo resolverá o problema ...
por 24.06.2010 / 23:06
0

Aparentemente, o que você entende por "fluxo de texto" são os dados de texto do PDF. Não tenho certeza. Se for esse o caso, eu uso a área de transferência padrão e qualquer editor somente de texto, eu uso o KEDIT por causa de seus recursos de edição de coluna, para capturar os dados e editá-los. O problema é que você perde qualquer formatação com isso e às vezes com as tabelas a ordem dos dados fica confusa. Mas, para capturas simples, funciona.

    
por 24.06.2010 / 18:34