digitalizar A4 doc pdf para traduzir para inglês?

2

Eu tentei usar uma combinação de

  • meu scanner doméstico para criar um '300 dpi', 'documento', 'pdf' (opções no Canon all-in-one)
  • ZoHoViewer para criar um arquivo RTF ou TXT
  • Google docs para traduzir

Não tenho certeza de quão bom ou ruim é um produto ZoHoViewer, mas o seguinte:

Als Arbeitsmarkbehörde haben wir den gesetzlichen Auftrag, die Vermittelbarkeit von

se transforma em:

AlsArbeitsmarktbeh6rde habenwirdengesetzlichenAuftrag, dieVermittelbarkeit vonSt ...

conseqüentemente, os documentos do goog fazem o café da manhã de um porco tentando traduzi-lo.

Alguém tem sugestões melhores (de preferência serviços online gratuitos)

    
por adolf garlic 18.01.2010 / 20:38

3 respostas

0

Não é 100% perfeito, mas o melhor de todas as coisas que tentei:

link combinado com um pacote de idiomas (gratuito para baixar instruções no aplicativo) copie e cole todo o texto em um google doc, então use as ferramentas > traduzir no google docs

    
por 29.01.2010 / 18:17
5

Houve várias outras perguntas sobre o SuperUser no OCR, o que pode valer a pena verificar possíveis soluções.

Mais notavelmente esta resposta de Molly parece promissora:

I really like TopOCR, certainly a great addition to your scan tools:

  • Incredible OCR accuracy, upto 99.8% with a 3 MP camera
  • No page limits, and no extra downloads or components needed
  • Handles images with mixed text and graphics (Manual or Auto Zoning)
  • Tolerates skew and uneven lighting
  • Multiple text output formats, including searchable PDF and HTML
  • Able to read 11 different languages
  • Powerful, easy to use Image Processing with Image Dewarping
  • Supports Smartphones: See some Smartphone samples
  • Includes built-in, full featured Text and Image WYSIWYG Editors
  • Post-processing spell checker for all 11 languages
  • Built-in Text-To-Speech software. How about OCR to MP3?
  • Includes a built-in multi-lingual text translater
  • Supports a Command Line Interface and a GUI
  • Make a high performance document Search and Indexing system
  • Browser Helper Mode supports creating free audio eBooks
  • With TopOCR's Web Engine it's easy to add new features

alt text

it's very accurate and works excellent with low quality images such as photographs of pages/documents

TopOCR is freeware (can be made portable with Universal Extractor)

Leitura adicional:

Qual software de OCR tem mais opções?

Solução prática de OCR para converter um livro grande para um formato digital?

Como extrair texto com OCR de um PDF no Linux?

    
por 18.01.2010 / 21:09
4

Dado que o OCR converteu:

Als Arbeitsmarkbehörde ...

para:

AlsArbeitsmarktbeh6rde ...

Algumas coisas vêm à mente.

  1. Tente digitalizar com um dpi maior. Parece que não é possível reconhecer o espaço entre as palavras, um dpi maior pode melhorar isso.

  2. Você pode definir o idioma do seu programa de OCR? Eu vejo que é convertido o "ö" para um "6". Embora isso possa ser um problema causado pela resolução, também pode ser que, como "ö" não é uma parte cotidiana do inglês, o programa está escolhendo o "melhor ajuste seguinte" - neste caso, "6".

por 18.01.2010 / 21:38