OCR do Tesseract
O mecanismo original foi desenvolvido no final dos anos 80 pela HP e IBM, mas provou ser um dos melhores softwares de reconhecimento ocular que usei. Ele passou recentemente por muitas atualizações no mecanismo e se tornou uma das ferramentas de OCR mais abrangentes do mercado. Outscoring contra quase todas as outras ferramentas de OCR (com algo no maior percentil 90 de correspondências de texto) ele pode facilmente transformar o tipo de documento padrão em texto.
O seguinte é um exemplo:
tesseract ScannedDocument.png out
Produzirá um arquivo chamado out.txt