Como posso especificar o idioma a ser usado pelo Tesseract ao usar o OCRFeeder?

5

Estou usando o utilitário OCR do OCRFeeder . OCRFeeder está usando o tesseract -engine. Eu instalei os vários pacotes de idiomas necessários para o tesseract. Como posso definir o idioma de modo que o tesseract use o arquivo de idioma correto para converter o documento digitalizado em texto?

    
por Bernard Decock 10.02.2011 / 19:44

1 resposta

3

Você precisa configurar a linha de comando do mecanismo nas configurações do OCR Feeder. Deveria se parecer com:

-l lang_id $IMAGE $FILE; cat $FILE.txt

Onde lang_id é o id como mostrado no nome do pacote de idioma correspondente.

    
por João Pinto 11.02.2011 / 23:34

Tags