Converter imagem em texto

8

Eu obtive um documento de imagem digitalizada do banco e quero convertê-lo em um documento de texto normal com imagens no Ubuntu.

Existe alguma ferramenta para isso?

    
por joe 25.09.2009 / 13:15

2 respostas

15

Existem vários leitores OCR para o linux que podem converter de imagem em texto. Veja as seguintes opções:

Todos os acima, exceto ocropus, estão presentes no repositório do Ubuntu em um pacote com o mesmo nome.

Diferentes leitores suportam diferentes formatos de imagem, então você pode estar limitado em suas opções pelo formato de arquivo em que seu documento se encontra. Alternativamente, você pode usar o converter ferramenta do ImageMagick para alterar o formato se você quiser usar um leitor de OCR específico.

Adaptado da minha resposta aqui .

    
por 25.09.2009 / 13:35
0

Você precisa primeiro instalar o "tesseract-ocr" na sua máquina linux.

sudo apt-get install tesseract-ocr

Você pode fazer isso manualmente a partir do CLI ou eu fiz um código PHP para o mesmo, você pode usá-lo se quiser.

Nota: Para executar este código, o comando exec deve ser ativado no php.ini

<?php
//IMAGE TO TXT Conversion
    $input_file = $_REQUEST['input_file'];
    $out = explode(".",$input_file);

    $output_file = $out[0]."_".$out[1];
    $output_file_name  =    $output_file.".txt";

    echo "<br />----IMAGE To TXT conversion Started-----</br />";
    echo  exec('tesseract '.$input_file.' '.$output_file);
    echo "<br />----TXT conversion Done-----</br />";

    echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
    echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />"; 
?>

coloque este código na pasta raiz e acesse-o no navegador,

por exemplo:

http://yourserver.com?input_file=1.png

Nota: o arquivo 1.png deve estar presente em seu diretório atual.

Não tenho direitos para enviar imagens, usei esta imagem como referência, link

    
por 25.02.2014 / 16:35