Converter imagem em texto

Question

Converter imagem em texto

#1 resposta do (15 votos)
#2 resposta do (0 votos)

8

Eu obtive um documento de imagem digitalizada do banco e quero convertê-lo em um documento de texto normal com imagens no Ubuntu.

Existe alguma ferramenta para isso?

conversion linux ubuntu software-rec

por joe 25.09.2009 / 11:15

2 respostas

0

Você precisa primeiro instalar o "tesseract-ocr" na sua máquina linux.

sudo apt-get install tesseract-ocr

Você pode fazer isso manualmente a partir do CLI ou eu fiz um código PHP para o mesmo, você pode usá-lo se quiser.

Nota: Para executar este código, o comando exec deve ser ativado no php.ini

<?php
//IMAGE TO TXT Conversion
    $input_file = $_REQUEST['input_file'];
    $out = explode(".",$input_file);

    $output_file = $out[0]."_".$out[1];
    $output_file_name  =    $output_file.".txt";

    echo "<br />----IMAGE To TXT conversion Started-----</br />";
    echo  exec('tesseract '.$input_file.' '.$output_file);
    echo "<br />----TXT conversion Done-----</br />";

    echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
    echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />"; 
?>

coloque este código na pasta raiz e acesse-o no navegador,

por exemplo:

http://yourserver.com?input_file=1.png

Nota: o arquivo 1.png deve estar presente em seu diretório atual.

Não tenho direitos para enviar imagens, usei esta imagem como referência, link

por 25.02.2014 / 15:35

Tags conversion linux ubuntu software-rec

Faça o emacs não remover o BOM dos arquivos XML listas com marcadores para documentos em texto simples no Vim

score 15 · Accepted Answer

Existem vários leitores OCR para o linux que podem converter de imagem em texto. Veja as seguintes opções:

Todos os acima, exceto ocropus, estão presentes no repositório do Ubuntu em um pacote com o mesmo nome.

Diferentes leitores suportam diferentes formatos de imagem, então você pode estar limitado em suas opções pelo formato de arquivo em que seu documento se encontra. Alternativamente, você pode usar o converter ferramenta do ImageMagick para alterar o formato se você quiser usar um leitor de OCR específico.

Adaptado da minha resposta aqui .