Teseract parece ser o melhor. link
As resenhas parecem dizer que é a única que bate novamente as coisas. link link
As pessoas não gostam do google? 5 min lendo o que eu puxei com "linux ocr" como meus termos de pesquisa.
Eu preciso de um servidor baseado em Linux que possa ser configurado para receber imagens e transformá-las em texto que será inserido em um banco de dados. Isso é possível, especialmente por meio de uma API, para permitir que a organização interaja com o serviço, se necessário?
Eu tive um projeto que exigia OCR. Você pode usar o GOCR para a parte de OCR. Para conversão em pbm formato de imagem você pode usar o djpeg. Se você precisa estar integrado com a web, você pode chamar conversion / ocr do PHP, também de aqui para implementar o salvamento do banco de dados.
Eu configurei uma fila de mensagens e enviei tarefas para ela para processamento. Tudo o que você realmente precisa fazer é enviar o arquivo como uma imagem para uma plataforma de armazenamento compartilhado, talvez o GlusterFS ou similar, depois enviar o nome do arquivo e o caminho para uma fila de mensagens, para processamento. Tudo o que você precisa fazer é configurar um processo para ouvir a fila e executar o gocr, empurrando os dados de saída para o banco de dados.
Fácil .. Na Teoria. ;)
Você já olhou para WatchOCR ? É um servidor OCR gratuito e de código aberto que transforma PDFs somente de imagem em PDFs pesquisáveis por texto a partir de uma pasta monitorada ou compartilhamento de rede.
Tags ocr