Perguntas sobre 'tesseract-ocr'

3
respostas

OCR Tesseract, erro de página vazia?

Eu o compilei de fontes com leptonica . Esta é uma imagem png com fundo transparente, que eu editei adicionando uma cor azul e ainda este erro: Tesseract Open Source OCR Engine v3.02.02 with Leptonica Empty page!! Empty page!! Aqui está...
18.01.2013 / 05:41
1
resposta

Tesseract OCR: tipo de imagem não suportado

Eu converti o PDF para o arquivo TIF usando os seguintes comandos no terminal convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-nam...
02.07.2014 / 10:45
2
respostas

Tesseract 3.03 inglês

O Tesseract 3.03 foi lançado recentemente e eu acabei de instalá-lo. No entanto, os dados em inglês não são fornecidos com o download (do link ). No site da Tesseract, há um link "Download", mas você só pode encontrar "dados em inglês para o Te...
26.05.2014 / 13:44
1
resposta

OCR com texto não linguístico

Estou interessado em usar o OCR para reconhecer texto de um documento que não contenha palavras. Pelo contrário, é um documento com uma longa seqüência de caracteres impressos "aleatórios". Eu tenho tentado usar o tesseract para escanear o texto...
28.08.2013 / 17:00
1
resposta

Como extrair o caractere Unicode do arquivo .png?

Eu quero extrair caracteres Unicode de arquivos .jpg e .png. Eu tento fazer isso usando o seguinte comando: tesseract 1.png output.txt Esse comando funciona para caracteres ingleses, mas quando eu o tento para Unicode como Hindi, Marat...
14.02.2016 / 17:01
1
resposta

Training Tesseract-OCR para fontes em inglês

Tenho cerca de 3000 pequenas imagens de palavras únicas que estou tentando converter em texto. Eu instalei o tesseract na minha máquina windows 7 usando o instalador e consegui imagens de OCR através de cmd e powershell. tesseract.exe imagen...
19.01.2011 / 20:51
1
resposta

Por que o Tesseract CLI show 'não pode criar um arquivo de saída' no Windows 7?

Instalei (ou pelo menos acho que executei um instalador) tessearct-ocr na minha máquina executando o Windows 7. de 64 bits. Estou tentando interagir com o programa através do cmd. para converter uma imagem .png em texto. Eu tentei tesserac...
19.01.2011 / 01:50
0
respostas

Situação OCR engraçada

Eu tenho um arquivo PDF de 300 dpi digitalizado com várias páginas em um sistema Ubuntu 16.04. Quando eu executo o seguinte comando: pdfocr -t -l swe -i *.pdf -o newfile.pdf Isso resulta em um arquivo de leitura de OCR. Cada palavra é...
30.06.2016 / 17:10
0
respostas

Como compactar PDFs codificados por Tesseract enquanto mantém texto incorporado do OCR?

Eu tenho experimentado com o uso do Tesseract para OCR my PDFs, e tem sido bem-sucedido principalmente, particularmente com textos em alemão do Fraktur (o antigo estilo gothic print), que ferramentas como o Adobe Acrobat não reconhecem corretamen...
16.05.2016 / 01:52
1
resposta

Tesseract hocr e txt ao mesmo tempo, ou convertendo de Tesseracts hocr para txt

Tenho andado a brincar com o software Linux OCR e gosto muito do Tesseract, especialmente em conjunto com o gsan2pdf. O Tesseract v3 ou superior suporta a saída no formato hocr, e o gscan2pdf pode fazer uso disso para criar PDFs pesquisáveis de...
16.05.2013 / 22:57