Tesseract OCR: tipo de imagem não suportado

5

Eu converti o PDF para o arquivo TIF usando os seguintes comandos no terminal

convert -density 300 -depth 4 lang.font-name.exp0.pdf lang.font-name.exp0.tif

convert lang.font-name.exp0.tif -colorspace rgb -type truecolor lang.font-name.exp0.tif

Então eu tentei executar o comando makebox ,

tesseract lang.font-name.exp0.tif lang.font-name.exp0 batch.nochop makebox

que produziu o seguinte erro:

Tesseract Open Source OCR Engine v3.02.02 with Leptonica Error in findTiffCompression: function not present Error in pixReadStreamTiff: function not present Error in pixReadStream: tiff: no pix returned Error in pixRead: pix not read Unsupported image type.

E supondo que seja algo relacionado ao libtiff , executei o comando tesseract -v e achei (ou adivinhei) que estava faltando

tesseract 3.02.02 leptonica-1.70 libjpeg 8d : libpng 1.6.10 : zlib 1.2.5

Produz a mesma coisa mesmo se eu desinstalar e reinstalar o lib tiff. Não tenho certeza do que estou sentindo falta aqui. Por favor, conselhos!

brew rm -f libtiff brew cleanup brew missing brew doctor find /usr/local -user root brew install libtiff

Saída do comando brew info leptonica

Editar#1

ProduziuestearquivotiffusandoGhostScript,queretornaomesmoerroquandotentoexecutarocomandomakebox.Talvezhajaalgomaisqueeuestejasentindofalta?Eudefinicomo50+comotamanhodafonte,estábem?

link (~ 4 MB)

Editar # 2

Eu criei uma página tif usando GhostScript , mesmo que não esteja funcionando ??

link (~ 60 KB)

    
por Nina 02.07.2014 / 10:45

1 resposta

3

Eu acho que você está seguindo post de Michael Lissner para adicionar fonte personalizada para Tesseract.

Eu tentei a mesma coisa (o comando convert ) e me peguei com um TIFF corrompido que não podia ser aberto com qualquer aplicativo.

Então escolhi a alternativa da GUI. Eu escrevi meu texto no Scribus (porque ele me permitiu aumentar o espaçamento entre caracteres), depois exportado diretamente como TIFF do Arquivo - Exportar - Salvar como imagem < menu / strong>. Eu escolhi uma resolução de 300 DPI.

O que mais você pode tentar:

  • O GIMP abre PDFs que podem ser salvos como TIFF
  • Ghostscript: gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf> (converte todas as páginas, se for o caso)

Quais outros problemas você pode encontrar:

  • Linux: se você instalou a versão do repo do Tesseract (pelo menos no Ubuntu), você não terá os executáveis necessários: unicharset_extractor e mftraining (ou eles não estão no caminho, porque o pacote deve inclua-os ).
por 02.07.2014 / 12:01