Eu acho que você está seguindo post de Michael Lissner para adicionar fonte personalizada para Tesseract.
Eu tentei a mesma coisa (o comando convert
) e me peguei com um TIFF corrompido que não podia ser aberto com qualquer aplicativo.
Então escolhi a alternativa da GUI. Eu escrevi meu texto no Scribus (porque ele me permitiu aumentar o espaçamento entre caracteres), depois exportado diretamente como TIFF do Arquivo - Exportar - Salvar como imagem < menu / strong>. Eu escolhi uma resolução de 300 DPI.
O que mais você pode tentar:
- O GIMP abre PDFs que podem ser salvos como TIFF
- Ghostscript:
gs -sDEVICE=tiffgray -r300x300 -dNOPAUSE -dBATCH -sOutputFile=<image_file> <input_pdf>
(converte todas as páginas, se for o caso)
Quais outros problemas você pode encontrar:
- Linux: se você instalou a versão do repo do Tesseract (pelo menos no Ubuntu), você não terá os executáveis necessários:
unicharset_extractor
emftraining
(ou eles não estão no caminho, porque o pacote deve inclua-os ).