Aqui está uma maneira, que exigiria algumas ferramentas não tão comuns:
- ocrodjvu
-
pdfbeads , que possui seus próprios requisitos, que podem ser encontrados pelo Google
Podemos usar o comando djvu2hocr
(de ocrodjvu
package) para extrair a camada de texto oculta do arquivo DjVu (ele não faz nenhum OCR ou similar, apenas extrai a camada de texto com geometria), ou seja:
djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
A intervenção
sed
corrige os nomes das classes na saída hOCR (que é apenas um arquivo HTML simples)
Agora extraímos a página do DjVu para o formato TIFF com:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
para terminarmos com este arquivo na pasta de trabalho:
sample.djvu
pg10.html
pg10.tif
Aqui é onde pdfbeads
entra em jogo e nós executamos com simplicidade:
pdfbeads -o pg10.pdf
então este programa bacana cuida de tudo que está dentro dessa pasta (arquivos HTML e TIFF com o mesmo nome base) e produz arquivos PDF de saída com alguns subprodutos:
sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym
que é idêntico ao arquivo DjVu de entrada e possui uma camada de texto dentro:
Resumodoscomentários:
LongoscomentáriosabaixodiscutemrepresentandoimagensmenoresdapáginadodocumentoDjVucomoobjetosseparados,oquenãoéfacilmentepossívelporqueapáginadodocumentoDjVuéapenasumaúnicaimagemcomcamadadetextoopcional,sem"informações" sobre imagens menores como objetos separados. Se o documento DjVu tiver imagens coloridas, elas geralmente serão colocadas na camada de fundo; Nesse caso, o usuário pode aproveitar as ferramentas como ddjvu
(extrair apenas a camada de plano de fundo) e imagemagick
(corte automático) para gerar apenas imagens em vez de toda a tela, mas não pode ser automatizado para criar saída PDF
Outra abordagem mais simples, porém mais lenta, é o uso de ferramentas regulares de GUI do OCR. gscan2pdf
(> 1.0) é sugerido como possível candidato para o Linux PC