Até onde eu sei, você tem duas opções:
-
Use ocrodjvu e pdfbeads como descrito aqui .
Os comandos relevantes assumindo que seu arquivo DJVU é chamado
sample.djvu
e você deseja converter a página 10 em PDF, incluindo a camada de texto:djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
pdfbeads -o pg10.pdf
-
Use Djview4 para converter o arquivo DJVU em PDF e use PDF-XChange Viewer para executar o OCR. Leva tempo, mas é muito bom (mesmo em documentos de duas colunas).
Em princípio, as duas opções devem funcionar no Mac, Windows e Linux. Para a opção 2. você precisará do Wine no Mac e no Linux.
Eu tentei a opção 1. com uma única página e ela não terminou em menos de 10 minutos em um laptop recente com um processador quad-core e 8 GB de RAM. YMMV.
A opção 2. levou duas horas em um documento de 50 páginas em um computador desktop recente com um processador quad-core e 16 GB de RAM, mas os resultados são impressionantes.