Se a conversão para o djvu também estiver ok e se nenhuma cor estiver envolvida, você pode tentar o seguinte:
Converta o pdf em arquivos jpg usando pdfimages -j
Se você receber arquivos pbm, deverá fazer a etapa intermediária:
for FILENAME in $(ls *.pbm); do convert $FILENAME ${FILENAME%.*}.jpg ;done
O comando convert é do pacote imagemagick.
Então use scantailor para deixar o tif fora disso.
Em um último passo, você vai para o scentailors (onde o tif está localizado) e aplica djvubind a esse diretório.
Isso deve reduzir drasticamente o tamanho do arquivo sem grande perda de qualidade do texto. Se você quer um controle mais preciso sobre o ocr-backend, você pode tentar djvubind --no-ocr
e usar ocrodjvu para adicionar a camada de ocr depois.
Se você tem cores em seu documento, as coisas ficam um pouco mais complicadas. Em vez de djvubind , você pode usar didjvu e no scantailor você tem que mudar para o modo misto e selecionar algumas vezes imagens coloridas manualmente.