Outra opção é o ScanTailor . Este programa é particularmente adequado para processar várias digitalizações de cada vez.
apt-get install scantailor
Infelizmente, ele só funciona em entradas de arquivo de imagem, mas é simples o suficiente para converter um PDF digitalizado em um jpg. Aqui está um one-liner que eu usei para converter um diretório inteiro de PDFs em jpgs. Se um PDF tiver páginas n , ele cria n arquivos jpg.
for f in ./*.pdf; do gs -q -dSAFER -dBATCH -dNOPAUSE -r300 -dGraphicsAlphaBits=4 -dTextAlphaBits=4 -sDEVICE=png16m "-sOutputFile=$f%02d.png" "$f" -c quit; done;
Eu tinha capturas de tela prontas para compartilhar, mas não tenho representante suficiente para publicá-las.
O ScanTailor é enviado para o tif, portanto, se você quiser os arquivos em PDF, poderá usá-lo para criar um PDF para cada página.
for f in ./*.tif; do tiff2pdf "$f" -o "$f".pdf -p letter -F; done;
Então você pode usar este one-liner, ou um aplicativo como o PDFShuffler para mesclar qualquer um ou todos os arquivos em um PDF.
gs -q -sPAPERSIZE=letter -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=output.pdf *.pdf