Digitalize várias páginas diretamente em um PDF

33

Existe algum programa fácil de usar no Ubuntu que pode digitalizar muitas páginas diretamente em um arquivo PDF?

    
por pupeno 03.10.2010 / 10:50

5 respostas

37

A idéia de ter um utilitário simples de varredura estava por trás do desenvolvimento de, bem, Simple Scan - a ferramenta de varredura instalada por padrão a partir de 10.04 (Applications ‣ Graphics ‣ Simple Scan).

BastadigitalizarquantaspáginasdesejareescolherPDFcomoformatodearquivoaosalvar.

Outroprogramaumpoucomenossimplesqueoferecerecursosadicionaiscomoreconhecimentodetextoégscan2pdf,tambémnosrepositórios.

    
por Marcel Stimberg 03.10.2010 / 12:10
5

"Fácil de usar" está no olho do usuário, mas xsane fornece essa funcionalidade. Escolha multipage onde diz visualizador (ou pressione CTRL-M), e não deve ser muito difícil descobrir de lá.

    
por Karl Bielefeldt 03.10.2010 / 11:40
3

Eu estava usando xsane até que eu vi essa pergunta e considerei sua interface idiossincrática para dizer o mínimo, mas eficaz.

Depois de ver essa pergunta, eu procurei e encontrei o gscan2pdf que vive nos repositórios do Ubuntu Lucid / Maverick. Ele usa o mesmo mecanismo de varredura (libsane), mas a interface do usuário é muito mais do que o Gnome-ish. Por um bom tempo, tente:

sudo apt-get install gscan2pdf
    
por msw 03.10.2010 / 12:11
3

Altere o nome do arquivo de myfile.jpg para myfile.pdf na caixa de diálogo salvar do Simple Scan.

Testado no Ubuntu 14.04, Simple Scan 3.12.1.

Isso funciona mesmo que o menu suspenso do tipo de arquivo não mostre "PDF", apenas "Imagens". Eu considero isso um bug da interface do usuário.

Esta funcionalidade está documentada em Help > Contents :

From the "Save As" dialog box, choose one of the supported file types, or simply change the extension in the "Name" field.

Ele diz que os seguintes formatos são suportados:

  • PDF
  • JPEG
  • PNG
  • TIFF

Fato interessante: se você alterar o tipo de verificação (suspenso além de "Digitalizar") para "Texto", o tipo de arquivo padrão se tornará PDF.

    
1

Digitalize páginas do scanner USB. Use o tesseract para o OCR em um PDF. Mesclar várias páginas em um PDF. Uso: scan2PDF outputfilename number_of_pages

#!/bin/bash
#scan2PDF
#Requires:      tesseract 3.03 for OCR to PDF
#               scanimage for scanning, I use  1.0.24
#               pdfunite to merge multiple PDF into one, I use 0.26.5
#
#       Use scanimage -L to get a list of devices.
#       e.g. device 'genesys:libusb:006:003' is a Canon LiDE 210 flatbed scanner
#       then copy/paste genesys:libusb:006:003 into SCANNER below.
#       play with CONTRAST to get good images
DPI=300
TESS_LANG=nor  #Language that Tesseract uses for OCR
SCANNER=genesys:libusb:006:003  #My USB scanner
CONTRAST=35   #Contrast to remove paper look

FILENAME=$1 #Agrument 1,filename
PAGES=$2    #Argument 2, number of pages

re='^[0-9]+$'  #Check if second argument is a number
if ! [[ ${PAGES} =~ $re ]] ; then
   echo "error: Usage: $0 filename number_of_pages" >&2; exit 1
fi

SCRIPT_NAME='basename "$0" .sh' #Directory to store temporary files
TMP_DIR=${SCRIPT_NAME}-tmp

if [ -d ${TMP_DIR} ]  #Check if it exists a directory already
then
        echo Error: The directory ${TMP_DIR} exists.
        exit 2
fi
mkdir ${TMP_DIR}  #Make and go to temp dir
cd ${TMP_DIR}

echo Starts Scanimage...
scanimage -d ${SCANNER} --format=tiff --mode Color --resolution ${DPI} -p --contrast ${CONTRAST} --batch-start=1 --batch-count=${PAGES}  --batch-prompt


echo Starts Tesseract OCR

for file in  *.tif  #Goes through every tif file in temp dir
do
        tesseract $file  ${file%.tif} -l ${TESS_LANG} pdf

done

if [ "$PAGES" = "1" ] #How many pages
then
    cp out1.pdf ../${FILENAME}.pdf  #Only one page, just copy the PDF back
else
        for file in *.pdf  #More pages, merge the pages into one PDF and copy back
    do
            pdfuniteargs+=${file} 
            pdfuniteargs+=" "
    done
    pdfunite $pdfuniteargs ../${FILENAME}.pdf
fi
    echo ${FILENAME}.pdf done

rm *                    #Done, clean up
cd ..
rmdir ${TMP_DIR}
    
por morten 12.02.2016 / 14:52

Tags