Software Scan-to-PDF para Linux?

18

Eu tenho um fluxo de trabalho no qual digitalizo documentos em PDF pesquisáveis usando um Fujitsu ScanSnap S500 scanner de documentos. Eu não sou um grande fã do pacote de software, mas é muito simples de usar: coloque uma pilha de papel no topo, aperte o botão verde e um PDF pesquisável será lançado.

Agora, gostaria de fazer algo semelhante no Linux (Ubuntu 10.10). O scanner é suportado fora da caixa.

Eu olhei para gscan2pdf e XSane :

  • XSane parece poderoso, mas não é realmente adequado como uma solução de fluxo de trabalho;
  • gscan2pdf é um pouco mais próximo do "aperte o botão, pegue o PDF" ideal, mas ainda não está 100% lá.

Qualquer outro software que você possa recomendar (gratuito ou não)?

    
por NPE 12.12.2010 / 19:05

1 resposta

18

Aqui estão algumas coisas que encontrei quando pesquisei no começo deste ano. Desculpe, não posso postar mais de um hiperlink devido à minha classificação limitada, então você terá que procurar os links no Google.

gscan2pdf

Um sistema de GUI realmente bom que pode usar vários mecanismos de OCR para o back-end. Isso provavelmente atenderá a sua solução de um toque (e o digitxp já mencionou isso).

Motor OCR Tesseract

Pode ser usado com o gscan2pdf.

Ocropus

Eu não cheguei muito longe com o ocropus porque ele não estava reconhecendo texto sem treinamento extensivo. Provavelmente seria muito bom para livros, mas não funcionou bem para mim com contas e tal. YMMV.

Cuneiforme

Tive o melhor resultado com o Cuneiform e consegui criar PDFs pesquisáveis com scripts semelhantes ao seguinte fluxo de trabalho:

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html  

Você também precisará instalar o pacote de imagens exatas.

Vários projetos de código aberto para o uso de OCR em PDFs Cuniform e hocr2pdf também:

  • WatchOCR
  • Archivista

Deixe-me saber o que você descobriu!

    
por 13.12.2010 / 07:47