Software Scan-to-PDF para Linux?

Question

Software Scan-to-PDF para Linux?

#1 resposta do (18 votos)

18

Eu tenho um fluxo de trabalho no qual digitalizo documentos em PDF pesquisáveis usando um Fujitsu ScanSnap S500 scanner de documentos. Eu não sou um grande fã do pacote de software, mas é muito simples de usar: coloque uma pilha de papel no topo, aperte o botão verde e um PDF pesquisável será lançado.

Agora, gostaria de fazer algo semelhante no Linux (Ubuntu 10.10). O scanner é suportado fora da caixa.

Eu olhei para gscan2pdf e XSane :

XSane parece poderoso, mas não é realmente adequado como uma solução de fluxo de trabalho;
gscan2pdf é um pouco mais próximo do "aperte o botão, pegue o PDF" ideal, mas ainda não está 100% lá.

Qualquer outro software que você possa recomendar (gratuito ou não)?

pdf scanning linux

por NPE 12.12.2010 / 18:05

1 resposta

Tags pdf scanning linux

Substituição de fontes com ~ / .fonts.conf Realce de texto no visualizador padrão do Windows CHM

score 18 · Accepted Answer

Aqui estão algumas coisas que encontrei quando pesquisei no começo deste ano. Desculpe, não posso postar mais de um hiperlink devido à minha classificação limitada, então você terá que procurar os links no Google.

gscan2pdf

Um sistema de GUI realmente bom que pode usar vários mecanismos de OCR para o back-end. Isso provavelmente atenderá a sua solução de um toque (e o digitxp já mencionou isso).

Motor OCR Tesseract

Pode ser usado com o gscan2pdf.

link

Ocropus

Eu não cheguei muito longe com o ocropus porque ele não estava reconhecendo texto sem treinamento extensivo. Provavelmente seria muito bom para livros, mas não funcionou bem para mim com contas e tal. YMMV.

Cuneiforme

Tive o melhor resultado com o Cuneiform e consegui criar PDFs pesquisáveis com scripts semelhantes ao seguinte fluxo de trabalho:

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html

Você também precisará instalar o pacote de imagens exatas.

Vários projetos de código aberto para o uso de OCR em PDFs Cuniform e hocr2pdf também:

WatchOCR
Archivista

Deixe-me saber o que você descobriu!