Como converter pdf para o formato eBook

8

Existe uma maneira de converter um documento PDF em um formato de e-book, como epub, azw ou mobi? Eu estou procurando um aplicativo, que é rápido na conversão. Eu acabei de tentar calibre. Após 10 minutos, nem mesmo 2% da conversão foram atingidos. Então, por favor, não calibre. CLI é preferido.

    
por ManuelSchneid3r 26.04.2013 / 20:36

3 respostas

6

Você deve tentar pdftotext (vem no Ubuntu no pacote poppler-utils ). É um conversor de linha de comando. Ele pressupõe que o PDF tenha texto e não consista apenas em imagens.

Se o arquivo PDF consistir em imagens (sem informações de OCR), você terá que optar por uma solução de OCR, que é muito mais lenta.

Eu usei com sucesso o método OCR, bem como em texto PDF que foi embaralhado (posicionando os caracteres individuais em uma página de maneira não linear). Então você usa, por exemplo pdftoppm para obter imagens individuais das páginas e OCR essas.

    
por 26.04.2013 / 20:43
6

Eu geralmente uso o Caliber para converter os vários formatos (epub, mobi e pdf). É bastante simples de se converter com ele, aqui está uma imagem, existem outros e um tutorial de vídeo também.

captura de tela

    
por 27.04.2013 / 19:32
1

Eu tive que fazer isso para um arquivo PDF uma vez, e esse foi o resultado (usando o pdftohtml do poppler):

#!/bin/bash

pwddir="'pwd'"
tmpdir="'mktemp -d'"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@ @ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

Alimente o zip ao Caliber e converta para o EPUB. Filtre todas as propriedades CSS (como cores, fontes).

Cada arquivo PDF é diferente - não há solução definitiva. O acima funcionou para um caso específico - você tem que enfraquecer pdftohtml / pdftotext e depois ajustar a saída para atender às suas necessidades.

Se isso falhar e você tiver que recorrer ao OCR, tive alguma sorte com o cuneiforme. Mas também tente tesseract, ocrad, gocr. No entanto, todos eles exigem trabalho manual para um bom resultado.

    
por 26.04.2013 / 22:04

Tags