pdftohtml exibindo imagens de fundo de baixa resolução. Socorro?

2

runnning:

pdftohtml -c document.pdf output.htm

isso retorna a saída normal, mas as imagens de fundo são de baixa qualidade eles não podem ser lidos.

Isso é um bug com pdftohtml ou posso alterar uma configuração arquivo em algum lugar?

qualquer ajuda seria muito apreciada, vivas:)

em execução: Ubuntu 10.04 LTS

    
por Jake 28.03.2011 / 20:59

2 respostas

2

Eu não tenho certeza, mas veja se o seu problema é devido a esse bug link

Dito o que você está fazendo mesmo sem bugs, é repleto de potenciais desastres de saída, PDF é um formato de documento complexo geralmente não se destina a ser convertido em outros formatos, é principalmente para exibição e impressão como é.

A extração de texto e imagem é fácil com a mesma ferramenta que você mencionou sem a opção -c, que tenta preservar a aparência do PDF original,

Eu diria que tente converter sem usar o switch -c, isso provavelmente vai te dar imagens boas o suficiente, mas o layout pode não ser o que você quer, mas talvez você possa criar algo para consertá-lo. talvez você não precise consertar nada se o PDF for simples.

    
por Sabacon 29.03.2011 / 00:17
0

Não tenho certeza se você pode configurá-lo, mas você pode tentar usar o Openoffice com a extensão pdf-import para fazer suas conversões.

    
por RolandiXor 28.03.2011 / 21:20