PDF para HTML - conversor de lote - mais confiável e preciso livre E pago por software?

3

Eu procuro um conversor PDF ou HTML para converter HTML em vários arquivos

Precisa ser capaz de manipular imagens vetorizadas e bitmap dentro do arquivo, produzindo ambos como jpegs referenciados pelas páginas html.

Eu já experimentei o iorigsoft PDF pago para HTML - problemas que ele parece travar ou ficar ocioso, e o material que ele realmente converte tem links quebrados - o nome errado é usado para capítulos constituintes como HTML.

Também tentei a aplicação de intrapdf.com, mas isso cai perto do início da conversão, de forma consistente.

Atualização:

O intrapdf funciona na minha máquina com Windows XP, mas não na minha máquina com Windows 7. A única falha é com o conteúdo do índice emoldurado html - os gráficos na página não são exibidos na página no quadro - mas se você abrir o quadro apenas em uma nova aba, então você pode vê-los. Isso pode ser uma falha no navegador somente no Chrome.

Esta solução é boa o suficiente para mim - já que já gastei o dinheiro (passei antes de fazer a solicitação), mas não posso aceitar minha própria resposta, pois isso não funciona no Windows 7.

Analisaram as ferramentas opensource, mas parecem igualmente simples ou usam versões antigas de PDF.

Precisa disso no Windows 7 32bit.

Pensamentos?

    
por therobyouknow 08.03.2011 / 02:46

8 respostas

0

Minha solução seria 2 partes 1) continuar a usar o programa IntraPDF PDF to JPG (paguei por ele) ( link ) na minha plataforma XP (parece não funcionar no Windows 7 Home 32bit, trava).

Mas eu concordo com você, @geekosaur, com o PDF e HTML tendo metas diferentes, portanto a tradução / conversão não será exata (mesmo com CSS aplicado ao HTML, talvez) e, na verdade, o HTML resultante que eu vi em algumas páginas tem formatação que não é a mesma coisa, mas isso serve.

Assim, a segunda parte da solução seria usar a ferramenta de aplicativo gratuito IrfanView para converter de PDF para JPG, sendo o documento PDF uma série de imagens JPG, uma para cada página do documento. Isso é fácil de configurar, a visão do IrfanView empacota a conversão de PDF como parte de seu pacote de plug-ins, e o pré-requisito para o PDF é baixar o GhostView, ao qual o IrfanView fornece um link. Isso funciona muito bem, exceto que durante o processo, a interface do usuário às vezes trava, mas a conversão continua.

Para esclarecer o meu objetivo, eu queria os documentos em formato PDF em um formato não proprietário que me proporcionaria mais possibilidades de visualizar os documentos no futuro. PDF é bastante onipresente, mas eu gosto de meus dados para ser livre como não vinculado a um formato.

Obrigado a outros colaboradores:

  • @ AffineMesh94464: link (não tentei fazer isso, mas, como já paguei por uma ferramenta que faz isso razoavelmente, eu provavelmente não estou querendo comprar outro).

  • @Syaya: link (Parece bom, mas recebi uma mensagem de erro, algo como isso queria um Componente Microsoft).

por 13.03.2011 / 11:50
5

O PDF é um formato de entrada ruim para conversão, então "flakey" é muito mais a regra. Alguns arquivos podem ser convertidos com relativa facilidade, mas a maioria terá problemas. (Muito brevemente: um arquivo PDF é uma lista compactada de "mova-se aqui, imprima isto, mova-se para lá, ...". Se o documento contiver qualquer coisa diferente de simples tabelas de texto L-para-R , imagens, texto RTL, notas de rodapé, etc. - a conversão provavelmente produzirá uma certa quantidade de lixo.)

    
por 08.03.2011 / 02:56
3

Existe um renderizador PDF baseado em Javascript em HTML chamado PDF.js que usa o elemento Canvas. link

Está em desenvolvimento, mas pode fazer o trabalho para alguns.

    
por 15.03.2012 / 16:07
2

Eu verificaria se o openoffice / libreoffice tem sinalizadores de linha de comando para conversão.

Os PDFs são uma droga para o que você está tentando fazer. Há uma enorme incompatibilidade de modelo de documento entre como o PDF vê uma página e como o HTML vê uma página. Haverá arquivos PDF que simplesmente não podem ser convertidos facilmente em HTML por nada.

    
por 08.03.2011 / 05:23
2

'Gemini' do lote Iceni converte documentos PDF para HTML ...

link

A saída não é 100% perfeita, mas você pode achar aceitável. E é uma boa base para trabalhar. Se você é um perfeccionista, então algumas pesquisas e & substituir "geralmente pode resolver a maioria dos problemas.

    
por 08.03.2011 / 07:35
1

Você pode tentar Conversor PDF para HTML do Okdo

    
por 08.03.2011 / 14:40
0

Existe uma ferramenta gratuita de linha de comando de código aberto link .

Após uma breve avaliação, parece ser atualmente adequado principalmente para documentos simples. Formatação complexa pode variar.

Comporta-se mal com codificações não latinas.

    
por 11.10.2012 / 17:39
0

Há também a ferramenta FREE PDF to HTML pelo link .

Apresenta um GUI simples com suporte em lote. Não há anúncios.

Ele luta para preservar formatação igual com truque à prova de balas simples. Todos os gráficos são renderizados para uma única imagem jpg de fundo grande em todas as páginas. Também todos os textos divs em html usam alinhamento absoluto. Isto dá um resultado preciso, mas grande tamanho e feio html.

    
por 11.10.2012 / 17:52