Como converter arquivos .PDF e .doc / .docx em arquivos .HTML?

3

Alguém sabe de algum software (preferencialmente código aberto, Linux ou PHP) que possa converter PDF e / ou DOC / DOCX (e talvez outros formatos de documentos também: rtf, txt, etc.) para HTML?

Eu tenho o software "PDFtoHTML" funcionando, mas isso não parece também converter arquivos DOC / DOCX.

    
por tim peterson 26.10.2011 / 21:16

3 respostas

1

Você deve dar uma unoconv . Deve ser capaz de converter qualquer coisa que o Open Office possa ler para qualquer coisa que possa escrever.

Isso funciona em doc / docx e em muitos outros arquivos. Parece que não funciona em PDFs, então acho que você está preso a usar dois programas separados para o trabalho.

    
por 28.10.2011 / 14:24
1

Eu coloquei com sucesso uma versão portátil do libreoffice no servidor web do meu host, que eu chamo com PHP para fazer uma conversão de linha de comando para .docx, etc. para pdf. no vôo. Eu não tenho direitos de administrador no servidor da web do meu host. Aqui está o meu blog do que eu fiz:

link

Yay! Converta diretamente de .docx ou .odt para .pdf usando PHP com o LibreOffice (sucessor do OpenOffice)!

    
por 20.11.2011 / 02:50
0

Você já tentou PHPDocX ? Ele permite que você faça mais algumas coisas com arquivos docx.

Existe um método generateXHTML .

    
por 08.05.2012 / 08:33