PDF para XML, mas o contrário?

Question

PDF para XML, mas o contrário?

#1 resposta do ImaginaryRobots (2 votos)

2

Este é meu primeiro post, então me desculpe se estou quebrando alguma convenção.

Bem, o problema é que estou desenvolvendo um sistema de arquivos de longo prazo no ambiente do Ubuntu. Por diferentes razões, o XML é um formato muito strong para arquivamento de longo prazo e existem vários sistemas no mercado hoje que oferecem funções de exportação para o formato XML.

O formato XML não contém informações gráficas sobre como, por exemplo, um arquivo PDF, apenas as informações escritas e as fotos incorporadas que ele continha.

Então, como eu tenho um determinado arquivo PDF, é possível desmembrá-lo para XML e depois reconstruí-lo novamente para o arquivo PDF que já foi - pelo menos em teoria.

No Linux, você poderia fazer isso a partir da CLI com a ajuda de XSLTPROC e FOP em duas etapas.

xsltproc file.xsl file.xml > file.fo
fop file.fo file.pdf

O arquivo absolutamente crucial aqui - se você quiser reconstruí-lo do jeito que estava - é o arquivo XSL.

Encontrei centenas de postagens discutindo como criar arquivos XSL manualmente, mas NONE a respeito de qualquer software que pudesse analisar a estrutura XSL de um arquivo PDF.

Eu apenas acho que se é possível transformar de XML-XSL-FO-PDF, deve ser possível fazer esse processo de trás para frente? Alguém tem alguma ideia?

Paul

por Paul Bergstrom 20.08.2012 / 17:00

1 resposta

Como defino um fallback para um tema GTK +? Preciso de ajuda com a partição de disco

score 2 · Answer 1

PDFs não armazenam ou usam informações XSLT - eles são um formato de linguagem de marcação completamente diferente, que não tem uma strong divisão entre formatação e conteúdo como XML / XSL.

O motivo pelo qual você não encontrou nenhuma maneira automática de converter de um PDF para um XML / XSL é porque isso depende muito dos arquivos e formatações específicos que estão sendo usados, e então seria quase impossível escrever algo genérico realmente funcionou.

Sua melhor aposta seria extrair o conteúdo de texto dos arquivos PDF usando algo como pstotext e, em seguida, escrever um script personalizado para criar um arquivo XML daquele que corresponde ao original. Isso seria essencialmente uma solução única e seria bastante frágil e propenso a quebras.

Uma solução melhor seria apenas arquivar os PDFs.