Vantagens do formato DOCX sobre o DOC

9

Hoje eu acidentalmente descobri que o .docx é o mesmo .zip (ou não há grande diferença entre eles). Quando você altera o .docx para o .zip e abre com o WinRAR, você vê vários arquivos XML nas pastas. Nesse arquivo XML, é armazenado o texto, fontes, proprietário, última modificação e assim por diante. Em uma palavra, todas as informações estão sendo armazenadas como dados XML.

Mas o mesmo não é correto para arquivos de extensão .doc. É impossível abri-los como .zip op como .rar.

Então, pergunta: Qual é a vantagem de armazenar dados do .docx em XML que a Microsoft alterou a maneira de armazenar dados? Na verdade, não quero saber a vantagem do formato XML, mas por que a Microsoft está usando vários arquivos XML para armazenar os dados .docx. Acontece que .docx não é novo formato na raiz.

    
por Narek 09.10.2009 / 11:57

5 respostas

12

Um arquivo .docx pode armazenar recursos incorporados, como arquivos de imagem, não apenas arquivos XML. Em vez de codificar coisas em base64 ou algo assim e armazená-lo em um arquivo XML ou inventar ainda outro formato de serialização binária, eles decidiram usar o formato ZIP padrão.

Além disso, o XML é um formato de arquivo muito detalhado, contendo muitos padrões redundantes. Você pode obter uma alta taxa de compactação para arquivos XML.

A propósito, eu realmente não entendo a parte "enganando-nos". É melhor inventar um novo formato de arquivo criptografado do zero ou usar um formato padrão conhecido?

    
por 09.10.2009 / 12:00
5

O artigo da Wikipedia resume muito bem:

"A Microsoft ficou sob crescente pressão para adotar um formato de arquivo aberto, em particular várias nações adotaram regras que os documentos oficiais deveriam estar em um formato aberto."

Editar: E fechar o zíper faz muito sentido, já que o XML é muito detalhado e, naturalmente, comprime muito bem.

    
por 09.10.2009 / 12:00
3

Usar um arquivo .zip renomeado é uma prática bem comum - por exemplo, os arquivos .pak do Quake III são realmente arquivos .zip. Não adianta inventar o seu próprio formato de arquivo comprimido quando já existem outros perfeitamente bons.

    
por 09.10.2009 / 12:03
1

Não é apenas o Office Open XML, que usa XML compactado. O OpenDocument do Open Office faz o mesmo nos bastidores.

Existem algumas vantagens listadas na página da Wikipedia sobre as convenções abertas de embalagem :

Indirection

Take the example of a catalog where a logo is repeated 1,000 times. Using an indirection mechanism, if we want to change the logo we only need to change one entry in one file, with no searching involved because we know where to look. This increases maintainability substantially. If you want to change the layout of, say, the ZIP directories where your files are stored, it becomes a trivial matter, because you don't need to know every element that can point to file, they are all in one spot.

Chunking

It encourages documents to be split into small chunks. This is better for reducing the effect of file corruption. And better for data access: for example, all the style information in one XML part, each separate worksheet or table in their own different parts. This allows faster access and less object creation for clients, and makes it easier for multiple processes to be working on the same document.

Chunking also benefits programmers. Replacing one stylesheet with another becomes a ZIP file operation, not an XML operation. And it reduces the amount of things that a programmer needs to understand, because they can approach the chunks assuming that all the information on a topic is in that chunk: they are spared the mental toil of having to search through a big file with lots of extraneous elements.

Relative indirection

In the Open Packaging Conventions each file that has reference has its own _rels file with the indirection lists. This makes it easier to cut and paste some information with all its associated resources in some cases, provides name scoping to remove the chance of name clashing between files, and so on.

    
por 09.10.2009 / 12:01
0

O maior benefício é que você pode acessar seus dados descompactando o arquivo e copiando o texto dos arquivos xml. Isso pode ser feito com um utilitário zip & um editor de texto, mesmo que você não tenha uma cópia do Word 2007.

Isto é o que torna o formato mais aberto que os formatos binários mais antigos.

    
por 09.10.2009 / 13:14