Confuso sobre como converter XML em CSV usando xmlstarlet no OS X?

2

Eu fiz uma pergunta antes e ela foi fechada como duplicata: Como analisar XML para CSV com um script de shell? . A resposta na duplicata que foi vinculada sugeriu o uso de uma ferramenta chamada XMLStarlet, mas não tenho certeza de como usar essa ferramenta no OS X.

Além disso, havia um link para outro Q & A intitulado: " Text entre duas tags ", que mostra exemplos usando xslt ? man xlst não funciona, mas eu olhei mais para ele e parece ser algum tipo de script em Perl? Eu encontrei isso no StackOverflow , que está me levando a essa conclusão.

Alguém pode me fornecer algumas orientações sobre como posso simplesmente converter um arquivo XML em CSV no OS X?

    
por DisplayName 25.10.2014 / 02:48

1 resposta

4

O aplicativo XMLStarlet parece estar disponível no OSX via brew , então você deve ser capaz de instalá-lo assim:

$ brew install xmlstarlet

Uma vez instalado, você o utiliza via linha de comando através do comando xmlstarlet .

Uso

$ xmlstarlet 
XMLStarlet Toolkit: Command line utilities for XML
Usage: xmlstarlet [<options>] <command> [<cmd-options>]
where <command> is one of:
  ed    (or edit)      - Edit/Update XML document(s)
  sel   (or select)    - Select data or query XML document(s) (XPATH, etc)
  tr    (or transform) - Transform XML document(s) using XSLT
  val   (or validate)  - Validate XML document(s) (well-formed/DTD/XSD/RelaxNG)
  fo    (or format)    - Format XML document(s)
  el    (or elements)  - Display element structure of XML document
  c14n  (or canonic)   - XML canonicalization
  ls    (or list)      - List directory as XML
  esc   (or escape)    - Escape special XML characters
  unesc (or unescape)  - Unescape special XML characters
  pyx   (or xmln)      - Convert XML into PYX format (based on ESIS - ISO 8879)
  p2x   (or depyx)     - Convert PYX into XML
<options> are:
  -q or --quiet        - no error output
  --doc-namespace      - extract namespace bindings from input doc (default)
  --no-doc-namespace   - don't extract namespace bindings from input doc
  --version            - show version
  --help               - show help
Wherever file name mentioned in command help it is assumed
that URL can be used instead as well.

Type: xmlstarlet <command> --help <ENTER> for command help

XMLStarlet is a command line toolkit to query/edit/check/transform
XML documents (for more information see http://xmlstar.sourceforge.net/)

Exemplo

Digamos que você tenha esse arquivo de amostra, sample.xml .

$ cat sample.xml 
<root>
  <record id="1">
    <keyA>val_1A</keyA>
    <keyB>val_1B</keyB>
  </record>
  <record id="2">
    <keyA>val_2A</keyA>
    <keyB>val_2B</keyB>
  </record>
  <record id="3">
    <keyA>val_3A</keyA>
    <keyB>val_3B</keyB>
  </record>
</root>

Para analisar esse arquivo em CSV, para cada registro, (1, 2, 3), com cada registro os valores correspondentes (keyA, keyB), em uma única linha, você pode usar o comando concat da seguinte forma:

$ xmlstarlet \
    sel -T -t -m /root/record \
    -v "concat(@id,',',keyA,',',keyB)" \
    -n sample.xml

O que resultaria na seguinte saída:

1,val_1A,val_1B
2,val_2A,val_2B
3,val_3A,val_3B

A linha de workhouse no comando acima é a função concat() . Isso está pegando os elementos do registro XML, /root/record .

Referências

por 25.10.2014 / 09:49

Tags