Grep pattern e pattern dentro do padrão

1

O problema original

Eu tenho uma pasta de arquivos jsx com react-intl sintaxe neles, que se parece com isso:

  ...
  <div>
    <ul>
      <li><FormattedMessage id='some.language.key_1' defaultMessage='Some message 1' /></li>
      <li><FormattedMessage id='some.language.key_2' defaultMessage='Some message 2' /></li>
      <li><FormattedMessage id='some.language.key_3' defaultMessage='Some message 3' /></li>
    </ul>
  </div>
  <div>
    <p>Some other contents</p>
  </div>
  ...

Gostaria de produzir um arquivo com todas as tags <FormattedMessage> na pasta. A saída deve ficar assim:

...
<FormattedMessage id='some.language.key_1' defaultMessage='Some message 1' />
<FormattedMessage id='some.language.key_2' defaultMessage='Some message 2' />
<FormattedMessage id='some.language.key_3' defaultMessage='Some message 3' />
...

Eu sei que posso usar este comando para obter um resultado razoável:

grep -REho '<FormattedMessage .*\/>' my/target/folder/.

Meu problema atual

As coisas ficam complicadas quando alguns dos resultados reais são assim:

<FormattedMessage id='some.lang.key_1' defaultMessage="Hello {myvar}" values={{ myvar: <FormattedMessage id='some.lang.key_2' defaultMessage='World' /> }} />} />

E eu gostaria de produzir duas linhas separadas para esse tipo de padrão:

<FormattedMessage id='some.lang.key_1' defaultMessage="Hello {myvar}" values={{ myvar: <FormattedMessage id='some.lang.key_2' defaultMessage='World' /> }} />} />
<FormattedMessage id='some.lang.key_2' defaultMessage='World' />

Existe alguma maneira que eu possa fazer isso com alguma mágica de comando do Unix?

Atualizar : um arquivo de exemplo mais razoável:

<ul>
  <li><FormattedMessage id='lang.key_1' defaultMessage='Message 1' /></li>
  <li><FormattedMessage id='lang.key_2' defaultMessage='Message 2' /></li>
  <li><FormattedMessage id='lang.key_3' defaultMessage='Message 3' /></li>
  <li><FormattedMessage id='lang.key_4' defaultMessage='Message 4' /></li>
  <li><FormattedMessage id='lang.key_5' defaultMessage="Message 5 with {inner}" values={{ inner: <Link><FormattedMessage id='lang.key_6' defaultMessage='Message 6' /></Link> }} /></li>
  <li><FormattedMessage id='lang.key_7' defaultMessage='Message 7' /></li>
</ul>

Saída desejada:

<FormattedMessage id='lang.key_1' defaultMessage='Message 1' />
<FormattedMessage id='lang.key_2' defaultMessage='Message 2' />
<FormattedMessage id='lang.key_3' defaultMessage='Message 3' />
<FormattedMessage id='lang.key_4' defaultMessage='Message 4' />
<FormattedMessage id='lang.key_5' defaultMessage="Message 5 with {inner}" values={{ inner: <Link><FormattedMessage id='lang.key_6' defaultMessage='Message 6' /></Link> }} />} /></li>
<FormattedMessage id='lang.key_6' defaultMessage='Message 6' />
<FormattedMessage id='lang.key_7' defaultMessage='Message 7' />
    
por Koala Yeung 13.04.2017 / 08:28

2 respostas

1

Seu problema se presta a recursive regexes , já que um padrão está contido no mesmo padrão várias vezes.

perl -lane '
   $. == 1 and $re = qr{
      (                        # capturing group start
         <FormattedMessage\s   # match tag opening
           (?:
              (?>[^<>])+       # consume as many non-angle brackets as is possible
                |
              (?1)             # otherwise, recurse
                |
              (?>.*?>)         # skip a noninteresting tag
           )*
        />                     # match tag closing
     )                         # capturing group end
  }x;

  next unless /<FormattedMessage\s/;

  while ( my @tags = /$re/g ) {
    print for @tags;
    $_ = join $,, map { s/^<(.*)>$/$1/r } @tags;
  }

' file1

Resultado

<FormattedMessage id='lang.key_1' defaultMessage='Message 1' />
<FormattedMessage id='lang.key_2' defaultMessage='Message 2' />
<FormattedMessage id='lang.key_3' defaultMessage='Message 3' />
<FormattedMessage id='lang.key_4' defaultMessage='Message 4' />
<FormattedMessage id='lang.key_5' defaultMessage="Message 5 with {inner}" values={{ inner: <Link><FormattedMessage id='lang.key_6' defaultMessage='Message 6' /></Link> }} />
<FormattedMessage id='lang.key_6' defaultMessage='Message 6' />
<FormattedMessage id='lang.key_7' defaultMessage='Message 7' />
    
por 13.04.2017 / 13:09
0

Passe a saída do seu primeiro grep para o sed :

sed -n 'p;s,..*\(<FormattedMessage[^>]*>\).*,,p'

Saída:

$ grep -REho '<FormattedMessage .*\/>' file | sed -n 'p;s,..*\(<FormattedMessage[^>]*>\).*,,p'

<FormattedMessage id='lang.key_1' defaultMessage='Message 1' />
<FormattedMessage id='lang.key_2' defaultMessage='Message 2' />
<FormattedMessage id='lang.key_3' defaultMessage='Message 3' />
<FormattedMessage id='lang.key_4' defaultMessage='Message 4' />
<FormattedMessage id='lang.key_5' defaultMessage="Message 5 with {inner}" values={{ inner: <Link><FormattedMessage id='lang.key_6' defaultMessage='Message 6' /></Link> }} />
<FormattedMessage id='lang.key_6' defaultMessage='Message 6' />
<FormattedMessage id='lang.key_7' defaultMessage='Message 7' />
    
por 13.04.2017 / 10:15