Erro ao obter a string entre dois padrões

Question

Erro ao obter a string entre dois padrões

#1 resposta do (5 votos)
#2 resposta do (0 votos)

4

Eu quero pegar uma string entre dois padrões. O padrão é o primeiro ambiente   em um arquivo html.

<p>Sorcery, 
          R (1)
          </p>
        <p class="ctext"><b>As an additional cost to cast Goblin Grenade, sacrifice a Goblin.<br><br>Goblin Grenade deals 5 damage to target creature or player.</b></p>


      <p><i>Don't underestimate the aerodynamic qualities of the common goblin.</i></p>
      <p>Illus. Kev Walker</p>

Esse ambiente é o primeiro do arquivo, então descarto tudo combinado até o  e desejo excluir tudo depois do  .

name="goblin grenade"
wget -O- http://magiccards.info/query?q="$name" | grep -oP '<p>\K[^<]+'

Eu não sei porque não funciona corretamente. Eu recebo

Sorcery, 
Illus. Kev Walker

grep search

por Arturo 26.12.2014 / 18:46

2 respostas

0

Aviso:

A resposta @sputnick é claramente o caminho certo a seguir. (Eu amo o xmllint e eu o uso para várias tarefas XML / HTML; obrigado por me ensinar sobre a opção xpath !!)

No entanto, outras técnicas menos robustas também podem ser úteis em scripting descartável ...

Obtendo o primeiro parágrafo com regex (em Perl)

perl -n0e 'm!<p.*?>(.*?)</p>!s   and print $1'

ou se você quiser remover ' \n '

perl -n0e 'm!<p.*?>(.*?)</p>!s   and print $1 =~ s/\n//gr'

por 30.12.2014 / 13:34

Tags grep search

Redirecionando o stdout para terminal e arquivo sem usar um pipe? Como mover downloads torrent concluídos para outra pasta sem quebrar o link de torrent?

score 5 · Accepted Answer

Não analise HTML com regex, em vez disso, use um analisador HTML adequado.

teoria:

De acordo com a teoria de compilação, o HTML não pode ser analisado usando regex com base na máquina de estados finitos . Devido à construção hierárquica do HTML, você precisa usar um autômato de empilhamento e manipular LALR usando ferramentas como YACC .

em vez disso, você deve usar uma ferramenta correta para um trabalho correto.

... e é um trabalho para xmllint :

por string matching :

string="Sorcery"
xmllint --html --xpath "//p[contains(text(), '$string')]/text()" file_or_URL

pelo enésimo nó  onde N é 1 aqui:

xmllint --html --xpath "//p[1]/text()" file_or_URL

Verifique se link

Erro ao obter a string entre dois padrões

2 respostas

teoria:

ferramenta diária realLife © ® ™: