t sintaxe para remover xml

Question

t sintaxe para remover xml

#1 resposta do (1 votos)
#2 resposta do (1 votos)

2

Estou tentando limpar essa saída dos metadados para conectar essa saída ao GreekTools, mas estou ficando preso no sed.

curl --silent www.brainyquote.com | egrep '(span class="body")|(span class="bodybold")' | sed -n '6p; 7p; ' | sed 's/\<*\>//g'

[ex]

Literature is news that stays news.  Ezra Pound

Alguém poderia me ajudar nessa faixa?

regex sed linux macos

por mbb 13.03.2011 / 04:47

2 respostas


                                    
                                                
                                                                                                                                    
                            
                                
                                    
                                    1
                                    
                                
                            
                            
                                
                                    

                                        
                                                                                 

                                        
 Apenas para completar, uma solução usando HTML tidy e xmlstarlet: 

 # note: use recent versions of tidy and xmlstarlet
curl -s www.brainyquote.com | 
tidy -q -c -wrap 0 -numeric -asxml -utf8 --merge-divs yes --merge-spans yes 2>/dev/null |
xmlstarlet sel -N x="http://www.w3.org/1999/xhtml" -T -t -m "//x:td[@align='center' and @valign='top' and @width='300']/x:span[@class='body']" -v '.' -n \
-m "//x:html/x:body/x:div/x:table/x:tr[position()=2]/x:td[@align='center' and @valign='top' and @width='300']/x:span[@class='bodybold']" -v '.' -n
 
    
                                    
                                    
                                        por
                                                                                                                                                                     14.03.2011 / 21:03



                    
                Tags
                                            regex
                                            sed
                                            linux
                                            macos
                                    
            
        

         
                            ulimit quebrou meu servidor
                                        Quanto espaço os hardlinks NTFS / symlinks ocupam?

score 1 · Accepted Answer

Você deve usar uma ferramenta de análise HTML ou XML adequada. Tentar analisá-lo com expressões regulares leva à loucura .

No entanto, para casos simples:

curl --silent www.brainyquote.com | egrep 'span class="body' | sed -n '6,7{s/<[^>]*>//g;p}'

 

 Para o OS X: 

 curl --silent www.brainyquote.com | egrep 'span class="body' | sed -n '6,7{' -e 's/<[^>]*>//g' -e 'p' -e '}'
 

 Isso funcionou para o mjb: 

 curl --silent www.brainyquote.com | egrep '(span class="body")|(span class="bodybold")' | sed -n '6p; 7p; ' | sed -e 's/<[^>]*>//g'