Como extrair url particular de tags HTML usando comandos UNIX

Question

Como extrair url particular de tags HTML usando comandos UNIX

#1 resposta do (1 votos)

0

Eu quero extrair um link http://www.rediff.com/news da tag <a> abaixo

<a href="http://www.rediff.com/news" onclick="trackURL('http://track.rediff.com/click?url=___http://www.rediff.com/news___&cmp=news1_nav&lnk=news1_nav&nsrv1=ushome');return false;"><div class="n_tabnormal">News</div></a>

usando algum comando Unix. Por favor, não há codificação para isso.

grep awk sed

por shruti 02.06.2017 / 09:58

1 resposta

Tags grep awk sed

Como fazer binário .bin do código-fonte do Linux? CentOS 73: como configurar um NIC automaticamente?

score 1 · Answer 1

Usar analisadores XML / HTML é uma maneira correta de manipular dados XML / HTML:

solução xmlstarlet :

sed 's/&/&amp;/g' yourfile | xmlstarlet sel -t -v '//a[div/text() = "News"]/@href' -n

A saída:

http://www.rediff.com/news

sed 's/&/&/g' - para converter o e-comercial & como um caractere especial em entidade HTML
//a[div/text() = "News"]/@href - xpath expression, extrai o valor do atributo href da tag a se tiver o nó filho div com o texto News