Ferramenta UNIX para descarregar uma seleção de HTML?

1

Eu estou olhando para monitorar as alterações em sites e minha abordagem atual está sendo derrotada por um banner superior rotativo. Existe uma ferramenta UNIX que usa um parâmetro de seleção (atributo id ou XPath), lê HTML de stdin e imprime para stdout a subárvore com base na seleção?

Por exemplo, dado um documento html, quero filtrar tudo menos a subárvore do elemento com id="content" . Basicamente, estou procurando o equivalente HTML / XML mais simples ao grep.

    
por jldugger 06.05.2010 / 01:04

2 respostas

2

Possivelmente não é o que você está procurando, mas que tal escrever um script rápido em Python, usando o BeautifulSoup para processe o HTML e forneça a você um objeto estruturado de maneira sensata, no qual você pode acessar o conteúdo.

import urllib2
from BeautifulSoup import BeautifulSoup as BS
soup = BS(urllib2.urlopen('http://www.google.com').read())
soup.findAll('a')[1]
#returns
<a onclick="gbar.qs(this)" href="http://video.google.co.uk/?hl=en&amp;tab=wv" class="gb1">Videos</a>
    
por 06.05.2010 / 01:12
1

escreva um script em Perl com LWP e HTML::TreeBuilder::XPath talvez.

    
por 06.05.2010 / 01:08