Tentando extrair o campo da página html

0

Estou tentando extrair um campo para o meu PC local de um formulário on-line.

Eu posso salvar a página localmente como documento de texto e, em seguida, pesquise o texto, mas isso parece um pouco complicado. Existe outro método mais eficiente?

Meu histórico é em Macs, mas a empresa está testando PC's usando o Ubuntu 12.04, então, por favor, seja tolerante com minha ignorância relevante.

    
por user99467 21.10.2012 / 11:18

2 respostas

1

Você está procurando ferramentas como

wget -q -O - 'http://askubuntu.com/questions/204007/trying-to-extract-field-from-html-page'

curl -s 'http://askubuntu.com/questions/204007/trying-to-extract-field-from-html-page'

lynx -dump 'http://askubuntu.com/questions/204007/trying-to-extract-field-from-html-page'

E então você pode extrair o que você quer com o usual, sed , awk ..

Teria ajudado se você dissesse que página e o que extrair.

    
por user55822 22.10.2012 / 09:55
0

Não tenho 100% de certeza de que entendi o que você realmente precisa, mas você pode obter a fonte HTML diretamente no navegador.

Se você estiver usando o firefox, poderá fazer muitas coisas interessantes diretamente no navegador.

  • Clique com o botão direito na página - > View Page Source (Alternativa seria pressionar ALT e procurar fonte na HDU)
  • Hightlight a parte da página que você quer a fonte para - > Clique com o botão direito - > Ver fonte de seleção

Se isso não for suficiente, você tem muitos addons para o firefox que permite brincar com HTML =)

Se este for um trabalho de alto volume, talvez seja necessário algum script para executar o trabalho (baixar, usar perl ou algo que suporte expressões regulares para pesquisar, extrair). Mas se você só precisa fazer isso de vez em quando, os métodos do firefox podem ser suficientes?

Eu entendi a pergunta corretamente?

    
por Gjermund Bjaanes 21.10.2012 / 12:01