recuperar e extrair links (Linux / Windows)

2

Eu tenho um arquivo "source.txt" que contém uma lista de alguns URLs. Por exemplo:

source.txt:    
http://www.amazon.com/gp/product/B007OZNZG0/ref=s9_pop_gw_g349_ir05/176-5131847-6150405?pf_rd_m=ATVPDKIKX0DER&pf_rd_s=center-2&pf_rd_r=02R1PYSDAPM8P0XF7HXW&pf_rd_t=101&pf_rd_p=1263340922&pf_rd_i=507846
http://www.amazon.com/gp/product/B0083PWAPW/ref=s9_pop_gw_g424_ir04/176-5131847-6150405?pf_rd_m=ATVPDKIKX0DER&pf_rd_s=center-2&pf_rd_r=02R1PYSDAPM8P0XF7HXW&pf_rd_t=101&pf_rd_p=1263340922&pf_rd_i=507846

Eu quero recuperar cada link dentro de "source.txt" e pesquisar o html de cada e extrair todos os links deles que contenham "/ gp / product " e, em seguida, armazená-los no arquivo" extracted.txt ", que seria semelhante a:

extracted.txt:
http://www.amazon.com/gp/product/B008GFRB9E/ref=fs_j
http://www.amazon.com/gp/product/B008GFUA4C/ref=fs_2
...

Estou usando o Windows 7 (64 bits) e o Cygwin, para poder executar comandos do Linux também.

    
por Si14 02.04.2013 / 03:50

1 resposta

-1

Em um bash shell você pode usar o grep. grep "/gp/product/" source.txt >extracted.txt

    
por 02.04.2013 / 05:10