Em um bash shell você pode usar o grep. grep "/gp/product/" source.txt >extracted.txt
Eu tenho um arquivo "source.txt" que contém uma lista de alguns URLs. Por exemplo:
source.txt:
http://www.amazon.com/gp/product/B007OZNZG0/ref=s9_pop_gw_g349_ir05/176-5131847-6150405?pf_rd_m=ATVPDKIKX0DER&pf_rd_s=center-2&pf_rd_r=02R1PYSDAPM8P0XF7HXW&pf_rd_t=101&pf_rd_p=1263340922&pf_rd_i=507846
http://www.amazon.com/gp/product/B0083PWAPW/ref=s9_pop_gw_g424_ir04/176-5131847-6150405?pf_rd_m=ATVPDKIKX0DER&pf_rd_s=center-2&pf_rd_r=02R1PYSDAPM8P0XF7HXW&pf_rd_t=101&pf_rd_p=1263340922&pf_rd_i=507846
Eu quero recuperar cada link dentro de "source.txt" e pesquisar o html de cada e extrair todos os links deles que contenham "/ gp / product " e, em seguida, armazená-los no arquivo" extracted.txt ", que seria semelhante a:
extracted.txt:
http://www.amazon.com/gp/product/B008GFRB9E/ref=fs_j
http://www.amazon.com/gp/product/B008GFUA4C/ref=fs_2
...
Estou usando o Windows 7 (64 bits) e o Cygwin, para poder executar comandos do Linux também.
Em um bash shell você pode usar o grep. grep "/gp/product/" source.txt >extracted.txt