Ignora uma variável GET de links, ao baixar um site para offline

1

Simplesmente o site que estou baixando tem todos os links que terminam com &sid=335345346fdsfdsfs . Isso continua mudando e cria um monte do mesmo index.html e o mesmo para muitas outras páginas.

Eu me pergunto se alguém já lidou com problemas como este. Tudo que eu preciso é de sed -e 's/&sid=.*$//g' .

  1. Então a ferramenta obtém link da internet http://foo.bar/&sid=yada
  2. Pré-processa http://foo.bar
  3. verifica se ele já existe, faz o download ou ignora de acordo.
  4. se for downloads, substitua o mesmo s/&sid=.*$//g por links dentro do download .html

Se já houver alguma maneira inteligente de ignorar as variáveis GET incorporadas no nome do site, bem-vindo.

    
por Hincor 09.08.2017 / 10:51

0 respostas

Tags