É possível adicionar algum tipo de gancho ao wget para pré-processar o HTML retornado?

0

Eu quero espelhar um dos meus sites.

Infelizmente, o site está em seu modo de visualização , e um parâmetro GET deve ser anexado a todos os URLs na página para que ele continue em seu modo de visualização.

Este parâmetro GET foi adicionado com JavaScript. Obviamente, isso não afeta wget .

Existe uma maneira de enviar o HTML retornado para um script para adicioná-lo antes que wget tente rastrear todos os URLs?

    
por alex 11.11.2011 / 04:06

1 resposta

1

Sua pergunta não é muito clara. O que eu entendo é isso:

  • você está recuperando páginas da web de forma recursiva;
  • suas páginas contêm links internos;
  • seguir esses links leva a uma página não existente e você gostaria de reescrever cada link para adicionar um parâmetro extra à solicitação HTTP.

Eu não acho que você pode fazer isso com o wget. Sugiro usar o LWP . Ele vem com um script chamado lwp-rget que realiza recuperações recursivas. Há uma linha

my $req = HTTP::Request->new(GET => $url);

Pouco antes dessa linha, adicione algum código para mangle a URL conforme apropriado, algo como

$url->query_form($url->query_form, "show_preview" => "yes");
    
por 12.11.2011 / 01:21

Tags