Como obter a fonte do quadro usando o wget?

1

Estou tentando obter dados html do site servicenow. Está usando quadros e gostaria de extrair a fonte do quadro usando o wget. Não consigo encontrar a opção / flags para fazer este trabalho. Só consigo extrair a fonte da página, mas não a fonte do quadro.

wget -q https://company.service-now.com/task.do?sysparm_query=number=TASK0299719

    
por ayrton_senna 01.11.2018 / 01:33

1 resposta

3

Um quadro é uma página separada com seu próprio URL, exatamente como um link comum. Ao usar um quadro, o criador da primeira página está dizendo que a segunda página deve ser recuperada imediatamente e exibida na primeira página, em vez de esperar que o usuário clique nela e a exiba por conta própria.

Como o wget não exibe nada nem possui um usuário interativo, a distinção entre quadro e link não tem sentido. Portanto, você pode pensar neste problema como um caso especial de "Eu quero que o wget siga um link".

wget tem um modo recursivo ( -r ) no qual segue links do URL original e os transfere também. Você provavelmente não deseja fazer o download de todos das URLs vinculadas, portanto é necessário restringi-lo.

Se esta for uma operação única, ou se a URL do frame estiver estável, você pode simplesmente ler a fonte da página original, encontrar o atributo src do elemento iframe e pedir ao wget para obter isso.

Se você precisar fazer mais trabalho para você, use a opção --follow-tags para solicitar que ele receba apenas URLs iframe.

wget -r --follow-tags=iframe http://yourpage/

Isso fará o download da página e de todos os iframes contidos nela. Se houver iframes dentro dos iframes, eles também serão obtidos, a menos que você também especifique um limite de profundidade de recursão como -l 1 .

    
por 01.11.2018 / 04:24