Tentando obter uma página dinâmica com wget sem sucesso

Question

Tentando obter uma página dinâmica com wget sem sucesso

#1 resposta do (3 votos)

2

Estou usando este comando para obter uma página e todas as suas imagens e javascripts no iTunes com o wget. Tudo que eu quero é esta página e todas as suas imagens e scripts.

 wget -kKErpNF --no-check-certificate --html-extension  -nd -A jpg,jpeg,png,js  -nH https://itunes.apple.com/us/app/megamilhoes-megasena-gerador/id854897303?mt=12

O comando está funcionando quase bem, mas não está salvando a própria página porque a página é dinâmica e construída no navegador. Não há extensão html / html na página. Como faço para conseguir isso?

--html-extension não está causando efeito. Eu estou no OSX Mavericks.

wget html

por SpaceDog 24.05.2014 / 15:30

1 resposta

Tags wget html

csplit não obedecendo a barra invertida r \ r como retorno de carro Globbing falha no zsh, mas funciona no bash

score 3 · Accepted Answer

A Apple, por padrão, rejeita o download do arquivo html. Eu usei os comandos que você especificou na minha máquina. Se você observar cuidadosamente a saída, obterá algo assim.

Loading robots.txt; please ignore errors.
--2014-05-24 10:43:50--  https://itunes.apple.com/robots.txt
Connecting to itunes.apple.com|23.206.210.217|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 234 [text/plain]
Saving to: 'robots.txt'

Assim como esta resposta, podemos ignorar o robots.txt usando -e robots=off no comando.

Wget by default honours the robots.txt standard for crawling pages, just like search engines do, and for archive.org, it disallows the entire /web/ subdirectory. To override, use -e robots= off,

Então, modifiquei seu comando para adicionar -e robots= off e quando executei o comando novamente, obtive a saída abaixo.

Connecting to itunes.apple.com|23.204.162.217|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: 'id854897303?mt=12.html'

    [ <=>                                                                                                                                                  ] 33,456      --.-K/s   in 0.001s  

2014-05-24 10:48:38 (30.1 MB/s) - 'id854897303?mt=12.html' saved [33456]

Removing id854897303?mt=12.html since it should be rejected.

Como você pode ver, o download do arquivo é impedido pela Apple e não podemos fazer nada a respeito.

EDITAR : Mesmo sem -e robots=off , não podemos fazer o download do arquivo html. Está dizendo rejeitado com seu wget original também. Então, eu suspeito que a Apple não está permitindo wget downloads.