wget Baixar a página da Web completamente em um arquivo e uma pasta de ativos

1

Estou tentando emular clicando com o botão direito e "Salvando como, completo" no Chrome ou no Firefox. Eu tentei isso:

wget -E -H -k -K -p http://gizmodo.com

Mas isso criou várias pastas, uma para cada domínio que hospeda recursos. Eu também tentei

wget -r -N -l inf --no-remove-listing -x http://gizmodo.com

Ambos de aqui , se Alguém está interessado. Eu também tentei aqui , aqui , e aqui mas nenhum deles fez o que eu queria.

Mas isso não baixou todas as dependências. O que eu realmente quero é o que o Chrome e o Firefox fazem, que cria um arquivo index.html, com todos os caminhos do arquivo de dependência modificados para apontar para todas as dependências que ficam em uma pasta 'assests' próxima a ele.

Eu também tentei o manual do wget, e não consigo encontrar nada além do que ele já está fazendo. Isso é possível?

    
por Alfo 13.07.2012 / 14:32

1 resposta

1

Do manual do WGET:

- sem diretórios (ou -nd)

Não crie uma hierarquia de diretórios ao recuperar recursivamente. Com esta opção ativada, todos os arquivos serão salvos no diretório atual, sem sofrerem danos (se um nome aparecer mais de uma vez, os nomes dos arquivos receberão extensões .n).

- diretórios no-host (ou -nH)

Desabilite a geração de diretórios com prefixo de host. Por padrão, invocar Wget com -r link criará uma estrutura de diretórios começando com fly.srk.fer.hr/. Esta opção desativa esse comportamento.

- requisitos de página (ou -p)

Esta opção faz com que o Wget baixe todos os arquivos necessários para exibir corretamente uma determinada página HTML. Isso inclui coisas como imagens embutidas, sons e folhas de estilo referenciadas. ...

- sem pai (ou -np)

Nunca suba ao diretório pai ao recuperar recursivamente. Esta é uma opção útil, pois garante que apenas os arquivos abaixo de uma certa hierarquia serão baixados.

- convert-links (ou -k)

Após a conclusão do download, converta os links no documento para torná-los adequados à visualização local. Isso afeta não apenas os hiperlinks visíveis, mas também qualquer parte do documento vinculada a conteúdo externo, como imagens incorporadas, links para folhas de estilo, hiperlinks para conteúdo não HTML, etc.

Essas opções devem ajudar.

    
por 14.07.2012 / 22:31