Qualquer maneira de espelhar os dados necessários apenas para carregar a página index.html de um site?

1

Estou tentando espelhar a página de destino de um site para fazer testes nela.

Existe alguma maneira de espelhar apenas o primeiro nível de um site? I.E. todas as solicitações devem se tornar arquivos locais apenas para a primeira página de índice (não wget -m -k ).

Estou confortável com a linha de comando, então algo usando uma ferramenta CLI é perfeitamente aceitável.

Obrigado antecipadamente!

    
por Tim Visher 16.07.2013 / 18:00

1 resposta

1

Para obter apenas a página de índice de um site e seus requisitos, e convertê-los para renderização local, a seguinte chamada de wget (substituindo a URL de exemplo pela que você deseja espelhar, é claro) deve produzir o resultado desejado, baixando os arquivos no diretório em que você está quando o executa:

wget -r -l1 -k -nH http://www.example.com

As opções significam da seguinte forma:

  • -r: Use a recuperação recursiva (siga os links para outros arquivos).
  • -l1: Limite a profundidade de recursão para 1 (siga os links da URL fornecida na linha de comando, mas não dos arquivos recuperados).
  • -k: regravar links absolutos nos arquivos recuperados para se referir às versões baixadas, em vez das versões hospedadas na página espelhada.
  • -nH: não crie diretórios por nome de host para os arquivos baixados (caso contrário, se você estiver em /home/example/mirror , tudo vai para /home/example/mirror/www.example.com ).

Dependendo de como o site de destino está configurado, pode ser necessário fazer alguns ajustes adicionais nos arquivos recuperados (por exemplo, arquivos com extensão .php provavelmente não serão renderizados corretamente quando abertos do disco, já que não há servidor dando um Content-Type cabeçalho para informar ao seu navegador que eles contêm HTML). Isso deve servir como um início bastante sólido, no entanto.

    
por 16.07.2013 / 18:08

Tags