Para obter apenas a página de índice de um site e seus requisitos, e convertê-los para renderização local, a seguinte chamada de wget (substituindo a URL de exemplo pela que você deseja espelhar, é claro) deve produzir o resultado desejado, baixando os arquivos no diretório em que você está quando o executa:
wget -r -l1 -k -nH http://www.example.com
As opções significam da seguinte forma:
- -r: Use a recuperação recursiva (siga os links para outros arquivos).
- -l1: Limite a profundidade de recursão para 1 (siga os links da URL fornecida na linha de comando, mas não dos arquivos recuperados).
- -k: regravar links absolutos nos arquivos recuperados para se referir às versões baixadas, em vez das versões hospedadas na página espelhada.
- -nH: não crie diretórios por nome de host para os arquivos baixados (caso contrário, se você estiver em
/home/example/mirror
, tudo vai para/home/example/mirror/www.example.com
).
Dependendo de como o site de destino está configurado, pode ser necessário fazer alguns ajustes adicionais nos arquivos recuperados (por exemplo, arquivos com extensão .php
provavelmente não serão renderizados corretamente quando abertos do disco, já que não há servidor dando um Content-Type
cabeçalho para informar ao seu navegador que eles contêm HTML). Isso deve servir como um início bastante sólido, no entanto.