O HTTrack pode baixar um site sem a página de índice ou um site que tenha algumas páginas “isoladas”?

1

É como o HTTrack só pode baixar sites que têm uma página de índice? E a página de índice deve ter todos os links para todas as outras páginas do site, certo? Ou, pelo menos, todas as páginas do site devem estar interconectadas por links de alguma forma, certo? Portanto, se houver pelo menos uma página que não contenha nenhum link e não esteja vinculada a nenhuma outra página, esse tipo de página não será baixado pelo HTTrack, certo?

Estou tentando baixar um site em um host gratuito (na verdade, não é um site, mas sim uma coleção de imagens e alguns documentos HTML que não estão necessariamente conectados uns aos outros). Este site vai ser fechado em cerca de duas semanas, então eu preciso me apressar para baixar todas as minhas fotos do site. Então eu tentei HTTrack tentando baixar o site inteiro, mas eu recebi uma mensagem no processo que dizia isso:

WinHTTrack Website Copier

    • MIRROR ERROR! * * HTTrack has detected that the current mirror is empty. If it was an update, the previous mirror has been restored. Reason: the first page(s) either could not be found, or a connection problem occured. => Ensure that the website still exists, and/or check your proxy settings! <=

Estou usando o Windows XP.

    
por brilliant 02.12.2009 / 11:34

1 resposta

2

Você está certo de que essas ferramentas só funcionarão com base nos links entre as páginas. Se uma página não tiver outras páginas apontando para ela, ela será "invisível" para HTTrack (e outras ferramentas "spider"). Se você conhece as URLs para as páginas "desvinculadas", adicione-as manualmente.

No entanto, se o servidor da Web tiver a "Pesquisa no diretório" ativada, apontando para uma URL que contém um diretório e nenhum nome de página, ele exibirá uma lista de todos os arquivos no diretório. Mas raramente é ativado por razões de segurança. Na maioria das vezes, se nenhum nome de página for especificado, o servidor da Web exibirá uma página padrão (index.html, index.php, default.html, ...) em vez do conteúdo do diretório.

    
por 02.12.2009 / 11:47