Como posso baixar um site e os links que ele referencia, mas nada mais? [duplicado]

2

Eu tenho uma lista de links aqui: link

Eu gostaria de ter baixado tudo. Alguém saberia como isso iria acontecer?

    
por IgorTheGr8M8 28.05.2016 / 17:08

3 respostas

2

Você pode baixar o Wget for Windows e usá-lo em cmd.exe :

wget -r -l 2 https://docs.oracle.com/javase/tutorial/reallybigindex.html

Se você também quiser as imagens e os arquivos CSS dessas páginas, adicione -p e também -k para alterar os links no HTML para que você possa navegar por essas páginas off-line.

Este tutorial tem algumas capturas de tela que podem ajudar.

O valor de -l 2 obterá a primeira página e todas as páginas às quais ele está vinculado. Você pode aumentar o número para obter páginas mais profundas, mas temo que ele siga alguns links dos tutoriais e do site da Oracle.

Como alternativa, você pode tentar VisualWget que tem uma interface do usuário!

Como alternativa, talvez você queira fazer o download dos tutoriais em formato de e-book .

    
por 28.05.2016 / 17:24
1

Como posso baixar um site e os links que ele faz referência

I have a list of links here: https://docs.oracle.com/javase/tutorial/reallybigindex.html

Em vez de baixar todos os links do "O índice realmente grande", é mais fácil apenas Faça o download do último pacote de tutoriais Java .

Está disponível em vários formatos - zip, epub e mobi.

tutorial.zip inclui reallybigindex.html e todos os arquivos referenciados.

Aqui está o conteúdo de nível superior do arquivo zip expandido:

    
por 28.05.2016 / 18:00
1

Existem muitas maneiras de abordar isso. Não sabendo o seu produto final desejado, não posso ser muito específico.

  • wget , como sugerido por @joeytwiddle
  • curl (semelhante ao wget)
  • folhas do google
  • complementos do navegador para o Chrome ou Firefox (pesquisa scraper )

Vou expandir no Planilhas Google (eu uso isso para projetos únicos):

  • crie uma nova planilha
  • coloque isso na célula a1 https://docs.oracle.com/javase/tutorial/reallybigindex.html
  • coloque isso na célula b2 =IMPORTXML(A1, "//a[@href]/text()") (isso recupera o texto do clique)
  • coloque isso na célula e2 =IMPORTXML(A1, "//a[@href]/@href") (isso recupera a URL)

O segundo parâmetro da função é uma expressão xpath . Você precisará ajustá-los para obter o resultado desejado. Existem muitos testadores on-line do xpath para ajudá-lo a fazer isso.

    
por 28.05.2016 / 19:10