Rastrear site para arquivos

-1

Oi, gostaria de baixar todos os PDFs do link e gostaria de usar o wget. meu comando é "http://www.allitebooks.com/" -P "C:\dummydir" -c -A pdf -r , mas eu acredito que ele não pode seguir os links para o subdomínio por enquanto, como posso corrigi-lo para que ele baixe link por exemplo.

    
por Thomas Moors 06.01.2017 / 12:14

1 resposta

2

Inicialmente, eu sugeriria wget como solução, mas, após mais pesquisas, notei algumas coisas:

  • Os arquivos PDF não são armazenados no link (em vez disso, eles estão em link )
  • O diretório que contém os PDFs é o link
  • Os URLs files.allitebooks que mencionei retornam 403 Forbidden erros na conexão

Ao visitar uma das páginas do e-book no site, você pode ver o URL do link de download do PDF. Isso pode ser usado para baixar o PDF da seguinte forma:

wget http://file.allitebooks.com/20170102/Smart%20Home%20Automation%20with%20Linux%20and%20Raspberry%20Pi,%202%20edition.pdf

No entanto, isso não é recursivo e não há como saber o que está nesse diretório sem verificar cada postagem do blog e copiar os links de download.

    
por 06.01.2017 / 12:39