Rastrear site para arquivos

Question

Rastrear site para arquivos

#1 resposta do (2 votos)

-1

Oi, gostaria de baixar todos os PDFs do link e gostaria de usar o wget. meu comando é "http://www.allitebooks.com/" -P "C:\dummydir" -c -A pdf -r , mas eu acredito que ele não pode seguir os links para o subdomínio por enquanto, como posso corrigi-lo para que ele baixe link por exemplo.

pdf wget web-crawler

por Thomas Moors 06.01.2017 / 11:14

1 resposta

Tags pdf wget web-crawler

WHEA_UNCORRECTABLE_ERROR, e agora? como posso desbloquear um endereço ip na minha máquina? [duplicado]

score 2 · Answer 1

Inicialmente, eu sugeriria wget como solução, mas, após mais pesquisas, notei algumas coisas:

Os arquivos PDF não são armazenados no link (em vez disso, eles estão em link )
O diretório que contém os PDFs é o link
Os URLs files.allitebooks que mencionei retornam 403 Forbidden erros na conexão

Ao visitar uma das páginas do e-book no site, você pode ver o URL do link de download do PDF. Isso pode ser usado para baixar o PDF da seguinte forma:

wget http://file.allitebooks.com/20170102/Smart%20Home%20Automation%20with%20Linux%20and%20Raspberry%20Pi,%202%20edition.pdf

No entanto, isso não é recursivo e não há como saber o que está nesse diretório sem verificar cada postagem do blog e copiar os links de download.