você pode fazer algo como ... apenas -R index.php * "como isso soa como os outros links ainda funcionará bem?
Estou tentando rastrear um diretório em um site e basicamente baixar tudo nele. A estrutura é simples o suficiente (mas também há várias pastas), mas há uma coisa que faz com que o wget seja bloqueado. A fonte é algo como isto:
<a href="index.php?path=/blah/whatever&download=resource.txt"><img... /></a> .... <a href="/blah/whatever/resource.txt">resource.txt"</a>
Ambos os links funcionam, mas ambos são a mesma coisa. Então wget irá baixar o mesmo arquivo duas vezes. Como posso fazer com que o wget ignore o primeiro? Ou se você tiver uma sugestão de crawler melhor que funcione no Linux (ou no OpenBSD), então sugira-a
Eu tentei usar a lista de rejeições assim:
wget -r -R index.php\*\&download\* http://url
mas isso não parece realmente fazer nada. Ainda vai baixar os URLs duplicados
você pode fazer algo como ... apenas -R index.php * "como isso soa como os outros links ainda funcionará bem?
Tags wget linux web-crawler