Rastreando um diretório grande com wget com dois links apontando para a mesma coisa

1

Estou tentando rastrear um diretório em um site e basicamente baixar tudo nele. A estrutura é simples o suficiente (mas também há várias pastas), mas há uma coisa que faz com que o wget seja bloqueado. A fonte é algo como isto:

<a href="index.php?path=/blah/whatever&download=resource.txt"><img... /></a> .... <a href="/blah/whatever/resource.txt">resource.txt"</a>

Ambos os links funcionam, mas ambos são a mesma coisa. Então wget irá baixar o mesmo arquivo duas vezes. Como posso fazer com que o wget ignore o primeiro? Ou se você tiver uma sugestão de crawler melhor que funcione no Linux (ou no OpenBSD), então sugira-a

Eu tentei usar a lista de rejeições assim:

wget -r -R index.php\*\&download\* http://url

mas isso não parece realmente fazer nada. Ainda vai baixar os URLs duplicados

    
por Earlz 19.03.2011 / 04:39

1 resposta

0

você pode fazer algo como ... apenas -R index.php * "como isso soa como os outros links ainda funcionará bem?

    
por 19.03.2011 / 05:54