Rastreando um diretório grande com wget com dois links apontando para a mesma coisa

Question

Rastreando um diretório grande com wget com dois links apontando para a mesma coisa

#1 resposta do (0 votos)

1

Estou tentando rastrear um diretório em um site e basicamente baixar tudo nele. A estrutura é simples o suficiente (mas também há várias pastas), mas há uma coisa que faz com que o wget seja bloqueado. A fonte é algo como isto:

<a href="index.php?path=/blah/whatever&download=resource.txt"><img... /></a> .... <a href="/blah/whatever/resource.txt">resource.txt"</a>

Ambos os links funcionam, mas ambos são a mesma coisa. Então wget irá baixar o mesmo arquivo duas vezes. Como posso fazer com que o wget ignore o primeiro? Ou se você tiver uma sugestão de crawler melhor que funcione no Linux (ou no OpenBSD), então sugira-a

Eu tentei usar a lista de rejeições assim:

wget -r -R index.php\*\&download\* http://url

mas isso não parece realmente fazer nada. Ainda vai baixar os URLs duplicados

wget linux web-crawler

por Earlz 19.03.2011 / 03:39

1 resposta

Tags wget linux web-crawler

O que a opção de opção e opção faz no TextMate? Install4j, como posso corrigir “Exception in thread” main “java.lang.NoClassDefFoundError: com / install4j / tempo de execução / launcher / Launcher”

score 0 · Answer 1

você pode fazer algo como ... apenas -R index.php * "como isso soa como os outros links ainda funcionará bem?