wget tem a opção -np
, que desativa a obtenção de arquivos de qualquer diretório pai. Eu preciso de algo semelhante, mas um pouco mais flexível. Considere:
www.foo.com/bar1/bar2/bar3/index.html
Eu gostaria de obter tudo, mas não "superior" (na hierarquia da árvore) do que bar2
(!). Portanto, bar2
também deve ser buscado, mas não bar1
.
Existe uma maneira de tornar o wget mais seletivo?
Antecedentes: estou tentando espelhar um site, com uma estrutura lógica semelhante - ponto de partida, depois para cima, depois para baixo. Se houver outra ferramenta além de wget
, mais adequada para esse layout, entre em contato comigo também.
Atualizar
Ou em vez de especificar uma possível profundidade, talvez algo como "sem pais, a menos que eles correspondam a essa ou aquela URL".
Atualização 2
Existe alguma estrutura no servidor, certo? Você pode visualizá-lo como uma árvore. Então, normalmente com "--no-parent" você começa de algum ponto A e desce apenas para baixo.
Meu desejo, é a habilidade de subir - expresso dizendo que é permitido subir até nós X, ou (o que é 100% equivalente) que é permitido ir até o nó B (onde a distância BA = X).
Em todos os casos, as regras de descida permanecem conforme definidas pelos usuários (por exemplo, diminuem apenas pelos níveis Y).
Como armazená-lo? Na verdade, não é a questão realmente - wget
por padrão recria a estrutura do servidor, não há nada aqui para ter medo, ou não há necessidade de consertar nada. Então, em 2 palavras - como sempre.
Atualização 3
Estrutura de diretórios abaixo - vamos assumir que em cada diretório existe apenas um arquivo, em R - R.html e assim por diante. Isso é simplificado, é claro, porque você pode ter mais de uma página.
R
/ \
B G
/ \
C F
/ \
A D
/
E
A (A.html) é o meu ponto de partida, X = 2 (então B é o nó de nível mais alto que eu gostaria de buscar). Neste exemplo específico, isso significa buscar todas as páginas, exceto R.html e G.html. A.html é chamado de "ponto de partida" porque eu tenho que começar a partir dele, não de B.
Atualização 4
A nomeação é usada na Atualização 3.
wget OPTIONS www.foo.com/B/C/A/A.html
A questão é quais são as opções para obter todas as páginas do diretório B e abaixo (sabendo que você tem que começar de A.html).