Se wget segue a largura primeiro ou profundidade primeiro

2

Ao executar o wget, eu esperaria que ele "seguisse os links", como em profundidade: quando encontra um link, essa é a próxima coisa que ele busca. Mas parece que primeiro, de alguma forma, processa a primeira página, obtém todos os links e percorre esses links. Para cada página que ele busca, pode haver links novos / aninhados, mas não é possível obtê-los até que seja feito com a página original. Queria perguntar e ver se isso é, na verdade, como funciona, então sei se o que estou fazendo está funcionando e não é só buscar essas páginas até terminar com os links da página inicial.

    
por Lance Pollard 02.11.2018 / 03:03

1 resposta

2

Em manual :

With HTTP URLs, Wget retrieves and parses the HTML or CSS from the given URL, retrieving the files the document refers to, through markup like href or src, or CSS URI values specified using the ‘url()’ functional notation. If the freshly downloaded file is also of type text/html, application/xhtml+xml, or text/css, it will be parsed and followed further.

Recursive retrieval of HTTP and HTML/CSS content is breadth-first. This means that Wget first downloads the requested document, then the documents linked from that document, then the documents linked by them, and so on. In other words, Wget first downloads the documents at depth 1, then those at depth 2, and so on until the specified maximum depth.

    
por 02.11.2018 / 03:21

Tags