O arquivo robots.txt
está aí para impedir que você realize operações de bot no site. wget
irá, por padrão, obedecer aos desejos do arquivo robots.txt
.
Web site owners use the
/robots.txt
file to give instructions about their site to web robots; this is called TheRobots Exclusion Protocol
.It works likes this: a robot wants to vists a Web site URL, say http://www.example.com/welcome.html. Before it does so, it firsts checks for http://www.example.com/robots.txt, and finds:
User-agent: *
Disallow: /
The
User-agent: *
means this section applies to all robots. TheDisallow: /
tells the robot that it should not visit any pages on the site.
No arquivo robots.txt
do Bing, podemos ver o seguinte:
User-agent: *
Disallow: /account/
Disallow: /bfp/search
Disallow: /bing-site-safety
Disallow: /blogs/search/
Disallow: /entities/search
...
Allow: /shopping/$
Allow: /shopping$
...
Disallow: /th?
Disallow: /th$
...
Então, eles não querem que você baixe em massa desse caminho, mas você pode tentar /shopping
.
Se você encontrar uma maneira de ignorar o arquivo robots.txt
e executar a operação que deseja, estará agindo de maneira maliciosa e o site provavelmente banirá seu IP.
Conclusão
Você provavelmente não está fazendo nada errado ( eu não sou um especialista em wget, então pode haver erros de sintaxe ), mas a ação não é permitida.