wget corresponde à expressão regular

2

Primeiro, tente com wget.

Estou tentando usá-lo para corresponder a uma regex e fazer o download de todas as imagens que começam com https://tse4.mm.bing.net/th? de um determinado URL.

No entanto, isso não parece funcionar.

O URL em questão é o seguinte:

link

(eu só preciso baixar um número limitado de fotos do Bing)

Estou tentando com este comando aqui:

wget -nd -r -P save -A '^https://tse4.mm.bing.net/th?' https://www.bing.com/images/search?q=kary+perry+the+one+that+got+away+cover&scope=images

mas ele baixa os arquivos robot.txt.

O que estou fazendo de errado aqui? Obrigado

    
por Nick 01.01.2018 / 16:09

1 resposta

3

O arquivo robots.txt está aí para impedir que você realize operações de bot no site. wget irá, por padrão, obedecer aos desejos do arquivo robots.txt .

Web site owners use the /robots.txt file to give instructions about their site to web robots; this is called The Robots Exclusion Protocol.

It works likes this: a robot wants to vists a Web site URL, say http://www.example.com/welcome.html. Before it does so, it firsts checks for http://www.example.com/robots.txt, and finds:

User-agent: *
Disallow: /

The User-agent: * means this section applies to all robots. The Disallow: / tells the robot that it should not visit any pages on the site.

No arquivo robots.txt do Bing, podemos ver o seguinte:

User-agent: *
Disallow: /account/
Disallow: /bfp/search
Disallow: /bing-site-safety
Disallow: /blogs/search/
Disallow: /entities/search
...
Allow: /shopping/$
Allow: /shopping$
...
Disallow: /th?
Disallow: /th$
...

Então, eles não querem que você baixe em massa desse caminho, mas você pode tentar /shopping .

Se você encontrar uma maneira de ignorar o arquivo robots.txt e executar a operação que deseja, estará agindo de maneira maliciosa e o site provavelmente banirá seu IP.

robotstxt.org

Conclusão

Você provavelmente não está fazendo nada errado ( eu não sou um especialista em wget, então pode haver erros de sintaxe ), mas a ação não é permitida.

    
por 01.01.2018 / 17:33

Tags