como obter a lista de imagens de uso na página do site usando curl

Question

como obter a lista de imagens de uso na página do site usando curl

#1 resposta do (1 votos)

0

Como obter todas as imagens disponíveis da página do site.

Aqui estou recebendo o código html da página da web usando o curl:

curl http://www.xyztest.com

Como posso obter a lista de imagens usadas nesta página da Web?

curl linux

por Avinash Raut 21.03.2017 / 07:21

1 resposta



                    
                Tags
                                            curl
                                            linux
                                    
            
        

         
                            Registro de data e hora da hibernação no Debian 8
                                        como instalar o Microsoft SQL server no centos 6.8

score 1 · Accepted Answer

Eu posso mostrar exemplo com wget . Vamos tentar obter uma lista com todas as imagens e depois (se necessário) baixar todas as imagens de este site

1) Baixe a página de índice com o wget

wget -k https://www.pexels.com/

k option (muito importante) é usado para converter links locais para globais.

2) Agora vamos minar as informações necessárias. Primeiro, lance de filtro grep img para obter apenas linhas com <img> tag. O segundo grep usa o regexp para obter endereços de links. sed reduz argumentos em links após o caractere ? . Finalmente, salve nossos links para links.txt

cat index.html | grep img | grep -Po 'src="\K.*?(?=")' | sed 's/\?.*//' > links.txt

 

 3) Agora podemos facilmente baixar todas as imagens com 

 wget -i links.txt
 

 Você pode fazer o download e processar os links com um único conjunto de canais, usando  curl   conforme solicitado: 

 curl https://www.pexels.com/ | grep img | grep -o src="\"http.*" | grep -o "http.*\"" | sed 's/\?.*//' > links.txt