como obter a lista de imagens de uso na página do site usando curl

0

Como obter todas as imagens disponíveis da página do site.

Aqui estou recebendo o código html da página da web usando o curl:

curl http://www.xyztest.com

Como posso obter a lista de imagens usadas nesta página da Web?

    
por Avinash Raut 21.03.2017 / 08:21

1 resposta

1

Eu posso mostrar exemplo com wget . Vamos tentar obter uma lista com todas as imagens e depois (se necessário) baixar todas as imagens de este site

1) Baixe a página de índice com o wget

wget -k https://www.pexels.com/

k option (muito importante) é usado para converter links locais para globais.

2) Agora vamos minar as informações necessárias. Primeiro, lance de filtro grep img para obter apenas linhas com <img> tag. O segundo grep usa o regexp para obter endereços de links. sed reduz argumentos em links após o caractere ? . Finalmente, salve nossos links para links.txt

cat index.html | grep img | grep -Po 'src="\K.*?(?=")' | sed 's/\?.*//' > links.txt

3) Agora podemos facilmente baixar todas as imagens com

wget -i links.txt

Você pode fazer o download e processar os links com um único conjunto de canais, usando curl conforme solicitado:

curl https://www.pexels.com/ | grep img | grep -o src="\"http.*" | grep -o "http.*\"" | sed 's/\?.*//' > links.txt
    
por 21.03.2017 / 10:38

Tags