Eu posso mostrar exemplo com wget
. Vamos tentar obter uma lista com todas as imagens e depois (se necessário) baixar todas as imagens de este site
1) Baixe a página de índice com o wget
wget -k https://www.pexels.com/
k
option (muito importante) é usado para converter links locais para globais.
2) Agora vamos minar as informações necessárias. Primeiro, lance de filtro grep img
para obter apenas linhas com <img>
tag. O segundo grep usa o regexp para obter endereços de links. sed
reduz argumentos em links após o caractere ?
. Finalmente, salve nossos links para links.txt
cat index.html | grep img | grep -Po 'src="\K.*?(?=")' | sed 's/\?.*//' > links.txt
3) Agora podemos facilmente baixar todas as imagens com
wget -i links.txt
Você pode fazer o download e processar os links com um único conjunto de canais, usando curl
conforme solicitado:
curl https://www.pexels.com/ | grep img | grep -o src="\"http.*" | grep -o "http.*\"" | sed 's/\?.*//' > links.txt