Como extrair todos os links de um determinado URL em um tempo decente

0

Estou tentando extrair os links de um URL especificado e redirecioná-los para um arquivo.

Primeiro, tentei usar --spider , esse é o meu código:

wget --spider --force-html -m http://file/path 2>&1 | grep '^--' | awk '{ print $3 }'| grep -v '\.\(css\|js\|png\|gif\|jpg\|ico\|txt\)$'| sort | uniq > links.txt

Funciona bem se eu passar uma url que não tenha muitas páginas da Web, no entanto, se você receber uma URL muito mais complexa, ela ficará por alguns bons minutos.

Eu fiz alguma pesquisa, tentei encontrar uma maneira de imprimir a saída processada antes de começar o processo em si, usando timeout -s KILL 30 , mas não consegui encontrar nenhum.

Então, estou perguntando a você, existe uma maneira de obter os links em um tempo decente? ou pelo menos imprimir a saída que obteve antes de interromper o processo?

Obrigado.

    
por maspinu 22.12.2015 / 13:37

1 resposta

1

Dê uma olhada no comando tee para sua segunda pergunta:

link

Ele pode "dividir" a saída de comandos para um arquivo e o console ao mesmo tempo.

    
por 22.12.2015 / 19:18