Como extrair todos os links de um determinado URL em um tempo decente

Question

Como extrair todos os links de um determinado URL em um tempo decente

#1 resposta do (1 votos)

0

Estou tentando extrair os links de um URL especificado e redirecioná-los para um arquivo.

Primeiro, tentei usar --spider , esse é o meu código:

wget --spider --force-html -m http://file/path 2>&1 | grep '^--' | awk '{ print $3 }'| grep -v '\.\(css\|js\|png\|gif\|jpg\|ico\|txt\)$'| sort | uniq > links.txt

Funciona bem se eu passar uma url que não tenha muitas páginas da Web, no entanto, se você receber uma URL muito mais complexa, ela ficará por alguns bons minutos.

Eu fiz alguma pesquisa, tentei encontrar uma maneira de imprimir a saída processada antes de começar o processo em si, usando timeout -s KILL 30 , mas não consegui encontrar nenhum.

Então, estou perguntando a você, existe uma maneira de obter os links em um tempo decente? ou pelo menos imprimir a saída que obteve antes de interromper o processo?

Obrigado.

process wget url kill timeout

por maspinu 22.12.2015 / 12:37

1 resposta

Tags process wget url kill timeout

Como eu escrevo um script Bash que pede aos usuários para definir uma variável? É possível executar várias sessões x com cada funcionando corretamente?

score 1 · Answer 1

Dê uma olhada no comando tee para sua segunda pergunta:

link

Ele pode "dividir" a saída de comandos para um arquivo e o console ao mesmo tempo.