Como pesquisar e copiar todas as strings começando com (“http: // www.”) em um site específico (1000 páginas)?

-1

Eu estou procurando por links (não urls de páginas) escritos em postagens de emprego em um site específico. Eu gostaria de digitalizar o site e copiar todas as seqüências começando com http ou www em todas as páginas (cerca de 1000)

Eu estou no windows 7. Eu não sei como executar scripts. Alguém pode sugerir uma maneira eficiente de fazer isso?

Eu teria que primeiro fazer o download de todas as páginas html? Se sim, então qual software devo usar para fazer o download e escanear e copiar para a string?

    
por M Singh 17.03.2012 / 10:25

3 respostas

2

Quando temos em mente que a execução de scripts não é uma opção para você, você pode usar a abordagem para baixar o código-fonte de uma página (clique com o botão direito - > código-fonte do download). Você pode então abri-lo com, por exemplo bloco de notas e procure o conteúdo pressionando [Ctrl] + [F].

Outra maneira seria usar o URLStringGrabber: link

    
por 17.03.2012 / 10:35
1

Você pode facilmente conseguir isso no Opera, basta abrir o painel esquerdo - Links, e você pode copiar todos eles para a área de transferência

    
por 17.03.2012 / 11:01
0

Eu acho o programa WinHTTrack útil para essa finalidade. Há uma combinação de opções que permite fazer o download de uma única página, mas alterar as URLs para um formato absoluto específico, para que você possa pesquisar mais tarde o HTML bruto e ter a garantia de quase todos os links.

  1. Depois de definir o nome do espelho e avançar para a próxima tela, altere a ação para "Baixar site (s) da Web".
  2. Coloque o URL da página que contém mais páginas da Web na caixa "Endereços da Web: (URL)".
  3. Selecione Opções - > Somente especialistas
  4. Altere os "Rewrite Links: internal / external" para "Absolute URI / Absolute URL" (ou, se você estiver usando apenas a página para capturar URLs, "Absolute URL / Absolute URL").
  5. Pressione OK, depois Avançar e navegue pelas opções normalmente.

Mais informações sobre o HTTrack podem ser encontradas na tag .

    
por 18.06.2017 / 10:05