O que são bons extratores de links por aí?

0

Extrator de link - já que não conheço um nome melhor para ele; um utilitário que pode pegar um arquivo .htm e me fornecer links a partir dele, sem contar e, portanto, apenas links diretos. Útil para arquivos em que você tem um número de links html que estão em um texto e assim por diante ...

Alguém sabe de algum, por acaso?

    
por Rook 16.11.2009 / 20:35

4 respostas

0

Firefox, com o complemento do desenvolvedor da Web , posso fazer isso. Abra o arquivo HTML, exiba a barra de ferramentas do Desenvolvedor da Web.

No menu suspenso Informações, selecione "Exibir informações do link". Ele abrirá uma nova guia com uma lista de todos os links no arquivo HTML.

A Extensão de acessibilidade do Firefox também pode exibir uma lista de links em uma janela, mas talvez seja um exagero, já que está fazendo muitos outros recursos destinados a pessoas com deficiências.

    
por 16.11.2009 / 22:22
2

Eu precisava de uma versão rápida e nua disso uma vez ou duas no passado. Minha solução é geralmente esta:

  • pesquise e substitua "http: //" por "\ r \ nhttp: //" (mova todos os URLs http para sua própria linha
  • encontre / grep ou filtre em todas as linhas que começam com "http: //" (regex algo como "^ http: //")
  • classifique os resultados filtrados, com a opção de excluir linhas duplicadas

Essa é a minha solução rápida e simples, mas eu não usei uma ferramenta real para isso antes. Embora, eu suponha que eu poderia concluir isso em um script .bat ou AutoHotkey. Eu só não precisei disso o suficiente para isso.

    
por 16.11.2009 / 20:41
1
href="(?<url>(((ht|f)tp(s?))\://)?((([a-zA-Z0-9_\-]{2,}\.)+[a-zA-Z]{2,})|((?:(?:25[0-5]|2[0-4]\d|[01]\d\d|\d?\d)(?(\.?\d)\.)){4}))(:[a-zA-Z0-9]+)?(/[a-zA-Z0-9\-\._\?\,\'/\\+&amp;%\$#\=~]*)?)"

Seria um regex que poderia conseguir isso.

    
por 16.11.2009 / 20:48
1

Carregue Rastreador de Texto (é freeware) e instala isto. Lançar depois de terminar a instalação. Na caixa Filename / Filter, digite "* .htm * .html * .php" ou quaisquer que sejam as extensões dos arquivos HTML que você está analisando. Na caixa Start Location, procure o diretório onde estão os arquivos. Por padrão, ele também verifica os subdiretórios, se você não quiser essa funcionalidade, clique em Opções e desmarque "Verificar subpastas". Na caixa Localizar, digite:

<a.*?href\s*=\s*["'](.*?)['"].*?>(.*?)</a>

Certifique-se de que "Usar expressões regulares" tenha uma marca de seleção ao lado. Em seguida, clique em Localizar. Ele irá mostrar-lhe todos os links agrupados pelos arquivos que estão dentro Você também pode clicar em Extrair, que irá aparecer uma janela com todos os links de todos os arquivos. Desde que você afirmou que você quer os links que eu imaginei que você quer o todo

<a href="something.php">Something</a>

para que você possa ver para onde o link aponta e qual é a descrição. Se você quiser apenas o link sem a tag inteira, altere o RegEx para

href=[\"\'](http:\/\/|\.\/|\/)?\w+(\.\w+)*(\/\w+(\.\w+)?)*(\/|\?\w*=\w*(&\w*=\w*)*)?[\"\']

que retornará

href="something.php"

Deixe-me saber se isso responde à sua pergunta. TextCrawler é um aplicativo incrível e, como é gratuito, vale a pena tentar.

    
por 16.11.2009 / 22:39