Carregue Rastreador de Texto (é freeware) e instala isto. Lançar depois de terminar a instalação. Na caixa Filename / Filter, digite "* .htm * .html * .php" ou quaisquer que sejam as extensões dos arquivos HTML que você está analisando. Na caixa Start Location, procure o diretório onde estão os arquivos. Por padrão, ele também verifica os subdiretórios, se você não quiser essa funcionalidade, clique em Opções e desmarque "Verificar subpastas". Na caixa Localizar, digite:
<a.*?href\s*=\s*["'](.*?)['"].*?>(.*?)</a>
Certifique-se de que "Usar expressões regulares" tenha uma marca de seleção ao lado. Em seguida, clique em Localizar. Ele irá mostrar-lhe todos os links agrupados pelos arquivos que estão dentro Você também pode clicar em Extrair, que irá aparecer uma janela com todos os links de todos os arquivos. Desde que você afirmou que você quer os links que eu imaginei que você quer o todo
<a href="something.php">Something</a>
para que você possa ver para onde o link aponta e qual é a descrição. Se você quiser apenas o link sem a tag inteira, altere o RegEx para
href=[\"\'](http:\/\/|\.\/|\/)?\w+(\.\w+)*(\/\w+(\.\w+)?)*(\/|\?\w*=\w*(&\w*=\w*)*)?[\"\']
que retornará
href="something.php"
Deixe-me saber se isso responde à sua pergunta. TextCrawler é um aplicativo incrível e, como é gratuito, vale a pena tentar.