Localizando todos os tipos de extensões referenciados em um arquivo html

0

Aqui está minha declaração de problema:

Existe uma pasta com muitos arquivos html e texto. Eu preciso recursivamente passar por cada um deles e encontrar todos os tipos de extensões de arquivos referenciados nesses arquivos html / text como .jpg, .tif, .png etc

O problema é que eu não tenho uma lista definida das extensões que eu quero pesquisar.

Qual seria a melhor maneira de conseguir isso usando um script de shell?

Surgindo com um Reg-ex que essencialmente procuraria por todas as ocorrências de um ponto seguido por 3 ou 4 letras, e filtrando aquelas que terminam com um espaço ou uma vírgula, ou uma citação etc ??

Todas as sugestões seriam úteis.

    
por hackmabrain 12.02.2014 / 01:29

1 resposta

4

Lembrando-se de que o HTML não é um idioma comum, você provavelmente poderia, pelo menos, restringi-lo:

grep -Ro '[a-zA-Z0-9]+\.[a-zA-Z0-9]{1,4}' *
    
por 12.02.2014 / 02:00