Lembrando-se de que o HTML não é um idioma comum, você provavelmente poderia, pelo menos, restringi-lo:
grep -Ro '[a-zA-Z0-9]+\.[a-zA-Z0-9]{1,4}' *
Aqui está minha declaração de problema:
Existe uma pasta com muitos arquivos html e texto. Eu preciso recursivamente passar por cada um deles e encontrar todos os tipos de extensões de arquivos referenciados nesses arquivos html / text como .jpg, .tif, .png etc
O problema é que eu não tenho uma lista definida das extensões que eu quero pesquisar.
Qual seria a melhor maneira de conseguir isso usando um script de shell?
Surgindo com um Reg-ex que essencialmente procuraria por todas as ocorrências de um ponto seguido por 3 ou 4 letras, e filtrando aquelas que terminam com um espaço ou uma vírgula, ou uma citação etc ??
Todas as sugestões seriam úteis.
Lembrando-se de que o HTML não é um idioma comum, você provavelmente poderia, pelo menos, restringi-lo:
grep -Ro '[a-zA-Z0-9]+\.[a-zA-Z0-9]{1,4}' *