Este one-liner parece ser um método bastante robusto:
find . -type f -printf '%f\n' | sed -r -n 's/.+(\..*)$//p' | sort | uniq -c
O find . -type f -printf '%f\n'
imprime o nome de base de todos os arquivos regulares na árvore, sem diretórios. Isso elimina a necessidade de se preocupar com diretórios que podem ter .
neles em seu sed
regex.
O sed -r -n 's/.+(\..*)$//p'
substitui o nome do arquivo recebido apenas por sua extensão. Por exemplo, .somefile.ext
se torna .ext
. Observe o .+
inicial na regex; isso resulta em qualquer correspondência que precise de pelo menos um caractere antes do .
da extensão. Isso evita que nomes de arquivos como .gitignore
sejam tratados como não tendo nenhum nome e a extensão '.gitignore', que é provavelmente o que você deseja. Caso contrário, substitua o .+
por um .*
.
O resto da linha é da resposta aceita.
Editar : se você deseja um histograma bem ordenado no formato Pareto chart , apenas adicione outro sort
ao final:
find . -type f -printf '%f\n' | sed -r -n 's/.+(\..*)$//p' | sort | uniq -c | sort -bn
Exemplo de saída de uma árvore de código fonte do Linux:
1 .1992-1997
1 .1994-2004
1 .1995-2002
1 .1996-2002
1 .ac
1 .act2000
1 .AddingFirmware
1 .AdvancedTopics
[...]
1445 .S
2826 .o
2919 .cmd
3531 .txt
19290 .h
23480 .c