Calculando o tamanho total do arquivo por extensão no shell

11

Temos um conjunto de diretórios contendo índices de lucene. Cada índice é uma mistura de diferentes tipos de arquivos (diferenciados por extensão), por exemplo:

0/index/_2z6.frq
0/index/_2z6.fnm
..
1/index/_1sq.frq
1/index/_1sq.fnm
..

(são cerca de 10 extensões diferentes)

Gostaríamos de obter um total por extensão de arquivo, por exemplo:

.frq     21234
.fnm     34757
..

Eu tentei várias combinações de du / awk / xargs, mas achei complicado fazer exatamente isso.

    
por barnybug 07.03.2012 / 13:52

8 respostas

15

Para qualquer extensão, você usa

find /path -name '*.frq' -exec ls -l {} \; | awk '{ Total += $5} END { print Total }'

para obter o tamanho total do arquivo para esse tipo.

E depois de pensar um pouco

#!/bin/bash

ftypes=$(find . -type f | grep -E ".*\.[a-zA-Z0-9]*$" | sed -e 's/.*\(\.[a-zA-Z0-9]*\)$//' | sort | uniq)

for ft in $ftypes
do
    echo -n "$ft "
    find . -name "*${ft}" -exec ls -l {} \; | awk '{total += $5} END {print total}'
done

Que produzirá o tamanho em bytes de cada tipo de arquivo encontrado.

    
por 17.11.2014 / 23:52
6

Com o bash version4, você só precisa chamar find , ls e awk não necessário:

declare -A ary

while IFS=$'\t' read name size; do 
  ext=${name##*.}
  ((ary[$ext] += size))
done < <(find . -type f  -printf "%f\t%s\n")

for key in "${!ary[@]}"; do 
  printf "%s\t%s\n" "$key" "${ary[$key]}"
done
    
por 07.03.2012 / 16:55
4

Cada segunda coluna dividida por . e última parte (extensão) salva em array.

#!/bin/bash

find . -type f -printf "%s\t%f\n" | awk '
{
 split($2, ext, ".")
 e = ext[length(ext)]
 size[e] += $1
}

END{
 for(i in size)
   print size[i], i
}' | sort -n

você tem o tamanho total das extensões em bytes.

60055 gemspec
321991 txt
2075312 html
2745143 rb
13387264 gem
47196526 jar
    
por 07.03.2012 / 15:57
1

Estendendo o script do Iain com uma versão mais rápida para trabalhar com um grande número de arquivos.

#!/bin/bash

ftypes=$(find . -type f | grep -E ".*\.[a-zA-Z0-9]*$" | sed -e 's/.*\(\.[a-zA-Z0-9]*\)$//' | sort | uniq)

for ft in $ftypes
do
    echo -ne "$ft\t"
    find . -name "*${ft}" -exec du -bcsh '{}' + | tail -1 | sed 's/\stotal//'
done
    
por 25.11.2014 / 03:32
0

Esta é a solução:

find . -type f | grep -E ".*\.[a-zA-Z0-9]*$" | sed -e 's/.*\(\.[a-zA-Z0-9]*\)$//' | sort | uniq -c | sort -n

Solução publicada originalmente nesta postagem: Obtenha todas as extensões e sua respectiva contagem de arquivos em um diretório

    
por 07.03.2012 / 14:19
0

Eu resolvi usar esses dois comandos:

FILES=$(find . -name '*.c')
stat -c %s ${FILES[@]} | awk '{ sum += $1 } END { print ".c" " " sum }'
    
por 18.11.2014 / 00:27
0

minha versão da resposta para a pergunta:

#!/bin/bash

date >  get_size.log
# Lists all files
find . -type f -printf "%s\t%f\n" | grep -E ".*\.[a-zA-Z0-9]*$" | sort -h | awk  '
{
        split($2, ext, ".")
        e = ext[length(ext)]
        # Checks that one extension could be found
        if(length(e) < length($2)) {
                # Check that file size are bigger than 0
                if($i > 0) {
                        # Check that extension not are integer
                        if(!(e ~/^[0-9]+$/)) {
                                size[e] += $1
                        }
                }
        }
        if(length(e) == length($2)) {
                size["blandat"] += $1
        }
}

END{
 for(i in size)
   print size[i], i
}' | sort -n >> get_size.log
echo
echo
echo The result are in file get_size.log
    
por 27.09.2016 / 12:33
0

Tente Crab ( link ) - é um utilitário de linha de comando que permite consultar o sistema de arquivos usando SQL.

    
por 21.09.2017 / 20:57