O JDiskReport possui uma guia para exibir o uso do disco por tipo de arquivo, mas os dados do tipo são baseados em extensões de arquivo, conteúdo não real.
Caso contrário, aqui está um script que usa file
para determinar os tipos:
$ ./disk_usage_by_file_type -c /dir/to/analyze
Collecting file type data, please wait ...
Done. Now run 'disk_usage_by_file_type -s' to print disk usage.
(vai demorar um pouco se o diretório for grande)
$ ./disk_usage_by_file_type -s
...
154 Mb : application|pdf; charset=binary
170 Mb : video|x-msvideo; charset=binary
227 Mb : application|x-iso9660-image; charset=binary
690 Mb : application|octet-stream; charset=binary
810 Mb : audio|mpeg; charset=binary
Para obter uma lista de todos os arquivos + tamanhos para determinado (s) tipo (s), classificados por tamanho de arquivo:
$ ./disk_usage_by_file_type -d 'image|jpeg' | sort -n
...
590: /share/pictures/screenshot.jpg
1017: /share/pictures/cd_cover/Wheel cutout+drop.jpg
16496: /share/pictures/photos/landscape.jpg
17642: /share/pictures/photos/contrast.jpg