Isso é muito longo para um comentário, mas não é bom o suficiente para uma resposta. Desculpe por isso.
---What is the best way I could get the file type and size for all files, recursively? This would be a quick way to check for intermediate files which are useless
Não tenho certeza sobre a "melhor" parte, mas o primeiro hit no Google em busca de "linux de uso de disco avançado" leva a isso .
---I was thinking about outputting all file metadata (i.e. data user, file type, file size, timestamp) into one large tsv file, so I could subset this in Python/R based on size and file type. Is this possible? How would we go about getting this information?
Com o Python, com certeza: basta usar os.walk()
para recriar o diretório e imprimir todas as informações relevantes sobre cada arquivo. Eu provavelmente usaria o SQLite como um formato de saída em vez de TSV.
---Are there methods to look at storage versus time?
Você pode executar du -s
periodicamente e alimentar os resultados em um banco de dados RRD. Então você pode fazer bons gráficos com isso.
---Are there any other diagnostics/fancy visualizations which could help me figure out how to organize/archive/delete the data currently stored?
Deveria haver, mas eu sou cético sobre o quão útil eles são para sua situação particular.