Criando uma grande tabela de metadados para mapear o armazenamento

0

Eu gostaria de descobrir como gerenciar meu armazenamento, que é bem grande. A ideia seria ver arquivos desnecessários e arquivar / excluir.

No momento, estou simplesmente fazendo 'du -h max-depth 1 e colocando as saídas em arquivos de texto.

No entanto, gostaria de obter mais informações para descobrir como arquivar / excluir meu armazenamento atual.

--- Qual é a melhor maneira de obter o tipo e tamanho de arquivo para todos os arquivos, de forma recursiva? Esta seria uma maneira rápida de verificar arquivos intermediários que são inúteis

--- Eu estava pensando em exibir todos os metadados de arquivo (ou seja, usuário de dados, tipo de arquivo, tamanho de arquivo, registro de data e hora) em um arquivo tsv grande, para poder criar um subconjunto em Python / R com base no tamanho e no tipo de arquivo. Isso é possível? Como poderíamos obter essa informação?

--- Existem métodos para analisar armazenamento versus tempo?

--- Existem outras visualizações diagnósticas / imaginárias que poderiam me ajudar a organizar / arquivar / excluir os dados atualmente armazenados?

    
por ShanZhengYang 05.11.2017 / 17:08

1 resposta

1

Isso é muito longo para um comentário, mas não é bom o suficiente para uma resposta. Desculpe por isso.

---What is the best way I could get the file type and size for all files, recursively? This would be a quick way to check for intermediate files which are useless

Não tenho certeza sobre a "melhor" parte, mas o primeiro hit no Google em busca de "linux de uso de disco avançado" leva a isso .

---I was thinking about outputting all file metadata (i.e. data user, file type, file size, timestamp) into one large tsv file, so I could subset this in Python/R based on size and file type. Is this possible? How would we go about getting this information?

Com o Python, com certeza: basta usar os.walk() para recriar o diretório e imprimir todas as informações relevantes sobre cada arquivo. Eu provavelmente usaria o SQLite como um formato de saída em vez de TSV.

---Are there methods to look at storage versus time?

Você pode executar du -s periodicamente e alimentar os resultados em um banco de dados RRD. Então você pode fazer bons gráficos com isso.

---Are there any other diagnostics/fancy visualizations which could help me figure out how to organize/archive/delete the data currently stored?

Deveria haver, mas eu sou cético sobre o quão útil eles são para sua situação particular.

    
por 05.11.2017 / 18:18