Em nosso grupo de pesquisa, estamos executando um servidor de computação para aprendizado profundo com várias placas gráficas NVIDIA Titan X e alguns núcleos de CPU. Dado que é um laboratório de pesquisa e temos aproximadamente 10 pessoas usando a máquina, a carga nos núcleos da CPU / GPU é quase sempre alta.
Agora estou encarregado de mostrar que a máquina é excessivamente usada e posso propor atualizações de hardware. Para fazer um argumento, quero criar um histórico detalhado do uso da CPU / GPU / MEM na máquina. O problema é que não conheço as ferramentas certas para o trabalho. É claro que posso fazer alguns scripts, mas prefiro ferramentas prontas, já que não sou administrador do sistema :) Para monitorar o uso da CPU / GPU, normalmente uso nvidia-smi
e htop
, mas eles não são adequados para gerando histórias de longa data.
Alguma recomendação sobre a criação de tais histórias?