Estou executando 4 aplicativos intensivos (treinamento de modelos de aprendizado de máquina em GPUs) que regularmente imprime informações sobre a velocidade com que estão sendo executados em uma máquina Linux 14.04. Curiosamente, o servidor abrandou por um período de aproximadamente 2,5 horas com esses aplicativos sendo executados três vezes mais lento que o normal. Não houve alterações no servidor ou nos aplicativos antes / durante / depois que isso aconteceu que eu saiba. Eu experimentei algo semelhante antes no mesmo servidor, mas não investiguei mais.
A execução de htop
e iotop
durante a paralela não revelou nenhuma sugestão, pois o uso da CPU foi baixo, com 6/12 núcleos quase não utilizados, o uso de memória foi baixo (16/64 gb usado) e pouco I / Atividade. Cada uma das 4 GPUs do servidor tem 95% da memória alocada para uma única instância desses aplicativos intensivos. Isso não muda enquanto os aplicativos são executados. Os aplicativos realizam operações idênticas repetidas vezes (multiplicações de matrizes) para que a lentidão não seja relacionada a nenhuma atividade causada pelos aplicativos.
Como posso identificar o que estava causando esse problema nos meus aplicativos?
Tags performance monitoring gpu logging linux