Já experimentou o comando nvidia-debugdump --help ', sou um grande usuário Tesla, mas no Windows não o Linux desculpe, então não tenho como testar isso, mas tenho a sensação de que isso pode ajudar.
O NVML (nvidia-smi) não suporta a temperatura para este cartão de vídeo
nvidia-settings não funciona, porque é um nó de cluster (com 3 gpus) e não há X
Os sensores de lm não mostram gpus
Ipmitool deve fazê-lo (encontrado exemplo no google), mas para mim mostra
Temp 16 (GPU2) | 1Fh | ns | 11.3 | Disabled
Temp 17 (GPU3) | 20h | ns | 11.4 | Disabled
Temp 18 (GPU1) | 21h | ns | 11.5 | Disabled
há alguma outra ferramenta ou biblioteca de linha de comando que possa fazer isso?
agradeço antecipadamente por qualquer conselho
Versão do driver: 304.43
Já experimentou o comando nvidia-debugdump --help ', sou um grande usuário Tesla, mas no Windows não o Linux desculpe, então não tenho como testar isso, mas tenho a sensação de que isso pode ajudar.
Tags monitoring temperature linux