Módulo Nvidia da GPU do Ganglia: precisamos corrigir o front end ganglia-web?

1

Estou tentando adicionar o módulo GPU Nvidia em gânglios ( /ganglia/gmond_python_modules/gpu/nvidia/ ).

Precisamos aplicar o patch ganglia_web.patch ?

Se eu não aplicar o patch, não vejo nenhuma métrica da GPU quando vou para o link

Se eu tentar aplicar o patch, tenho o seguinte problema:

ubuntu@server:/usr/share/ganglia-webfrontend$ sudo patch -p0 < /home/ubuntu/gmond_python_modules/gpu/nvidia/ganglia_web.patch
sudo: unable to resolve host server
patching file host_view.php
Hunk #1 FAILED at 17.
Hunk #2 FAILED at 37.
Hunk #3 FAILED at 144.
Hunk #4 FAILED at 153.
Hunk #5 FAILED at 169.
5 out of 5 hunks FAILED -- saving rejects to file host_view.php.rej
patching file templates/default/host_view.tpl
Hunk #1 FAILED at 80.
Hunk #2 FAILED at 89.
2 out of 2 hunks FAILED -- saving rejects to file templates/default/host_view.tpl.rej
ubuntu@server:/usr/share/ganglia-webfrontend$ cd /usr/share/ganglia-webfrontend 

O readme não menciona o que fazer com o arquivo de patch.

A interface da web contém a métrica de GPU, mas todas as imagens são 404:

QuandovouparaumGrid>[name]>[gpunode],nãovejonenhumaopçãodeGPU:

No servidor Ganglia (por exemplo, no servidor em que gmetad está sendo executado), eu corri:

git clone https://github.com/ganglia/gmond_python_modules.git
sudo cp gmond_python_modules/gpu/nvidia/graph.d/*   /usr/share/ganglia-webfrontend/graph.d/
sudo /etc/init.d/gmetad restart

No cliente do Ganglia (por exemplo, no servidor em que gmond está em execução e onde a GPU está localizada), eu corri:

git clone https://github.com/ganglia/gmond_python_modules.git
sudo pip install nvidia-ml-py
sudo cp gmond_python_modules/gpu/nvidia/python_modules/nvidia.py /usr/lib/ganglia/nvidia.py
sudo cp gmond_python_modules/gpu/nvidia/conf.d/nvidia.pyconf /etc/ganglia/conf.d
sudo /etc/init.d/ganglia-monitor restart

Eu uso:

  • Ganglia Web Frontend versão 3.6.1
  • Versão 3.6.0 do Ganglia Web Backend (gmetad)
  • RRDtool versão 1.4.7.
  • Ubuntu 14.04.3 servidor LTS x64
por Franck Dernoncourt 21.04.2016 / 05:56

2 respostas

2

Depois de correr para isso eu mesmo, estranhamente ontem também. Eu perguntei a um desenvolvedor do módulo. Ele disse que deveria "apenas trabalhar" ... então, depois de jogar um pouco, eu encontrei o seguinte para trabalhar:

No host:

  1. cp conf.d / nvidia.pyconf /etc/ganglia/conf.d /
  2. cp graph.d / * /usr/share/ganglia-webfrontend/graph.d /
  3. Reinicie o gmond

No nó da GPU (Observe que esses são nomes e locais do pacote RHEL / SL / Cent):

  1. Instalar pip (python-pip)
  2. Executar: pip instale nvidia-ml-py
  3. Da fonte:

    cp conf.d/nvidia.pyconf /etc/ganglia/conf.d/
    cp python_module/nvidia.py /usr/lib64/ganglia/
    
  4. Reinicie o gmond

Não há necessidade de corrigir a web tree agora. Então, na interface da Web, vá para:

Grid > [name] > [gpu node]

Deve haver uma "métrica da gpu" na listagem agora. Pode querer entrar em colapso e olhar. Se não for por algum motivo, você pode ir para o Grid > Página [Nome] e, na parte inferior da lista suspensa Métrica, selecione uma das métricas gpu_ *. Isso pode chutar algo assim que você fizer isso. Tive que fazer isso para que um dos nós exibisse a seção "métricas da GPU" ... mas outra não.

YMMV.

-J

    
por 22.04.2016 / 21:57
1

No Ubuntu xenial, descobri que também precisava adicionar modpython.conf para informar modpython.so do gâlia para carregar o módulo nvidia.py :

  1. Instalar pip (python-pip)
  2. Executar: sudo pip install nvidia-ml-py
  3. Da fonte:

    cp conf.d/nvidia.pyconf /etc/ganglia/conf.d/
    cp python_module/nvidia.py /usr/lib/ganglia/python_modules/
    
  4. Se você não tiver /etc/ganglia/conf.d/modpython.conf

    cat <<EOF | sudo tee /etc/ganglia/conf.d/modpython.conf
    modules {
      module {
        name = "python_module"
        path = "/usr/lib/ganglia/modpython.so"
        params = "/usr/lib/ganglia/python_modules/"
      }
    }
    include ('/etc/ganglia/conf.d/*.pyconf')
    EOF
    
por 23.02.2017 / 06:40