Tentando instalar o Sun Grid Engine no Ubuntu 10.04 - não é possível conectar mais hosts de execução

3

Estou usando o Ubuntu 10.04 e tentando instalar o Sun Grid Engine a partir do repositório do Ubuntu. Ele funciona em uma única máquina, posso enviar trabalhos, etc. Mas não consigo trabalhar com qualquer outra máquina. Eu adicionei outro host de execução e instalei o gridengine-client gridengine-common gridengine-exec , mas de alguma forma ele não pode se comunicar com o mestre. Até desliguei todos os firewalls para ter certeza de que não está causando problemas.

Quando tento qstat -f no nó principal, obtenho:

queuename                      qtype resv/used/tot. load_avg arch          states
---------------------------------------------------------------------------------
standard@neuron1               BIP   0/0/2          0.04     lx26-amd64    
---------------------------------------------------------------------------------
standard@neuron2               BIP   0/0/2          -NA-     -NA-          au

Quando eu reinicio o deamon no nó neuron2 eu recebo:

error: can't find connection
error: can't get configuration from qmaster -- backgrounding

Quando tento executar qstat -f do nó n2 (neuron2), obtenho:

error: commlib error: access denied (server host resolves destination host "n1" as "neuron1")
error: unable to contact qmaster using port 6444 on host "n1"

Eu tenho dois nomes de host para esta máquina e parece que o primeiro erro tem algo a ver com isso, mas seria estranho se estivesse causando esse tipo de problema. Eu tentei telnet n1 6444 e ele se conecta.

Alguém sabe o que está acontecendo aqui? Estou faltando alguma coisa?

    
por klew 30.08.2010 / 12:25

1 resposta

3

Ok, o problema foi de fato com nomes de host duplicados. Quando eu removi um dele começou a trabalhar. Vou cavar e tentar descobrir porque é assim.

    
por 30.08.2010 / 23:20