Ok, o problema foi de fato com nomes de host duplicados. Quando eu removi um dele começou a trabalhar. Vou cavar e tentar descobrir porque é assim.
Estou usando o Ubuntu 10.04 e tentando instalar o Sun Grid Engine a partir do repositório do Ubuntu. Ele funciona em uma única máquina, posso enviar trabalhos, etc. Mas não consigo trabalhar com qualquer outra máquina. Eu adicionei outro host de execução e instalei o gridengine-client gridengine-common gridengine-exec
, mas de alguma forma ele não pode se comunicar com o mestre. Até desliguei todos os firewalls para ter certeza de que não está causando problemas.
Quando tento qstat -f
no nó principal, obtenho:
queuename qtype resv/used/tot. load_avg arch states
---------------------------------------------------------------------------------
standard@neuron1 BIP 0/0/2 0.04 lx26-amd64
---------------------------------------------------------------------------------
standard@neuron2 BIP 0/0/2 -NA- -NA- au
Quando eu reinicio o deamon no nó neuron2 eu recebo:
error: can't find connection
error: can't get configuration from qmaster -- backgrounding
Quando tento executar qstat -f
do nó n2 (neuron2), obtenho:
error: commlib error: access denied (server host resolves destination host "n1" as "neuron1")
error: unable to contact qmaster using port 6444 on host "n1"
Eu tenho dois nomes de host para esta máquina e parece que o primeiro erro tem algo a ver com isso, mas seria estranho se estivesse causando esse tipo de problema. Eu tentei telnet n1 6444
e ele se conecta.
Alguém sabe o que está acontecendo aqui? Estou faltando alguma coisa?
Tags ubuntu gridengine