O torque funciona na metade do tempo. Não Perde Sem Permissão a outra metade

1

Nós atualizamos nosso SO do Debian 5 para o Debian 6 e consequentemente atualizamos o Torque.

Agora qstat e qsub funcionam por cerca de 1 minuto e falham por mais um minuto.

Eu tenho torque-2.5.5 (mas eu tentei o 2.4.8 e ele teve os mesmos problemas).

Quando executamos o qstat na metade do tempo em que ele funciona e na metade do tempo conseguimos:

pbs_iff: cannot read reply from pbs_server
No Permission.
qstat: cannot connect to server torque-server (errno=15007) Unauthorized Request

No syslog da mãe:

pbs_mom: LOG_ERROR::Operation now in progress (115) in
TMomFinalizeChild, cannot open interactive qsub socket to host
girkelab-3.ucr.edu:51056 - 'cannot connect to port 777 in
client_to_svr - errno:115 Operation now in progress' - check routing
tables/multi-homed host issues

No servidor:

/opt/torque-2.5.5/bin/qmgr -c 'print server'
#
# Create queues and set their attributes.
#
#
# Create and define queue batch
#
create queue batch
set queue batch queue_type = Execution
set queue batch resources_default.nodes = 1
set queue batch enabled = True
set queue batch started = True
#
# Set server attributes.
#
set server scheduling = True
set server acl_hosts = torque-server
set server acl_hosts += torque-server+biocluster+parrot+owl
set server acl_hosts += owl-33+biocluster-33
set server acl_hosts += girkelab-3+girkelab-4
set server operators = root@torque-server
set server default_queue = batch
set server log_events = 511
set server mail_from = adm
set server query_other_jobs = True
set server scheduler_iteration = 600
set server node_check_rate = 150
set server tcp_timeout = 6
set server log_level = 0
set server submit_hosts = biocluster+parrot+owl
set server submit_hosts += girkelab-3+girkelab-4
set server submit_hosts += owl-33+biocluster-33
set server allow_node_submit = True
set server next_job_number = 206082

Por que diz erro de permissão quando funciona metade do tempo?

O que posso fazer para diagnosticar o problema?

    
por Aleksandr Levchuk 31.03.2011 / 03:31

2 respostas

3

Conclusão: O servidor estava bloqueado devido a um nó inativo.

Antes de descobrirmos, muitas coisas foram tentadas:

  • Analisou pacotes individuais via tcpdump.
  • Registros de servidor, clientes e mãe.
  • Testei meu sistema de arquivos de rede se isso estivesse congelando.
  • Testado se o tráfego do UPD perdeu pacotes.

Nada, estava errado e não importava o que eu tentasse, o erro temporário "Sem Permissão" não desapareceria.

Eu tive um nó que morreu na noite anterior. Nós tivemos problemas antes, quando o Torque ficava preso em vez de detectar nós mortos. Então, eu removi os nós de /var/spool/torque/server_priv/nodes (o local de configuração padrão do Torque). Reiniciou o torque, mas isso não ajudou.

Mais tarde, com meu chefe, encontramos a solução. Havia um monte de arquivos antigos ("jobs em execução") em /var/spool/torque/server_priv/jobs/ que pertenciam ao nó morto removido. Excluir. Reiniciar. Resolvido.

"Sem permissão"?!

    
por 31.03.2011 / 07:46
1

Bem, você não é o único: link

    
por 31.03.2011 / 06:07