Conclusão: O servidor estava bloqueado devido a um nó inativo.
Antes de descobrirmos, muitas coisas foram tentadas:
- Analisou pacotes individuais via tcpdump.
- Registros de servidor, clientes e mãe.
- Testei meu sistema de arquivos de rede se isso estivesse congelando.
- Testado se o tráfego do UPD perdeu pacotes.
Nada, estava errado e não importava o que eu tentasse, o erro temporário "Sem Permissão" não desapareceria.
Eu tive um nó que morreu na noite anterior. Nós tivemos problemas antes, quando o Torque ficava preso em vez de detectar nós mortos. Então, eu removi os nós de /var/spool/torque/server_priv/nodes
(o local de configuração padrão do Torque). Reiniciou o torque, mas isso não ajudou.
Mais tarde, com meu chefe, encontramos a solução. Havia um monte de arquivos antigos ("jobs em execução") em /var/spool/torque/server_priv/jobs/
que pertenciam ao nó morto removido. Excluir. Reiniciar. Resolvido.
"Sem permissão"?!