por que um acidente local matou meus trabalhos remotos?

2

Ontem fiz uma observação interessante. Eu sento no computador do meu escritório local (Ubuntu 16.04) e tenho vários trabalhos remotos (simulações CFD longas) em nosso cluster (CentOS7) em execução. Todas as tarefas foram iniciadas como tarefas em segundo plano ( program OPTIONS > LOGFILE & ) e bash estão configuradas ( huponexit off ) de uma maneira que SIGHUP não é enviada para todas as tarefas. Conseqüentemente, se eu iniciar uma simulação e efetuar logout, o trabalho continuará a ser executado. Isso pode ser facilmente verificado mais tarde, verificando o arquivo de log.

Fora da preguiça, quando eu começo um trabalho, simplesmente mantenho o terminal aberto para verificar o progresso da simulação.

Ontem, algo na minha máquina local deu errado (eu acho que alguns desligaram com a GUI, pois eu era capaz de iniciar uma sessão de terminal e chamar reboot ) e ela congelou. Depois de reiniciar a máquina local, notei que todos os meus trabalhos remotos no cluster pararam.

Isso também acontece nos casos em que a GUI da minha estação de trabalho local congela e eu reinicio o gerenciador de exibição do Terminal.

Eu sei que provavelmente posso evitar isso usando screen , mas estou curioso para saber por que isso aconteceu. O que é diferente quando forço a reinicialização de minha máquina local em comparação a um logout e reinicialização controlados, o que não faz nada para os trabalhos remotos?

    
por Dohn Joe 26.08.2016 / 10:26

0 respostas