O sistema trava, mas acessível pelo SSH

7

Eu tenho executado um script Python por um longo período de tempo que depende do módulo pyCUDA.

Em duas ocasiões, a área de trabalho ficou bloqueada e totalmente sem resposta, exceto, estranhamente, por meio do SSH. O login remotamente mostra que o script Python não está mais em execução quando o sistema está (localmente) bloqueado. Como esse script Python é executado por um longo tempo, não estive por perto para ver quando exatamente ele é bloqueado. Nunca foi bloqueado sem o script ter sido executado.

Correndo 12.04 com uma GPU GeForce 460. O script Python não faz uma chamada CUDA que dura mais de uma hora, mas centenas que duram menos de 30 segundos, então eu não acho que a GPU esteja travando o sistema. Obrigado por qualquer ideia.

    
por Peter Becich 04.11.2012 / 08:40

2 respostas

2

Você mencionou que quando você faz login via SSH, o script não está mais em execução. É porque terminou ou caiu?

Você também pode executar seu script com strace. Dessa forma, você pode capturar todas as chamadas do sistema, especialmente o que faz quando termina / falha.

strace -f /path/script.py -o /tmp/output.log

Ele produzirá um arquivo bastante grande, portanto, tenha bastante espaço livre.

    
por Marcin Kaminski 24.11.2012 / 00:56
2

Algumas ideias e dicas de depuração:

  • Quando você faz o login via SSH, o sistema está inativo ou é um processo pendente com carga pesada?
  • O que significa "totalmente indiferente"? Você ainda pode chegar a um terminal virtual pressionando Ctrl-Alt-F1? A ativação do CapsLock liga / desliga o LED de status no teclado?
  • Mesmo que seu script não use a GPU por longos períodos por vez, quanto consome a memória máxima da GPU?
  • Parar o servidor X e executar o script a partir de um terminal virtual evita com segurança os bloqueios?
por kynan 20.01.2013 / 02:01

Tags