Executando o código do tensorflow no trabalho de torque

1

Eu tenho um cluster rodando com torque para distribuir trabalhos. Eu quero executar um trabalho com código de tensorflow e estou tendo problemas com tensorflow não sendo reconhecido.

Eu instalei o tensorflow no meu usuário LDAP usando o anaconda e assim posso inserir o ambiente tensorflow em qualquer nó e executar meu código manualmente. Meu problema é que o trabalho de torque não abre o ambiente quando ele é executado e, por isso, recebo "ImportError: Nenhum módulo chamado tensorflow" e meu código não é executado.

Como posso dizer aos nós para executarem o meu arquivo python em um ambiente tensorflow?

É assim que meu arquivo de trabalho de torque parece

Nota: Aqui tentei executar o comando que abre o ambiente, em outras versões que não o fiz.

Agradecemos antecipadamente por qualquer ajuda disponível.

    
por Oha Noch 05.10.2017 / 14:09

1 resposta

1

Desculpe, esqueci de responder quando recebi a resposta. Se alguém vir isso no futuro, a correção para meu problema foi exportar a variável PATH para a pasta anaconda bin (onde poderia encontrar o binário python que o anaconda usa e que pode acessar o tensorflow):

export PATH="<path_to_anaconda_folder>/anaconda3/bin:$PATH"

Obrigado ao Tux_DEV_NULL pela ajuda!

Além disso, adicionei o seguinte apenas no caso de evitar futuros problemas de cuda (estou usando o gpu), na verdade não sei se é necessário, mas talvez acabe ajudando alguém ...:

export PATH=$PATH:/usr/local/cuda-8.0/bin
    
por 22.10.2017 / 21:52

Tags