Datalab travando apesar de alta memória e CPU

1

Estou executando uma VM do GATE Datalab com as seguintes especificações:

n1-highmem-16 (16 vCPUs, 104 GB memory)

Apesar de ter uma quantidade significativa de RAM, quando tento executar meu script de treinamento com um conjunto de dados de 300MB, o kernel está falhando. O código está treinando um NN e está passando pelas etapas de treinamento, mas ao avaliar o conjunto de testes ele está falhando - não apresentando erros.

Alguém sabe por que isso acontece ou como posso descobrir?

EDIT: O aviso que está chegando quando ele cai diz:

"o kernel parece ter morrido. ele irá reiniciar automaticamente o notebook jupyter"

    
por user1058210 05.03.2018 / 16:22

1 resposta

0

Eu adiciono isso como um comentário:

Já experimentou esta solução [1] último comentário?

Uma boa técnica para tentar (eu coloco isso no início de qualquer script usando tensorflow ou keras). Isso evita que o erro do recurso esteja esgotado, presumindo que o tamanho do lote esteja dentro do limite.

import tensorflow como tf config = tf.ConfigProto () config.gpu_options.allow_growth = True Agora, ao criar sua sessão, passe essa configuração para ela. sess = tf.Session (config = config)

[1] link

    
por 06.03.2018 / 16:15