Desaceleração do leitor Tensorflow no Ubuntu 16.04

0

Eu não sou muito experiente com o Linux e o sistema operacional pode não ser o problema.

Estou experimentando o tensorflow e atingi uma parede. Eu tenho um script bash que lança programas python consequentemente treinando com diferentes hiperparâmetros. Eu uso cuda 7.5 e cudnn 4 para calcular na placa gráfica, os dados estão no formato tensorflow e eu uso TFReadRecords como o leitor.

Inicialmente tudo funciona bem. O problema é que o script python diminuirá a velocidade de 10 a 20x aleatoriamente algumas horas depois de eu iniciar o script bash, primeiro normalmente durante um dos primeiros 3 scripts python.

Normalmente, demora ~ 50-60% da carga da CPU para ler dados e transferi-los para a GPU, mas durante a desaceleração eu notei no monitor do sistema que ele fica limitado a um único núcleo da CPU (veja screenshots fast , lento ).

Ele pode acelerar (sendo distribuído em todos os 4 núcleos) e desacelerar novamente várias vezes. Às vezes, ele faz isso sozinho, às vezes ele volta ao normal quando eu abro e fecho programas e às vezes ele não acelera de novo. Acontece com mais frequência quanto mais tempo o script bash é executado.

Coisas que tentei e não ajudaram: -setting o bom valor para -20 do script python o script bash ou o terminal - alterando a afinidade da CPU com o conjunto de tarefas correndo-lo do console ao parar lightdm

Qualquer sugestão seria ótima!

    
por Csaba Konrád 08.08.2016 / 21:43

1 resposta

0

Quanta memória em sua GPU (melhor ainda, seu modelo não) e você tem uma estimativa do tamanho da memória do problema?

Eu estou querendo saber se está fazendo algum equivalente de GPU de debulhar. Ainda assim, ele pode se recuperar de lento para rápido, indicando algo no algoritmo. Este é um programa disponível publicamente (digamos, um programa de exemplo) ou um dos seus? Este é o primeiro programa "grande" que você já experimentou ou executou ou já executou outros, que presumivelmente funcionou bem.

    
por patfla 08.08.2016 / 22:31