CUDA Problemas de desempenho dependendo de um SO

0

Eu tenho duas máquinas que são exatamente as mesmas em termos de hardware. Nelas, eu tenho 1 Debian e 1 custom build com imagem do linux buildroot.

O problema que estou tendo é o seguinte:

Para minha aplicação, estou obtendo aproximadamente 2x desempenho na máquina Debian em relação à máquina de imagem de compilação personalizada.

Estou tentando entender o que poderia causar essa diferença.

A versão do cuda é de 7,5 | As versões do driver são:
Debian: 361,28
Personalizado: 367,27

Algumas informações que podem ser relevantes:
Se eu executar o deviceQuery (a partir de amostras cuda) em ambas as máquinas, os resultados serão quase, mas não exatamente iguais:
1ª diferença está em linha:
Isto é para o Debian:
Quantidade total de memória global: 3069 MBytes
E isso é para Custom:
Quantidade total de memória global: 3008 MBytes
(Embora eu duvide que essa diferença possa causar a diferença mencionada no desempenho). A outra diferença é:
Debian:
Tempo limite de execução nos kernels: Sim
Personalizado:
Tempo limite de execução em kernels: No

(Há servidor X em ambos os sistemas, mas em um Custom é um barebone X com twm)

Se eu executar o bandwidthTest de amostras, os resultados serão mais ou menos os mesmos para largura de banda de host para dispositivo, 1 dispositivo (s) e dispositivo para largura de banda do host, 1 dispositivo (s), mas podem diferir significativamente para Dispositivo para largura de banda do dispositivo, 1 dispositivo (s)
Então, para a última entrada, os valores no Debian estão na área de 100k MB / s (embora às vezes caia para cerca de 63k). Para Custom, é consistentemente no nível de 63k.

Eu ficaria feliz se você pudesse me ajudar com conselhos sobre o que eu deveria investigar mais e qual poderia ser o problema.
Obrigada!

UPD: Eu tentei executar o servidor X em um sistema personalizado usando nvidia para isso. (rodar o X com a intel não está influenciando o perf de qualquer maneira perceptível). Não está iniciando totalmente, mas também não está travando.
Fato interessante - se eu iniciar minha aplicação quando o X estiver neste estado semi-iniciado - a performance cai ainda mais (mais de 4x decréscimo do total do Debian)

Upd2 : Acabei de tentar atualizar para CUDA 8 em uma máquina personalizada - não mudou a situação descrita.

Upd3 : link Mostra 2x ou mais redução de perf em um sistema personalizado para cada tipo de operação que pode medir. (E também quase 2x no dispositivo para a cópia da memória do dispositivo)

    
por Stvad 29.06.2016 / 08:31

1 resposta

0

Ok, o que finalmente ajudou foi atualizar a forma como o driver nvidia foi instalado para obter um conjunto completo de utilitários nvidia (mudando o padrão buildvid nvidia mk). E executando o aplicativo depois de iniciar o servidor X. Embora isso continue o mesmo: Tempo limite de execução nos kernels: Não

    
por 30.06.2016 / 14:27