Eu tenho duas máquinas que são exatamente as mesmas em termos de hardware. Nelas, eu tenho 1 Debian e 1 custom build com imagem do linux buildroot.
O problema que estou tendo é o seguinte:
Para minha aplicação, estou obtendo aproximadamente 2x desempenho na máquina Debian em relação à máquina de imagem de compilação personalizada.
Estou tentando entender o que poderia causar essa diferença.
A versão do cuda é de 7,5 |
As versões do driver são:
Debian: 361,28
Personalizado: 367,27
Algumas informações que podem ser relevantes:
Se eu executar o deviceQuery (a partir de amostras cuda) em ambas as máquinas, os resultados serão quase, mas não exatamente iguais:
1ª diferença está em linha:
Isto é para o Debian:
Quantidade total de memória global: 3069 MBytes
E isso é para Custom:
Quantidade total de memória global: 3008 MBytes
(Embora eu duvide que essa diferença possa causar a diferença mencionada no desempenho).
A outra diferença é:
Debian:
Tempo limite de execução nos kernels: Sim
Personalizado:
Tempo limite de execução em kernels: No
(Há servidor X em ambos os sistemas, mas em um Custom é um barebone X com twm)
Se eu executar o bandwidthTest de amostras, os resultados serão mais ou menos os mesmos para largura de banda de host para dispositivo, 1 dispositivo (s) e dispositivo para largura de banda do host, 1 dispositivo (s), mas podem diferir significativamente para
Dispositivo para largura de banda do dispositivo, 1 dispositivo (s)
Então, para a última entrada, os valores no Debian estão na área de 100k MB / s (embora às vezes caia para cerca de 63k).
Para Custom, é consistentemente no nível de 63k.
Eu ficaria feliz se você pudesse me ajudar com conselhos sobre o que eu deveria investigar mais e qual poderia ser o problema.
Obrigada!
UPD:
Eu tentei executar o servidor X em um sistema personalizado usando nvidia para isso. (rodar o X com a intel não está influenciando o perf de qualquer maneira perceptível). Não está iniciando totalmente, mas também não está travando.
Fato interessante - se eu iniciar minha aplicação quando o X estiver neste estado semi-iniciado - a performance cai ainda mais (mais de 4x decréscimo do total do Debian)
Upd2 : Acabei de tentar atualizar para CUDA 8 em uma máquina personalizada - não mudou a situação descrita.
Upd3 : link Mostra 2x ou mais redução de perf em um sistema personalizado para cada tipo de operação que pode medir. (E também quase 2x no dispositivo para a cópia da memória do dispositivo)
Tags cuda linux operating-systems