Eu tenho um número de servidores que possuem cartões GRID K2 nvidia Tesla.
Inicialmente, eles estavam funcionando bem. Mas recentemente atualizei o driver do kernel e encontrei um problema em que os aplicativos baseados em CUDA não estavam mais detectando a presença da GPU.
Em detalhes de inspeção mais próxima de / proc / drivers / nvidia / gpus / * / information Já não estão a fornecer UUID & Detalhe do BIOS de vídeo. Em vez disso, estou recebendo o seguinte. Enquanto em um nó de trabalho recebo detalhes normais (não,?).
Bus Location: 0000:89:00.0
Model: GRID K2
IRQ: 46
GPU UUID: GPU-????????-????-????-????-????????????
Video BIOS: ??.??.??.??.??
Bus Type: PCIe
DMA Size: 37 bits
DMA Mask: 0x1fffffffff
Bus Location: 0000:8a:00.0
Eu tentei reinicializar a máquina a frio com a versão de trabalho de configuração conhecida anterior (esses servidores são inicializados pela rede) e o problema também está persistindo com os drivers antigos.
O que poderia estar errado aqui? As cartas estão torradas?