Drivers Nvidia não identificados após a reinstalação

0

Então houve alguma falha no CUDA8 no servidor, os drivers nvidia não puderam ser identificados. Eu expirei a nvidia, então o kernel foi rebaixado para 116, depois atualizado de volta para 119. Eu reinstalei o driver (nvidia 384) e instalei os drivers cuda ( sudo apt-get -y install cuda-drivers ), mas continuo recebendo esses erros:

nvidia-smi
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

lsmod e não identifica nvidia, mas

ubuntu-drivers devices | grep nv
driver   : nvidia-384 - third-party free
driver   : nvidia-390 - third-party free recommended

e

modinfo nvidia-384
filename:       /lib/modules/4.4.0-119-generic/updates/dkms/nvidia_384.ko
alias:          char-major-195-*
version:        384.130
supported:      external
license:        NVIDIA
srcversion:     586B4E0CF4083A6BC41A33B
alias:          pci:v000010DEd00000E00sv*sd*bc04sc80i00*
alias:          pci:v000010DEd*sv*sd*bc03sc02i00*
alias:          pci:v000010DEd*sv*sd*bc03sc00i00*
depends:        
vermagic:       4.4.0-119-generic SMP mod_unload modversions 
parm:           NVreg_Mobile:int
parm:           NVreg_ResmanDebugLevel:int
parm:           NVreg_RmLogonRC:int
parm:           NVreg_ModifyDeviceFiles:int
parm:           NVreg_DeviceFileUID:int
parm:           NVreg_DeviceFileGID:int
parm:           NVreg_DeviceFileMode:int
parm:           NVreg_UpdateMemoryTypes:int
parm:           NVreg_InitializeSystemMemoryAllocations:int
parm:           NVreg_UsePageAttributeTable:int
parm:           NVreg_MapRegistersEarly:int
parm:           NVreg_RegisterForACPIEvents:int
parm:           NVreg_CheckPCIConfigSpace:int
parm:           NVreg_EnablePCIeGen3:int
parm:           NVreg_EnableMSI:int
parm:           NVreg_TCEBypassMode:int
parm:           NVreg_UseThreadedInterrupts:int
parm:           NVreg_EnableStreamMemOPs:int
parm:           NVreg_MemoryPoolSize:int
parm:           NVreg_RegistryDwords:charp
parm:           NVreg_RegistryDwordsPerDevice:charp
parm:           NVreg_RmMsg:charp
parm:           NVreg_AssignGpus:charp

Mas

    sudo modprobe nvidia_384
modprobe: ERROR: could not insert 'nvidia_384': Exec format error

Não sei o que fazer com tudo isso. Por que a GPU (Tesla K40) não é identificada? Devo reinstalar o CUDA?

EDIT: lspci realmente identifica:

lspci | grep -i nvidia
03:00.0 VGA compatible controller: NVIDIA Corporation GF119 [NVS 315] (rev a1)
03:00.1 Audio device: NVIDIA Corporation GF119 HDMI Audio Controller (rev a1)
04:00.0 3D controller: NVIDIA Corporation GK110BGL [Tesla K40m] (rev a1)
    
por Alex 10.04.2018 / 22:17

1 resposta

0

Tente usar os drivers da Nvidia fornecidos pelo Ubuntu. Ative a fonte de software "Universo" e, sob a guia "Drivers adicionais", selecione o driver testado da Nvidia 384. Será 384.111 e a saída do ubuntu-drivers será:

driver   : nvidia-384 - distro non-free recommended  

Após o nvidia-smi ver o driver, tente a instalação do cuda.

    
por ubfan1 11.04.2018 / 00:36