Quando executo nvidia-smi
, recebo a seguinte mensagem:
Failed to initialize NVML: Driver/library version mismatch
Há uma hora, recebi a mesma mensagem e desinstalei minha biblioteca cuda e pude executar nvidia-smi
, obtendo o seguinte resultado:
Depois disso, baixei cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb
da página oficial da NVIDIA e simplesmente:
sudo dpkg -i cuda-repo-ubuntu1604-8-0-local-ga2_8.0.61-1_amd64.deb
sudo apt-get update
sudo apt-get install cuda
export PATH=/usr/local/cuda-8.0/bin${PATH:+:${PATH}}
Agora eu tenho o cuda instalado, mas recebo o erro de incompatibilidade mencionado.
Algumas informações potencialmente úteis:
Em execução cat /proc/driver/nvidia/version
, recebo:
NVRM version: NVIDIA UNIX x86_64 Kernel Module 378.13 Tue Feb 7 20:10:06 PST 2017
GCC version: gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.4)
Estou executando o Ubuntu 16.04.2 LTS.
O lançamento do kernel é: 4.4.0-66-genérico.
Obrigado!
Respostas:
Surpresa surpresa, a reinicialização resolveu o problema (eu pensei que já tinha tentado isso).
A solução que Robert Crovella mencionou nos comentários também pode ser útil para outra pessoa, já que é bastante semelhante ao que eu fiz para resolver o problema na primeira vez que o tive.
fonte
/var/log/apt/history.log
no Ubuntu revelou que o sistema atualizou automaticamente a libcuda, o que presumivelmente exigiu uma reinicialização para continuar funcionando corretamente. Desde então, desativei essas atualizações na esperança de que não voltarei a vê-lo.nvidia-390
). Veja minha resposta abaixosudo reboot now
e outras não.Como o @etal disse, a reinicialização pode resolver esse problema, mas acho que um procedimento sem reiniciar ajudará.
Para chinês, verifique meu blog -> 中文 版
A mensagem de erro
informe-nos que o módulo do kernel do driver da Nvidia (kmod) tem uma versão incorreta; portanto, devemos descarregar esse driver e carregar a versão correta do kmod
Como fazer isso ?
Primeiro, devemos saber quais drivers estão carregados.
você pode obter
nosso objetivo final é descarregar o
nvidia
mod, então devemos descarregar o módulo dependendonvidia
então, descarregue
nvidia
Solução de problemas
se você receber um erro como o
rmmod: ERROR: Module nvidia is in use
que indica que o módulo do kernel está em uso, você deve interromper o processo usando o kmod:e, em seguida, mate esses processos e continue a descarregar os kmods
Teste
confirme se você descarregou com êxito esses kmods
você não deve obter nada e confirme que pode carregar o driver correto
você deve obter a saída correta
fonte
Então, eu estava tendo esse problema, nenhum dos outros remédios funcionou. A mensagem de erro era opaca, mas a verificação do dmesg foi fundamental:
No entanto, eu havia removido completamente a versão 384 e os drivers de kernel restantes
nvidia-384*
. Mas mesmo após a reinicialização, eu ainda estava conseguindo isso. Ver isso significava que o kernel ainda estava compilado para fazer referência à 384, mas estava apenas encontrando 410. Portanto, recompilei meu kernel:E então funcionou.
Após remover o 384, eu ainda tinha 384 arquivos em: /var/lib/dkms/nvidia-XXX/XXX.YY/4.13.0-43-generic/x86_64/module /lib/modules/4.13.0-43-generic/ kernel / drivers
Eu recomendo usar o
locate
comando (não instalado por padrão) em vez de pesquisar o sistema de arquivos todas as vezes.fonte
locate nvidia-smi
. Eu usei o comando para descobrir que outro driver foi instalado.uname -r
Não me ajudou.dmesg
saída:NVRM: API mismatch: the client has the version 418.67, but NVRM: this kernel module has the version 430.26. Please NVRM: make sure that this kernel module and all NVIDIA driver NVRM: components have the same version.
Eu recebi o erro
failed to initialize NVML: Driver/Library version mismatch
do meu indicador nvidia-gpu-temperature-. E a nvidia-smi não conseguiu imprimir nenhuma informação. Tentei descobrir se havia outras versões do driver da nvidia instaladas no meu ubuntu. Mas acabei de encontrar nvidia-driver-390. No final,reboot
me ajudou a resolver o problema.fonte
As 2 principais respostas não podem resolver meu problema. Encontrei uma solução no fórum oficial da Nvidia resolvendo meu problema. As informações de erro abaixo podem causar a instalação de duas versões diferentes do driver por abordagens diferentes. Por exemplo, instale o driver da Nvidia pelo apt e pelo instalador oficial.
Para resolver esse problema, é necessário executar apenas um dos dois comandos a seguir.
fonte
Isso também aconteceu comigo no Ubuntu 16.04 usando o
nvidia-348
pacote (versão mais recente da nvidia no Ubuntu 16.04).No entanto, eu poderia resolver o problema instalando
nvidia-390
através do PPA de drivers proprietários da GPU .Portanto, uma solução para o problema descrito no Ubuntu 16.04 está fazendo o seguinte:
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update
sudo apt-get install nvidia-390
Nota: Este guia assume uma instalação limpa do Ubuntu. Se você possui drivers anteriores instalados, uma reinicialização pode ser necessária para recarregar todos os módulos do kernel.
fonte
Teve o problema também. (Estou executando o ubuntu 18.04)
O que eu fiz:
dpkg -l | grep -i nvidia
Então
sudo apt-get remove --purge nvidia-381
(e todas as versões duplicadas, no meu caso, eu tinha 381, 384 e 387)Então
sudo ubuntu-drivers devices
para listar o que está disponívelE eu escolho
sudo apt install nvidia-driver-430
Depois disso,
nvidia-smi
deu a saída correta (não há necessidade de reiniciar). Mas suponho que você possa reiniciar em caso de dúvida.Também segui esta instalação para reinstalar o cuda + cudnn.
fonte
Experimentei esse problema após uma atualização normal do kernel em uma máquina CentOS. Como todos os drivers e bibliotecas CUDA e nVidia foram instalados por meio de repositórios YUM, consegui resolver os problemas usando as seguintes etapas:
Isso garantiu que meu kernel e meu driver nVidia fossem consistentes. Eu acho que apenas reiniciar pode resultar na versão errada do módulo do kernel sendo carregada.
fonte
Eu tenho que reiniciar meus kernels e remover todos os pacotes que eu instalei anteriormente (durante a primeira instalação), certifique-se de excluir todos os pacotes, mesmo depois de remover os pacotes pelo comando abaixo
os pacotes como "libtinfo6: i386" não são removidos
Estou usando o Ubuntu 20.04 e Nvidia-driver-440 para que você tenha que remover todos os pacotes mostrados abaixo.
Lista de todos os pacotes que precisam ser removidos:
conforme mostrado na imagem, verifique se o pacote que você está instalando tem o tamanho correto de 207 Mb para Nvidia-driver-440, se for menor, significa que você não removeu todos os pacotes.
fonte
Eu tinha reinstalado o driver da nvidia: execute estes comandos no
root
modo:systemctl isolate multi-user.target
modprobe -r nvidia-drm
Reinstale o driver Nvidia:
chmod +x NVIDIA-Linux-x86_64–410.57.run
systemctl start graphical.target
e finalmente cheque
nvidia-smi
Obrigado a: Como instalar drivers Nvidia e CUDA-10.0 para GPU RTX 2080 Ti no Ubuntu-16.04 / 18.04
Como descarregar o módulo do kernel 'nvidia-drm'?
fonte
Confirmei o contêiner em uma imagem do Docker. Em seguida, recrio outro contêiner usando esta imagem de janela de encaixe e o problema se foi.
fonte
Essas respostas não funcionaram para mim:
https://stackoverflow.com/a/43023000/1179925
https://stackoverflow.com/a/45319156/1179925
https://stackoverflow.com/a/54349675/1179925
dmesg
Desinstale o driver antigo
418.67
e instale o novo driver430.26
(downloadNVIDIA-Linux-x86_64-430.26.run
):cat /proc/driver/nvidia/version
fonte
reiniciar. Se o problema ainda existir:
por cent / rhel
então
fonte
Para o meu caso, instalei o driver da nvidia e depois o cuda. Eu achei que pode ser corrigido apenas instalando cuda. https://developer.nvidia.com/cuda-toolkit
fonte