解決NVIDIA-SMI has failed because it could not communicate with the NVIDIA driver

Posted by John on 2020-05-02
Words 336 and Reading Time 1 Minutes
Viewed Times

前言

最近因為碩論進入了瘋狂跑實驗補數據的階段,有幾個model又要訓練的蠻久的,讓人有時覺得有點小煩躁。

問題描述

昨天,對就是昨天,在server上用gpu訓練model訓練到一半,然後我interrupt kernel後感覺失敗了,從那一刻起jupyter再也不理我,然後ssh server也連不上了…

不過萬幸的是ping server還是ping的到,所以應該不是整個server爆炸了。不過由於server在學校,也沒辦法繼續進行實驗,等隔天請人幫忙將server重開後server就可以登進去了。

儘管成功登進去了,不過又遇到了奇怪的靈異事件,那就是不論使用nvidia-smi或是gpustat均取得不到顯卡的資訊。

明明前一晚還好好的,一重開就這樣真的很讓人傻眼…這種時期server可不能出事阿…

解決方法

後來參考網路上的解決方法,先確認nvcc -V可以正常取得驅動的資訊,然後透過dkms重新安裝nvidia

sudo apt-get install dkms
sudo dkms install -m nvidia -v [GPU_DRIVER_VERSION]

驅動的版本可以透過ls /usr/src查看

更新完就解決了!! 可喜可賀可喜可賀

Reference


>