前言
最近因為碩論進入了瘋狂跑實驗補數據的階段,有幾個model又要訓練的蠻久的,讓人有時覺得有點小煩躁。
問題描述
昨天,對就是昨天,在server上用gpu訓練model訓練到一半,然後我interrupt kernel後感覺失敗了,從那一刻起jupyter再也不理我,然後ssh server也連不上了…
不過萬幸的是ping server還是ping的到,所以應該不是整個server爆炸了。不過由於server在學校,也沒辦法繼續進行實驗,等隔天請人幫忙將server重開後server就可以登進去了。
儘管成功登進去了,不過又遇到了奇怪的靈異事件,那就是不論使用nvidia-smi
或是gpustat
均取得不到顯卡的資訊。
明明前一晚還好好的,一重開就這樣真的很讓人傻眼…這種時期server可不能出事阿…
解決方法
後來參考網路上的解決方法,先確認nvcc -V
可以正常取得驅動的資訊,然後透過dkms重新安裝nvidia
sudo apt-get install dkms |
驅動的版本可以透過ls /usr/src
查看
更新完就解決了!! 可喜可賀可喜可賀