Device rebooting during deep learning training

Posted by John on 2020-03-16
Words 482 and Reading Time 1 Minutes
Viewed Times

前言

一直有個壞習慣就是看到值得一看的文章就會先加到我的最愛蒐藏起來,想說以後再看,不過總是沒有行動,日積月累下我的最愛就跟個垃圾桶沒什麼兩樣……

打這篇文章的當下本人坐在實驗室裡面,覺得剛吃飽好累喔不想做正事,所以開始清我的最愛清單,清阿清啊發現了有兩篇是之前遇到的問題,原本打算要來寫blog記錄下來的可是居然忘了,所以來寫篇廢文記錄一下順便讓自己不要那麼睏(對我來說寫blog比做正事好多了)。

問題敘述

前陣子lab server發生了一個很奇怪的現象,當有多人同時在train deep learning model的時候,可能train個一陣子server就會自動重開,一開始也不知道為什麼會這樣,不斷的透過排除法來尋找問題在哪裡,只差沒拿綠色乖乖放在server上了。後來參考下面這兩篇文章找到了問題:

好滴,來畫個重點,就是我們實驗室用的電供(power)瓦數太低啦!小小的550W電供承擔不起咱們那高貴的RTX2080 Ti。當初在列設備規格的學長沒有靠慮到這點,所以當超載到一個極限後為了保護設備他就會自動重開機(不同電供有不同的對應措施)。

根據文章討論的內容,解決方法有兩種,一種是限制GPU的瓦數(文章內有提供程式碼參考),一種是當高級課長:砸錢換個好電供。

.

. .

我們後來選擇當課長了,所以新的電供來了之後就再也沒重新開機過了呢!有錢真棒!!


>