這篇文章紀錄2020/11/21的蝦皮數據分析競賽心得~
競賽介紹
儘管競賽名稱是全台灣最大數據分析競賽,但實際上的競賽內容我覺得還不太夠格冠上這個名稱xD
為何這樣說呢?
首先,組別總共分成學生組和職業組,根據組別其實競賽題型差異極大:
- 學生組: 考類似leetcode的演算法題型
- 職業組: 考kaggle數據分析競賽
並且使用的平台都是在kaggle上(不太知道學生組這樣的題型要如何在kaggle上去做排名?)
接下來是競賽時間,他是線下賽,一開始想說一個kaggle的線上賽好說歹說都是星期起跳的,線下賽好歹你也要給個一天的時間吧
結果競賽時間只有2個小時,你沒看錯就是120分鐘而已呢。
如果對一個數據分析的流程比較有概念的話,通常我們知道資料處理的過程大致分成幾個階段
- Data Understaning: 了解資料、問題資料前處理
- Analysis: 資料分析(統計分析、視覺化),透過探索式資料分析(Exploratory Data Analysis, EDA)去幫助我們快速理解數據
- Modeling: 進行前處理後嘗試去建模,包含baseline model
- Tuning: 開始根據結果進行調參
- Evaluation: 如何知道我們的模型夠不夠好? 根據training data / validation data來進行判斷
1 - 5 通常會是一個循環,可能走到 step4, step5後又回去step1繼續觀察不同的特徵…
上述看起來五項並不多,不過光是上面這幾項就夠折騰了,更何況還要在2個小時內搞定真的是很大的挑戰。
不過還是很感謝三名隊友願意接受我的邀請,跟我一起去台北南港展覽館只為了比這兩個小時(競賽時間也是報名完後才知道的,如果事前知道只有兩個小時就可能不會報名了…還有個隊友特地從高雄搭高鐵上來)
接下來就分享一下當天現場的狀況搂~
歷程紀錄
下午正式開始活動後,主辦方會花點時間介紹Telegram的使用,以及Kaggle平台的操作方式,所以沒有經驗的參賽者也不會遇到太大問題(吧)。
介紹完後就是短得可憐的兩小時競賽,職業組的題目是: 給予一堆id在某期間的交易紀錄,預測他在未來某段時間的交易次數(應該是這樣,有點久了不太記得題目了QQ)
給予的資料量不算大,但其實也不小,並且有很多個不同的csv file要去分析和了解資料集的欄位,所以處理上還是需要一點時間。
我們team 4個人的分工大致如下:
- 一開始大家都先讀題,確保了解題目
- 2-3個人相互分工進行前處理,1個人去處理後續的modeling
- 前處理分工的方式很重要(e.g.如何直接使用對方處理好的data來做自己的工作),不然大家會做到相同的事情
- 確保能夠產生第一版可以上傳的output.csv之後,開始進行調參跟其他嘗試
儘管事前有先討論過分工模式,但實際上兩個小時真的太趕了,我們team來說光是在了解資料和簡單的前處理其實就花了大約一個半小時(因為中途誤解題目又多花了很多時間),接下來才是簡單的建模和測試,然後弄一弄沒什麼時間調參時間就結束了
在最後一次的結果我們晚了幾秒來不及上傳,不過賽後上傳後發現我們的分數是可以擠進銅牌的,真是太可惜了QQ
最後雖然沒有得名,但還是一次蠻新鮮的體驗,很少參加到線下的數據分析競賽,而且我也因為工作的緣故疏於練習python,導致在競賽中拖累隊友QQ
資料處理真的需要熟練度的,平常就該好好練習~
最後附上冠軍隊伍的名稱,很有趣,主持人唸到一半後就直接放棄了xD