全台灣最大數據分析競賽上線啦!蝦皮2020數據分析競賽心得

Posted by John on 2021-01-25
Words 1.2k and Reading Time 4 Minutes
Viewed Times

這篇文章紀錄2020/11/21的蝦皮數據分析競賽心得~

競賽介紹

儘管競賽名稱是全台灣最大數據分析競賽,但實際上的競賽內容我覺得還不太夠格冠上這個名稱xD

為何這樣說呢?

首先,組別總共分成學生組和職業組,根據組別其實競賽題型差異極大:

  • 學生組: 考類似leetcode的演算法題型
  • 職業組: 考kaggle數據分析競賽

並且使用的平台都是在kaggle上(不太知道學生組這樣的題型要如何在kaggle上去做排名?)

接下來是競賽時間,他是線下賽,一開始想說一個kaggle的線上賽好說歹說都是星期起跳的,線下賽好歹你也要給個一天的時間吧

結果競賽時間只有2個小時,你沒看錯就是120分鐘而已呢。

如果對一個數據分析的流程比較有概念的話,通常我們知道資料處理的過程大致分成幾個階段

  1. Data Understaning: 了解資料、問題資料前處理
  2. Analysis: 資料分析(統計分析、視覺化),透過探索式資料分析(Exploratory Data Analysis, EDA)去幫助我們快速理解數據
  3. Modeling: 進行前處理後嘗試去建模,包含baseline model
  4. Tuning: 開始根據結果進行調參
  5. Evaluation: 如何知道我們的模型夠不夠好? 根據training data / validation data來進行判斷

1 - 5 通常會是一個循環,可能走到 step4, step5後又回去step1繼續觀察不同的特徵…

上述看起來五項並不多,不過光是上面這幾項就夠折騰了,更何況還要在2個小時內搞定真的是很大的挑戰。

不過還是很感謝三名隊友願意接受我的邀請,跟我一起去台北南港展覽館只為了比這兩個小時(競賽時間也是報名完後才知道的,如果事前知道只有兩個小時就可能不會報名了…還有個隊友特地從高雄搭高鐵上來)

接下來就分享一下當天現場的狀況搂~

歷程紀錄

很久沒來南港展覽館了,上一次來也是參加某個年會的時候,儘管活動時間只有半天,但場佈其實仍然壯大

很壯觀的競賽會場,蝦皮的袋子內其實就是廣告紙xD 好歹給個紀念品嘛(其實賽後有送競賽T-shirt)

廣告紙裡面有一張"臨時抱佛腳"...? 雖然我沒有去登記所以不知道到底是什麼

下午正式開始活動後,主辦方會花點時間介紹Telegram的使用,以及Kaggle平台的操作方式,所以沒有經驗的參賽者也不會遇到太大問題(吧)。

介紹完後就是短得可憐的兩小時競賽,職業組的題目是: 給予一堆id在某期間的交易紀錄,預測他在未來某段時間的交易次數(應該是這樣,有點久了不太記得題目了QQ)

給予的資料量不算大,但其實也不小,並且有很多個不同的csv file要去分析和了解資料集的欄位,所以處理上還是需要一點時間。

我們team 4個人的分工大致如下:

  1. 一開始大家都先讀題,確保了解題目
  2. 2-3個人相互分工進行前處理,1個人去處理後續的modeling
    • 前處理分工的方式很重要(e.g.如何直接使用對方處理好的data來做自己的工作),不然大家會做到相同的事情
  3. 確保能夠產生第一版可以上傳的output.csv之後,開始進行調參跟其他嘗試

儘管事前有先討論過分工模式,但實際上兩個小時真的太趕了,我們team來說光是在了解資料和簡單的前處理其實就花了大約一個半小時(因為中途誤解題目又多花了很多時間),接下來才是簡單的建模和測試,然後弄一弄沒什麼時間調參時間就結束了

在最後一次的結果我們晚了幾秒來不及上傳,不過賽後上傳後發現我們的分數是可以擠進銅牌的,真是太可惜了QQ

最後雖然沒有得名,但還是一次蠻新鮮的體驗,很少參加到線下的數據分析競賽,而且我也因為工作的緣故疏於練習python,導致在競賽中拖累隊友QQ

資料處理真的需要熟練度的,平常就該好好練習~

最後附上冠軍隊伍的名稱,很有趣,主持人唸到一半後就直接放棄了xD


>