想媒合、挖資料?身為數據科學家,你必須知道的幾個社群平台!

0
2199
圖片來源:Charles Deluvio on Unsplash

2020年,想進入「數據科學」的職業領域,有哪些重要的學習資源?除了程式語言工具(如R、Python)之外,又有哪些概念必須掌握?哪些數據社群平台一定要加入?而數據工程師的職業生活,是否又如想像中那麼美好?

國內大數據人才需求逐年攀升,不少民間資訊補教業者也陸續開辦數據短期課程,但事實上,Python程式語言只是進入數據科學職缺的入場券。想要成為獨當一面的數據科學家/數據工程師,還有哪些職業道路指南可供參考?

根據KDNuggets在2020年八月最新調查,在數據科學的技能面上,除了Python和R語言,最好也需要具備基礎數學概念,特別在機率統計、線性代數領域。但也不是只有在大學或研究所才能學到這些學科,不少開放式線上課程(如台大開放式課程OCW),都能夠以通識等級的入門難度,讓學習者擁有基本的數據應用數學概念。在Python語言普及度已經飽和的數據就業市場中,「數學」可能成為讓求職者突出的關鍵。

另一方面,由於數據科學講究與業界真實數據深度整合,因此在實務脈絡下的學習也深受重視。例如海外數據科學社群的重要集散地「Analytics Vidhya」,除了基礎免費的資料分析、資料探勘課程,到由業界認證、提供業界去識別化資料供線上學習的進階收費課程,也提供大量的數據駭客松(Hackathon)活動,藉由實際參與團隊專案發想與問題解決,培養數據應用能力。最後,Analytics Vidhya也搭建了數據工作媒合平台,協助評估目前已習得的數據知識,在平台上是否找得到適合的工作職缺。

此外,Google於2017年收購的「Kaggle」數據平台,也是數據科學家匯集的重鎮。除了職缺媒合與職業地圖,許多大型企業都會在Kaggle上提供企業內部數據,而研究者或業界人士,則可在其上進行數據分析或模型產製,每個議題都有由企業提供的獎金,而企業也可以向參賽優勝者「買斷」其精確的數據模型或演算法。無論在國內外數據相關就業領域,參與過上述兩平台的活動或競賽,都能成為一項加分。

kaggle
Kaggle上企業出題的數據競賽,動輒超過一百萬新台幣獎金,競爭非常激烈。
圖片來源:Kaggle

免費的大數據集:業界工程師的火藥庫

而對於已經在數據科學產業的從業者來說,已經整理好的大型數據叢集(Dataset),可以讓工程師免於重新爬蟲尋找資料。除了上述的Kaggle,幾個大型數據平台都有提供大量企業數據,例如免費的UCI Machine Learning Repository、Google Custom Dataset Search等,都有不同格式與內容的資料可供運用。

然而除了技能面,數據科學家、數據工程師所需要的特質,也與其他ICT工程領域有所不同。傳統埋首於Coding的天才程式設計師、孤軍奮戰的駭客風格,在數據科學領域已不是最佳人格特質。根據印度最大型數據平台AIM統計,數據產業的人才強烈要求具備顧客核心導向(Customer-Centric)精神、高度的可諮詢性(Consultative)、以及熟悉企業的既有領域知識等,都是重要的職能面向。

但另一方面,雖然數據科學工作看似前途美好薪水優渥,從業者卻仍面臨不少困境。著名數據科學研究者、Deliveroo現役數據科學家Jonny Brooks-Bartlett在一篇文章中提到,諸如企業的數據基礎建設不足、老闆對數據科學的認知偏差(例如期待得到一張圖表就解釋營運狀況)、常常必須應付臨時性的「政治」需求(例如從資料庫中選取片面數據,以便呈現給特定主管或客戶看),以及管理層對數據科學家/工程師的職能不清楚、或因配置不足導致「一人一team」的情景,都是數據領域從業者面對的實際狀況。

國內目前雖然對數據人才的需求開始增加,然而數位基礎建設(如產線數據化程度、資料庫結構化程度),組織文化、職能定位等,仍會對數據人才在企業內的生存與發展空間造成不同影響。