menu trigger
訂閱電子報
訂閱
掌握資料科學五技,成為業界搶手人才!
2019/04/30
F5 學程式

作者:F5 勇兔

 

根據國際資料公司(IDC)預測,2020年全球大資料和業務分析收入將超過兩千億美元。而LinkedIn於2018年8月發表的美國勞動力報告也顯示從2018年起,美國有越來越多公司公司透過資料科學進行商業分析與決策。

 

資料科學家對企業的價值

 

如今消費行為都能輕易儲存與取得的時代,越來越多企業需要資料科學人才幫助他們在大量資料中挖掘有價值的資訊,有利於營運、銷售或是預測市場等等。雖然表面上看,資料科學領域的就業機會呈現增加趨勢,但事實上卻有很多擁有資料科學背景的人由於技能不符合市場需求,而難以找到喜歡的工作。


資料科學的核心知識可以分成三部分,分別是幫助客戶帶來營收的業務能力、資訊處理技術以及量化分析技巧,資料科學家們必須懂驗證統計的結果、會解釋數據背後意義、以及和其他部門人員合作能力等等。不過,大多數的人並不具備所有技能。所以,即便企業的人才缺口很大,在市場上卻時常找不到想找的人。

 

資料科學家的五大技能


資料科學家的主要工作是將資料進行分析,技能領域可簡單分成三類,分別是:數學/統計學、程式設計和產業知識,網下再細分成五大能力:數理邏輯、程式技術、資料預處理、分析與解釋資料、商業思維等五項。

 

1.數理邏輯

首先,你必須具備基本的數學、統計學知識。一些基本的數學統計方法如描述性統計、多元統計分析、回歸分析等等,這些作為入門多少都要會一些,雖然有可能不會全用到,但難保將來不會遇到。

 

2.程式技術

技術聽起來是個很高的門檻,感覺好像硬體軟體都要會,再加上許多人會陷入到底要學R、Python還是SQL的問題中,不禁令人覺得距離很遙遠。但實際上不可能一人做完所有技術活,因此,應該針對分析目標訂定優先順序,從大處著眼。

 

一名合格的資料科學家重點在於數據能力,技術的部分只要了解基本系統架構以及能力限制就行。一開始要做的事情,其實是要了解不同技術工具在整個資料科學的生產流程中,所扮演的角色以及基本的使用方式。但是卻要非常熟悉整個生產流程應該如何串接,例如:

 

  • 資料來自哪裡?
  • 結構或非結構資料,有什麼辦法可以儲存或處理?
  • 針對不同資料有哪些分析工具適合使用?


根據「數據分析那些事」撰寫的資料分析指南,整理出以下兩點對於數據工具的學習建議:

 

資料整理自數據分析那些事


3.資料預處理

資料預處理,是指對資料進行清理、集成等讓格式比較標準一致的做法,這是資料分析中最重要的步驟,理應優先進行,又稱「資料前處理」。在電腦資訊領域中有一句諺語:「Garbage in, garbage out(簡稱GIGO)」,意思就是髒的資料也會產生髒的結果。

 

真實的世界中,資料往往沒有想像中的「乾淨」,在實際應用上,資料會有缺失(Imcomplete/Missing data)、雜訊(Noise)、偏離值等問題,因此應該先進行預處理,才能確保資料正確性,避免分析過程中造成誤判。以下列幾個常見的預處理問題:

 

  • 如何補全缺失值?
  • 如何處理或刪除異常值?
  • 如何將有共同特徵的資料合併或分組?
  • 什麼時候要將資料標準化?當前資料適合哪一種標準化方式?

 

4.分析與解釋資料

在處理資料過程中,關鍵的分析方式以及篩選,就需要靠分析能力來處理,即透過研究設計及數學分析來尋找最適合的解決分案。如果只有技術但是不會分析,就會發生只有資料產出,但是不知道「為什麼」的狀況。

 

無法解釋資料原因是很糟糕的事情,原因在於對資料不夠了解因此找不到原因,甚至一開始的資料就是錯的。因此,分析力必須培養辨識資料好壞以及設計演算法的能力,才能盡量降低資料從輸入到輸出的錯誤發生。

 

5.商業思維

資料科學家比起資料工程師最大的優勢是:他們擁有更敏銳的商業洞察。因為資料科學家是一個為企業提出策略方向、挖掘內部問題的角色,雖然沒有最出色的程式能力,卻能直接貢獻商業價值所在,因此許多企業都在尋找優秀的資料科學家、甚至乾脆自己組建一支資料科學團隊。

 

因此,資料科學家也必須對公司的商業模式有所了解與適當配合,否則遇到產品銷售量不佳時,只從當下數據去判斷很可能忽略更重要的問題,以至於陷入盲點不自知。例如一個以程式學習者為主要客群的教育平台,最應該優先發展的技術並不該是廣告分析模型,而是比較精準的課程推薦系統。

 

圖片來源


資料科學是產業知識與技術的結合


研究資料除了是專業知識的累積,尚需要實際觀察與領域知識的結合,才能協助資料分析過程不斷往更深入的層次邁進。其實很多時候我們身陷在資料科學盲點中而不自知,可能是好不容易預測出好結果而產生成就感,也可能是深陷其中不知如何解決問題而產生挫折感。

 

你應該認真思考的,是真的被「人」需要的資料科學。說到底,資料科學是一門解決問題的學問,而領域知識是用來幫助我們創造真正被需要的資料科學,不只是讓預測結果更準確這麼簡單而已。

 

延伸閱讀: