資料分析團隊的5種角色及8種分析技術修煉

上星期與同學分享了資料分析的五種角色,深怕大家不是這麼理解,因此我利用了早上的時間,整理了這些角色的詳細描述,希望有助於大家更有學習的方向。

實務上,資料分析或是所謂大資料分析,是一個新興的工作項目,無論是在人才或是對於既有組織管理與資源調配上,有許多人力資源以及管考制度需要同時配合,最近看到兩種Big Data Analytics的團隊角色,深感在技術議題外,如何建構一個資料分析團隊,如何讓這樣的資料分析團隊融入組織,這是一個非常關鍵的思考議題。

Big Data Analytics如何導入現有的商業流程,如何無縫的整合既有的核心價值,這是現在的當務之急。

 尊重既有組織,加值現有核心,建構未來遠景

圖片

一個會務實思考到運用Big Data Analytics的組織,這個組織一定已經有現在生存與競爭的核心價值,Big Data Analytics並非是魔術棒,他的成功必須建構在既有的核心價值。例如做資安的Big Data Analytics,純粹採用Algorithm而忽略既有的domain know-how,那是無法應用於實質問題上的,因此,在哈佛商業評論 Blog Network上,Matt Ariker, Tim McGuire, and Jesko Perry提出一個Big Data Analytics Team需要有五種角色,這五種角色分別是:Data Hygienists、Data Explorers、Business Solution Architects、Data Scientists與Campaign Experts。基本上這五種角色在與我的夥伴們深入討論後,各個角色環環相扣。

  • Data Hygienists:這個角色的手上滿滿大量複雜的資料,他的目的是要確保資料收集的準確性和穩定性,這是一切的根基,看到Tera等級的資料,不會腿軟,馬上就會有各種整理這些資料方法的排列組合,這個角色就是不斷跟不同來源的資料打交道,其中有一個文件上面沒有提到的東西,自然語言處理、高速資料索引技術、資料介接技術、資料倉儲技術的操作會是這個角色的核心能力,當然,Regular Expression、Python的Pandas等等這種技術的東西,或是商業的Splunk、Solr、Elastic Search都是很好的相關技術。
  • Data Explorers:發掘與拓展資料來源,並以專業知識合理判斷什麼樣的資料可以分析出什麼樣的結果,這個角色有深厚的專業領域知識,對於網路廣告業者而言,如何切割使用者年齡層,如何判斷區域性對於消費行為的影響,或是哪些port是常常被用來當惡意程式通訊使用等,這個角色超級無敵重要,這個角色決定了下一個角色Business Solution Architects的架構是黃金還是垃圾。這個角色橫跨既有的domain know-how與Big Data Analytics。
  • Business Solution Architects:綜合機關需求和產品研發所需,規劃資料結構和架構,方便資料科學家取用,這個角色橫跨Business與Big Data Analytics。
  • Data Scientists:取得資料作分析並給出分析樣態,我覺得這個角色大概是裡面最清楚的一個角色,他的工作深度很深,但工作內容經過Statitstic、Data Mining以及Machine Learning的發展,已經有一定的脈絡,然而若這個團隊只有Data Scientists,恐怕會法真正的轉化資料分析核心能量成為商業模式或是商業解決方案。
  • Campaign Experts:結合專業知識和分析樣態,把樣態包裝成產品給不同的客戶,對於網路廣告的使用者,他們就是需要告訴他們怎麼下廣告,對於資安人員,他們就是要知道惡意網路行為有哪些規則或是特徵,對於選舉操盤手來說,他們就只是要知道哪裡的選民現在不爽什麼,甚至可以幫他們自動推薦用什麼方式可以讓他們滿意,這個角色是橫跨Big Data Analytics與User,將理性的數據轉成感性或是可行的行動方案。

而今天早上,看到了教授分享了另外一個頗新的投影片,說明未來Big Data Analytics “The 8 most in-demand big data roles",(原文出處:http://www.computerworld.com/slideshow/detail/138836/The-8-most-in-demand-big-data-roles-) ,這8個角色更細緻地說明甚至間接補充了5個角色在資料分析專業領域的工作內容。

  • ETL (Extract, Transfer and Load) developers:預估年薪11~13萬美金,這個角色類似Data Hygienists,原文有提到這句話""Given that the ETL software industry is rather mature, these positions are likely to have some of the longest tenures in the big data resource pool, and are often a mix of employees and contract resources,",我想個角色的必要性是毋庸置疑的。
  • Hadoop developers:預估年薪15-17.5萬美金,這個角色除了要熟Java,更要熟整個Hadoop ecosystem,就我的觀點,怎麼把一個集中運算的問題拆解成分散運算的框架,就是這個角色的核心價值,小到實作分散是的矩陣相乘,大到如何實現大規模資料探勘演算法或是整個Business流程。
  •  Visualization tool developers:預估年薪15-17.5萬美金,常常我們在開發核心技術的時候,如何呈現往往是業主所非常在意的一個環節,新形態的視覺化套件會是Big Data Analytics最好的推銷員。
  •  Data Scientists:預估年薪12.5-14萬美金,這個角色我不贅言,基本上我本來是想要把自己定位在這個角色,後來當我認識了更棒的人才之後,我覺得這個角色就是熱愛問題,熱愛用數字解決問題的人,至於要會什麼ㄋ?我覺得那倒是其次,當你熱愛用數字解決問題,那數學就不會差,你熱愛用數字解決大量的問題,那你的程式就不會差了,至於發幾篇重要的論文或是有多少專利,這就是充要條件了。
  • OLAP developer:預估年薪9.75-11.55萬美金,"slice and dice" analytics是這個角色非常重要的特性,如何從關聯是資料分析變成維度導向的資料,就我現在的團隊來說,這個角色的產出往往是馬上可以讓人驚豔的。
  • Data warehouse appliance specialists:預估年薪9.795-12.36萬美金,MIS或是過去DBA其實這是你們新的舞台,提供給資料分析人員強大與穩定的實體運算框架。
  • Predictive analytics developers:預估年薪10.37-12.9萬美金,"Predictive analytics are used heavily in marketing organizations to predict consumer behavior and target product audiences,",我只能說對於未來的不確定性,預測模型往往會幫助使用者做一些決定,說細一點,時間序列的分析在這邊就頗為重要了。
  • Information architects:預估年薪11.37-13.53美金,如何讓上面這些角色working as a team,或是說如何讓整個流程的產出是真正有商業效益的,這個角色的重要工作就是這樣,類似Business Solution Architects。

結語:了解這些角色有助於個人目標的追尋、團隊的養成以及企業商業目標的達成,這個過程中也許會遇到許多企業的阻力或是傳統思維的改變,這會是最具挑戰性的工作,有時候想想,傳統組織可能要比Google更能推動Big Data,因為要從內心去接受往往所花的成本與功夫是最大的。