投書|資料科學可以怎麼做?從巴黎恐攻、太陽花學運到智慧城市

投書|資料科學可以怎麼做?從巴黎恐攻、太陽花學運到智慧城市

圖片來源:Unsplash

作者: 吳君孝

2012年《紐約時報》其中一篇專欄中提及,「大數據時代已經降臨,在商業、經濟及其他領域中,決策將日益基於資料和分析而作出,而非經驗和直覺。」然多年後,當「大數據」成為了一種流行名詞,又常因錯誤的期待,以及所用非人的狀況,導致相關的發展計畫經常雷聲大雨點小,淪為高高舉起草草收尾的爛尾樓。為什麼?

大數據不等於資料科學,資料科學更充滿可塑性

依據美國國家標準與技術研究院(NIST)對於大數據的定義,在巨量資料研究計畫中,分為巨量資料(Big Data)和資料科學(Data Science)兩個部分。所謂的「巨量資料」事實上較偏技術層面,包含了熟知的巨量3V:大量性、迅速性、多樣性的資料集,需要一個有彈性的架構,以能有效儲存、處理與分析。「資料科學」則是透過完整的資料生命週期過程,將原始資料建造為可運用的知識,也就是所謂「資料驅動」的概念。

換言之,我們可以將巨量資料視為是基礎建設;而資料科學則是擴散應用。巨量資料是骨幹,是硬質的;而資料科學則是血液,是軟性且可塑的,充滿了彈性與想像力。

過去所謂的大數據,幾乎都是在探討技術、框架、效能或是資料量,當過分強調大數據的儲存框架、軟硬體設備或是自動化解決方案時,都將讓我們對資料的敏感度下降,喪失探索資料的能力。

天馬行空無濟於事,資料科學你可以這樣一步一步來

資料科學是以資料驅動出發,有別於傳統的資料分析,由工程、分析、領域三大面向所構成,強調跨域合作中所產生的新價值。資料科學是從大量的結構性與非結構性資料中萃取知識,找尋隱藏在資料中的訊息,主要目的在於當我們不了解事物的真實面貌時,可藉由資料加以推估與猜測,獲得解答。

筆者於2015年嘗試歸納並提出一個資料科學發展方法論,精神在於以「發現資料價值」為主要目標,強調資料與流程,分層分項循序漸進的逐層發展,並就跨域資料融合、方法設計、資料探勘、資料視覺化進行探究。在實際運用上,則可藉由「數據導向」與「專家知識」兩種不同切面,擬定主題、分析內容,再將成果視覺模組化,最終形成各式各樣的資料應用集合。

資料科學發展方法論(資料來源:吳君孝)

1.原始資料層(Raw Data Layer):未經任何統計分析、內容格式轉換、摘要處理等過程的初級資料,以多樣性資料收集為主。

2.資料集層(Data Sets Layer):大未必全、大可能代表雜,應以資料融合方式,萃取有價資料,並獨立成為個別之資料集。

3.統計分析層(Statistical Analysis Layer):當不了解資料狀態時,應先由本層開始,以初探性質進行各種基礎數值運算或描述性統計,以更瞭解資料之屬性與分布,並藉由觀察來啟發分析思維。

4.探索型分析層(Exploration Analysis Layer):當「樣本即母體」時代來臨時,本層以能解釋現象,建立關聯為目標,並針對特定主題,全面分析整體資料,建構資料間的相關性。思維轉換上,我們必須能接受模糊概觀的現象,而非一再追求精確的分析,以描繪出事物的全貌。

5.預測型分析層(Predictive Analytics Layer):對未來的現象進行洞察,並建立起對應之預測模型,如使用機器學習、迴歸預測、深度學習或是人工智慧等演算方法,揭示有關變數之間的規律性聯繫,預測和推測未來發展的變化情況。

6.建議型分析層(Recommend Analysis Layer):量化研究的極致終將造成盲點,因此本層採行之方法可使用各類質化分析研究方法,或是質量化交叉分析,來作為政策建議、優化調整、資源配置等用途。

7.價值應用層(Value Layer):數據分析的最終依然要回歸到應用層面上,其服務回饋模式,在發現價值與獲得解答後,應建立起與業務導向系統的結合反饋機制,建立起資料驅動,由數據決策業務行為的模式。

從食安開始,以資料科學作為風險評估的把關

筆者所提出的資料科學發展方法論,是以抽象型態作為建議,適用於政府、企業以至於各領域的發展上。然而道理人人會說,卻不見得管用,因此筆者亦將此套理論具體化實作於食品安全風險評估的研究中。

過去我國在食品安全議題上,僅能被動就食安問題進行事後危機處理,無法從根本上著手。但換個角度來看,或許可由危害物質源頭出發,主動進行風險控管的「食品安全風險評估方法及架構」,來探勘危害物質可能流入食品業的風險廠商。

因此,以「公司行為」概念切入資料科學發展七階層,跨域融合各領域資料、設計參數集合、並建構風險矩陣表及篩選模式。接著進一步以分層分主題方式,實現統計分析層與探索型分析層的各式資料應用模型。研究結果發現,其多有流入食品業的情況發生,而「食藥共製」、「農食共存」的情況,在未分廠分照的狀況下,也具有一定的風險性。本篇研究為WCCA.AFITA 2016國際研討會中,臺灣唯一一篇獲提名的發表論文。

食品安全風險評估資料應用模型(資料來源:WCCA.AFITA 2016)

除此之外,各領域中也有相當多值得參考的資料科學應用案例,值得藉由跨域應用的不同思維來激盪出新的觀點,重新探討如何重構分析資料,描繪出事物的面貌,並建立資料關聯性。畢竟資料科學的本質就是「猜」!如何猜得好,猜得對,也是需要回歸到研究精神:「大膽假設、小心實驗」的。

網路新媒體應用:從巴黎恐攻到太陽花學運

2015年法國巴黎及其北郊聖但尼,發生伊斯蘭國ISIS恐怖組織成員所發動的連續恐怖攻擊事件,造成來自26個國家的127人當場遇難,3人到院後不治,80-99人重傷,368人受傷。Google Trends將巴黎恐怖攻擊事件訊息在世界各地傳播的情形,進行網路資料分析,探究其傳播時間的演化與城市傳遞路徑。而這種以事件分析為主的探索型分析模式,藉由關鍵字檢索分析與文本分析,以及資料視覺化互動的呈現,建構新聞傳播角度的「巴黎恐攻分析」,我們可以更能掌握到世界各大城市開始散布恐攻消息的時間,以及討論的問題,以了解全貌。

Google Trends法國巴黎恐怖攻擊分析。(作者提供)

2014年3月至4月期間臺灣太陽花學運爆發,大學生與公民團體共同發起佔領立法院的社會運動,而3月19日晚間飈車族約10部機車闖入抗議現場,手持西瓜刀、鳴笛示威,差點引發衝突。筆者為了解此事件幕後主使者與其關係,藉由大量收集之新媒體輿情數據,以文本探勘分析技術,發展數種分析模式,包括時序概念的文字雲斷詞模型、字詞網絡關係模型、影像價值度演算法等,並將事件分為前期、當天、後期三種不同型態觀察,建構「318太陽花學運事件分析」。最後運用視覺化技術,將複雜的分析結果,轉化為可讀性高的互動圖表,以獲得事件相關背景,並在原先不知其事件的情況下,串連出隱藏在社群裡的重要行動者,獲得更多情報。

318太陽花學運事件分析。(作者提供)

農業:從臺灣重金屬汙染、義大利微氣候預測,到印尼糧食危機 為讓民眾瞭解農地汙染狀況,台灣環境資訊協會2015年發起「守護農地計畫」,而其中一項研究由政治大學資訊科學系、新聞系的學生組成的跨領域團隊進行,透過資料科學,以跨環保署與農委會的開放資料,找出可能受重金屬汙染卻未受政府管制的農地,並分析各縣市的差異,建構「臺灣農地重金屬快篩機制」。

同年,義大利的智慧農業新創公司Omica,於義大利西北部的山麓地區進行「微氣候場域實驗」,以無線感測器與獨立氣象站收集監測資料,並發展了精準預測農業平台,提供玉米作物農民一套地理決策支援系統服務,預測包含灌溉規劃、精準施肥,以及預測作物產量。

而Global Pulse Labs也在2012的研究計畫當中,運用推特(Twitter)來預估印尼的糧食危機,藉由同時觀察稻米價格以及推特使用者的狀況,他們發現了兩者之間的關聯性,當關於稻米價格的推文越多,官方公布的稻米物價通膨指數也會隨之變高,而這卻源自於印尼的愛抱怨文化。

義大利玉米作物微氣候分析場域實驗。(作者提供)

環保:從歐洲熱浪問題、德國柏林噪音,到臺灣水質汙染預測

歐盟環境署與研究團隊於2012年發表了「歐洲城市熱浪風險分析」應用案例,嘗試探究歐洲各個城市中綠色(植被)與藍色(水)所占區域比例,與城市內熱島效應的關係。該研究顯示,人口密度將會影響城市熱島效應的加劇熱波效應,而兩者間確實具備關聯性。

2015年德國柏林晨郵報(Morgen Post)利用開放套件製作了「柏林噪音地圖」,全面將柏林市區的噪音視覺化,並以熱度表現每間房子門前的噪音值。

同年,筆者也以我國水質監測數據,建構「臺灣河川測站的水質汙染預測模式」,分析過去河川測站長期水質數據,並建立預測模式,最後運用視覺化技術,打造互動圖資模型。研究結果發現,夏天水質汙染指數較高,而冬天的水質汙染指數較低,決策單位應注意的不該是單點汙染指數的高低,而是其汙染指數變化趨勢。

柏林噪音地圖(資料來源:Morgen Post)

智慧城市:從莫斯科自行車租借、台北捷運,到法國巴黎城市感測

Andrey Karmatsky於2015年分析了莫斯科自行車的租借狀況,希望能藉由莫斯科自行車共享系統數據通盤了解整個城市的自行車使用狀況。該研究建構數種分析模式,包括以路線分析統計各站數據與相關性,或是以時間序列統計自行車借還數據,並以圖表顯示天氣條件如何影響自行車租借,以及熱圖分析。

同年,臺灣Chiu Wei Chieh則以資料視覺化方式,運用臺北市政府開放資料,打造「台北捷運乘客統計視覺化地圖」,以可了解、可互動的方式帶領大家快速了解台北捷運各站進出站的人潮變化。

法國巴黎也於2015年開始藉由穿戴式無線感測設備,在巴黎城市地區大規模的讓公眾監測並匯報噪音、臭氧和空氣質量資訊,以建構即時的「污染地區地圖」。

莫斯科自行車租借分析應用案例。(作者提供)

結語:資料應用的未來將從跨域合作的激盪開始

「跨域資料融合」與「跨域合作」是未來資料科學發展的重點,也是數據應用能不能成功譜出成果的關鍵因素。隨著使用者的習慣改變,網路時代的資訊爆炸,以及雲端虛擬化的服務讓發展成本下降,我們發現資料的蒐集變得越來越快速而且多元,但卻也常發現蒐集來的資料不知道如何應用。大數據其實不代表好數據,而越來越豐富的資料表示,我們開始必須嘗試用新的面向、新的思維來看待資料、重組資料。資料分析雖不是新鮮事,但「跨域資料融合」,或許將能為過去無法解答的問題提出解釋。

另一方面,解決問題仍須回到專家身上。我國資訊人才的培育在過去一直受到軟體工程的影響,以致於我們重視流程、軟體框架,卻輕忽資料的本質。傳統資料分析研究也較多僅專注於演算法和資料分析模型的建立上,分析資料、但不涉及大量且多元的資料蒐集,更鮮少有領域專家知識的洞見解讀。

為打破此現象,未來應從「跨域合作」的激盪開始,籌組各自的資料科學團隊,並藉由專業分工及組織,以目標導向邁進,結合工程、分析、領域三面向的人才,發展屬於自己的資料應用,回答或解決真實世界的問題。

資料為王?天馬行空的想像,或是不重視資料的作法,在未來都必須有所轉變。了解需求、確認方向,循序漸進的逐層發展,以發現資料價值,譜出「資料應用」的美好樂章。本篇期能以資料科學發展方法與各式應用案例的激盪為引,激起未來資料應用的浪花。

(作者為資料科學家)

【本篇取自獨立評論@天下,原文標題為:【投書】資料科學可以怎麼做?從巴黎恐攻、太陽花學運到智慧城市

關於作者 獨立評論@天下

《天下雜誌》於2013年1月1日推出「獨立評論@天下」網站,期望在嘈雜的時代,打造多元思考與理性論辯的公共空間。在這資訊爆炸卻人云亦云的年代,我們邀請您一同擁抱多元的世界觀,與認真思考的心靈碰觸,以理性真誠的態度,面對眼前的紛雜變動,看見這座島嶼獨特的價值與人文關懷。

【專欄反映作者意見,不代表本社立場】

延伸閱讀