等不到法規鬆綁、無主責機關 主權AI發展卡「資料」,台灣陷國族危機

等不到法規鬆綁、無主責機關 主權AI發展卡「資料」,台灣陷國族危機
2024年人工智慧年會聚焦於台灣主權AI發展議題,專家呼籲政府與各界積極整合力量。圖片來源:台灣人工智慧學校
2024-10-30
撰文、整理・陳芳毓
11391
在台灣人工智慧學校九月底舉辦的「人工智慧年會」中,一場關於主權AI的對談引發熱烈討論。

本文重點

  1. 台灣發展主權AI面臨算力資源不足的挑戰,專家建議將資源優先投入在數據累積與人才培育,避免過度追求大規模算力,並強調數據的永久性價值。
  2. 若全球應用程式都依賴少數AI模型,將造成國族文化風險。台灣需防止繁體中文文化、歷史被邊緣化,應讓國際意識到缺乏繁中模型的問題。
  3. 專家呼籲政府效法日本,修改法規解決數據使用限制,明確指定主管機關負責推動數據開放政策。建議設立專責小組,推動數據開放與AI發展。

由TAIDE模型主要參與者中研院資創中心研究員李育杰、長庚大學智慧運算學院院長許永真,以及Appier獨立董事簡立峰等專家,深入探討了台灣發展指國家自主開發、掌控的人工智慧系統,不依賴外國技術,確保數據安全與決策自主權,而非依賴他國。的迫切性與挑戰。

簡立峰特別強調,若未來全球的應用程式都依賴少數幾個AI模型,將造成嚴重的國族風險,台灣的歷史文化可能被邊緣化。雖然台灣在發展AI時面臨算力資源不足,但李育杰認為,資源有限的國家,更應將重點放在數據累積與人才培育上。許永真則呼籲,台灣各界應該團結合作,避免資源分散。

討論最後,與會者達成共識:台灣需要政府更積極的行動,效法日本,尤其是在法規面上解決數據使用的限制,並明確指定主管機關負責推動數據開放政策。他們期待「AI行動內閣」能夠加速立法進程,為台灣AI發展提供更好的環境。

以下為對談精華:

主持人侯宜秀(以下簡稱侯):從你們的觀點來看,為什麼要倡議和發展主權AI?是為了國家安全、文化保存、反映在地價值和傳統,或是產業發展所需要?

許永真(以下簡稱許):首先,我們必須清楚認知,發展主權AI需要大量資源。以OpenAI的GPT-4為例,它在兩年前開發時就花費了一億美元(約新台幣32億元),使用了2.5萬個A100 GPU,耗時100天,消耗了50百萬瓦的能源。這是一個驚人的資源投入。

Meta在今年初下了更大的訂單,高達60萬個H100 GPU。相比之下,台灣整個國家隊只有72片GPU,差距巨大。所以,雖然我們都理解發展主權AI的必要性,但如何做到,需要非常謹慎的考慮。我們需要把資源用在刀口上,在過程中積累經驗。

AI-人工智慧-主權AI-台灣-大型語言模型-TAIDE-台灣人工智慧學校-人工智慧年會-李育杰-許永真許永真(中)指出,發展主權AI需要挹注大量資源,且涉及國族認同與文化等重要議題,需要各界合作。圖片來源:台灣人工智慧學校

為什麼這很重要?因為,這不僅關係到保存台灣文化的目的,還會影響國家認同等重要議題。從經濟角度來看,我們在TAIDE專案中至少做到了一點:我們承諾發布一個參考模型,讓各行各業至少有一個較小的模型可以作為基礎。這個小模型滿足了一些條件:我們希望讓它自由、容易且安全地供每個人使用。

但是,後續的工作還需要大家一起努力。

簡立峰(以下簡稱簡):我認為主權AI的主權是一個國族問題,我們過去沒有如此擔心過。

我負責過Google中文搜尋,當時也擔心繁體中文會消失。但Google至少做到了本地化,比如在不同地區搜索「NTU」,會得到該地區相關的結果。

然而,現在的大型語言模型,完全沒有針對用戶的背景文化來做調適;它的英文優化都已經做不完了,更別說其他語言。

我們應該擔心的是,如果未來,全世界的APP背後都加上AI,而這個AI只跑兩、三個模型,這將是人類史上前所未有的危險時刻。

因為,不像以前的雲端服務只是提高效率,這些模型每天在回答問題,幫忙做決策;1,000萬個APP背後只剩兩個AI模型,那就是這兩個model(模型)在幫它們做決策。全世界的法院有辦法管理這兩個model(模型)嗎?

主權AI涉及國家安全、法律管轄權、生命權、教育權和文化權。我們現在還不知道會失去哪些權利而無法管理。

因此,主權AI的第一個前提是「先弄清楚風險」,再來決定策略。遺憾的是,台灣對風險的理解還很少,每個人只從自己的專業出發,沒有從國族的長期角度來看待這個問題。

文化風險是長期風險,但短期風險已經出現了,就是「被忽略」。

全世界開發語言模型的單位,第一先做的語言是英文,第二就是中文。所以他們認為中文模型沒有問題,這才是台灣說不出口的問題。

因此,台灣的主權AI策略還有一個重點:讓世界知道(缺乏繁中模型)是一個被忽視的問題。

這不僅是技術風險,還有國族風險。可能有一天,台灣所有的歷史資料都沒有被放進「未來的維基百科」,我們的文化特色被遺漏。

侯:台灣發展主權AI,應包含哪些面向?哪一個最迫切需要積極投入資源?

李育杰(以下簡稱李):資源有限的國家,優先序就很重要。

在AI行動方案1.0時期,我們建立了台灣杉二號超級電腦,配備了2,056片V100 GPU。然而,這個大規模投資最初並未充分發揮作用,因為當時對GPU的需求還不高。這些GPU以每台服務器八片的方式分散存在,直到生成式大型語言模型的出現,才將所有機器串聯起來訓練模型。

現在國內已經意識到,訓練生成式AI模型需要GPU。然而我擔心的是,人們一旦有了資源,就盡可能地購買最多的設備。

AI-人工智慧-主權AI-台灣-大型語言模型-TAIDE-台灣人工智慧學校-人工智慧年會-李育杰李育杰(右)認為資金投入需先安排優先序,才能思考最符合台灣現況的投資策略。圖片來源:台灣人工智慧學校

我認為,雖然要建立基本算力,但不該一次投入所有資金。一半用於購買設備,一半用於雲端服務,才能跟上最新的技術。我們資源有限,投資時需要有明確的策略。

我想強調的是,模型是暫時的,而數據是永久的。過去一年在進行TAIDE專案時,很多人問我「台灣是否應該從頭開始訓練自己的模型?」

我的回答是:首先,我們的數據量不足;其次,我們的算力不夠;第三,我不太相信目前AI領域普遍採用的Transformer這種「暴力美學」方法。

然而,如果我們在過程中不斷積累數據,也許有一天,當有了新的技術突破,不需要像現在Transformer這樣的大規模算力,我們就有機會從頭開始訓練自己的模型。在這個過程中,我們積累了數據和人才,而不是盲目追求超大規模的算力。

所以我的優先順序單是:算力、資料、人才。

:我們的想像力不該被算力所限制。看AI的時候,要放眼整個AI的國際發展,才能找到台灣自己的位置。

作為一個資源相對有限的國家,我們更需要一起合作,而不是互相扯後腿。良性競爭是好的,但不應該只是民間批評政府,或者不同單位之間互相挑戰。

比如,台灣有好幾個本土的大語言模型,我們應該互相欣賞、分享、合作。只有這樣,才有機會在國際舞台上與他人一起⋯⋯我不想用「競爭」這個詞,而是說「一起玩」,即使你不是最厲害的競爭者,但你不能不參與。

侯:許老師提到想像力跟協力,加上人力,資料力、算力,還有什麼?

:當有這麼多的「力」要去討論,問題就在策略跟戰略。從學術角度,AI能力一定要培養,但人才有限,所以要抓重點。但從國家角度,要先理解風險,之後有戰略跟策略;買不到的要靠自己,買得到的,就讓市場經濟推動。

台灣每天都看到AI相關活動,但更需要的是戰略層級的討論。比如,日本人的戰略就是「開放日文資料」,這樣才有bargaining power(議價能力)說「國外的語言模型沒有優化日文」,所以他開放資料,讓國外知道能怎麼優化。

台灣每個地方都在討論資料,可是沒有人覺得這是他的責任。我希望能找出負責人,否則一直討論,十年後還是討論同一個問題。

侯:資料牽涉到智慧財產權,主管機關傾向看國外或法院的決定。但這不是法律問題,而是國家策略跟戰略的問題,不該把決定責任推給法院。剛剛許老師講到協力,台灣已有許多產學合作機制,比如人工智慧學校、聯發科達哥平台和台大教授李宏毅的合作課程。我們能怎麼樣揪團來做AI?

:人工智慧年會就是AI最大的協力者,下一步要「影響」,接著「行動」,我們不能只是「有興趣」。動能沒有起來,很多人就會放棄幫台灣想辦法。比如沒有繁體中文資料,很多人可能會放棄繁中模型。

「協力」就是要形成一個專責小組(taskforce)。我們需要推動改變,就像過去推動政府改革一樣,這次AI的影響比那還要嚴重,只是「受害者」還沒有出生,所以我們沒有緊迫感。

但實際上,這是一場新的社會運動、一場改革。我們需要推動、催生這些改變。比如說,我們最近在許多AI評比中都排在後面,甚至在國家策略中排到了70、80名。為什麼?因為社會沒有發出聲音,沒有推動法律的改革。

過去,政治、人權、社會福利等問題上,我們都有行動;現在面對即將到來的巨大海嘯,只有關心,只有興趣,這是不夠的。

AI-人工智慧-主權AI-台灣-大型語言模型-TAIDE-台灣人工智慧學校-人工智慧年會-李育杰-許永真-簡立峰-政府簡立峰提出協力行動的重要性,並建議成立專責小組,實際推動改變。圖片來源:台灣人工智慧學校

:我認為,AI已經發展到了一個階段,它雖然需要大量資源和科技支持,但也已經成熟到會影響各行各業。我們常說「It takes a village to raise a child.」(要養育一個孩子,需耗盡全村的力量),在AI時代,這件事更加重要。

我們不應該把AI當成「只有資訊科技人員才能處理」的怪獸。無論人才、算力或資料,每個人都可以在自己的專業領域中思考如何參與、如何貢獻。這一點非常重要。

例如,資料方面,各行各業的人如果願意幫忙整理貢獻,都會對技術的發展產生直接影響,進而影響整個未來社會。我想強調的是,參與AI革命不一定要去學寫程式或AI的課。

侯:算力和模型並非護城河,真正的關鍵在於數據。這個議題我們已經討論了三年,但似乎沒有太多進展。與其問「為什麼」沒有進展,我更想討論「如何」才能推動進展。我們需要思考如何建立良好的數據環境,產業、政府和學校各自應該扮演什麼角色?

AI-人工智慧-主權AI-台灣-大型語言模型-TAIDE-台灣人工智慧學校-人工智慧年會-李育杰-許永真-簡立峰-政府侯宜秀觀察,台灣主權AI的發展仍止步不前,各界應積極提出解方。圖片來源:台灣人工智慧學校

:資料是AI發展的基礎,但在台灣,獲取高質量的資料一直是一個挑戰。需要政府、學術界和產業界共同努力來解決這個問題。

首先我認為,政府應該制定明確的數據開放政策,特別是對於一些公共數據。比如,國家考試的資料就是一個很好的資源。

:之前在與iKala團隊討論時,一直等不到測試評測資料,所以我們決定自力救濟,使用了國考的資料。沒想到這竟然成為了一個基準測試(benchmark)。這說明我們確實需要這樣的基準測試。

:我希望大家一起發聲,也許不需要上街頭,可是聲音要讓政府聽到。官員需要一點膽量,民意可以給他們一些基礎。

舉個例子。我們幾年前開始做AI,覺得最簡單取得的就是國家考試資料,沒想到比想像中困難太多了。連半官方的媒體也要花很多很多錢買,而且只能用一年。這讓我們感到非常無力。

在人工智慧領域,我們過去沒把日本放在眼裡,他們在頂級會議的參與度很低。日本政府也意識到這點,做了一個勇敢的決定:修改著作權法,只要滿足一些限制,資料可以用來訓練AI模型,不會侵犯著作財產權。這也使得OpenAI直接到日本尋求合作。

另外,台灣在討論智慧財產權和隱私議題時,常常忽略了一個更根本的問題:資料的所有權。

以健康資料為例,資料的擁有者是個人,不是醫院。只要有機制取得授權,就應該能使用這些數據。但醫院長期以來都抗拒這種觀念。

我們只需資料的使用權,讓AI來學,不是要所有權。這是一種新的權利,跟智慧財產權並沒有直接衝突。在AI時代,必須重新思考數據的擁有權、使用權和傳播權。

:做TAIDE的時候,有一件事情我想做、但沒做好。政大司徒達賢老師把他所有的講義捐出來,李德才院士也把他的部落格的文字捐出來,我一直希望有一個平台,讓大家把可用好的資料捐出來。這是一個快速累積資料的方式。

我們沒有辦法很快看到著作權法上的修正,那就「自己的大型語言模型自己建」。

:我的看法是「自己的大型語言模型自己救」,不一定要自己建。全世界可以幫我們建立模型,但如果我們不提供資料,這個語言就會被忽視。

身為資通訊大國,我們一直在談論資料的重要,卻遲遲未見具體行動。最近的一個例子很能說明問題:當ChatGPT推出時,我收到Google前同事的來信,說他們找不到繁體中文資料,只在網路上找到一個20T的簡體中文資料,含繁體中文。

我們必須採取行動,例如在網站上設置數據捐贈信箱,類似在便利商店「隨手捐發票」,讓更多人參與資料的收集和分享。

AI-人工智慧-主權AI-台灣-大型語言模型-TAIDE-台灣人工智慧學校-人工智慧年會-李育杰-許永真-簡立峰-政府專家碰撞不同觀點,也匯集使用資料與建立大型語言模型等看法。圖片來源:台灣人工智慧學校

:作為一個群眾外包的研究者,我要提醒大家,提到數據捐贈時,要特別注意品質控制。根據我的經驗,90%的群眾外包數據都不太能用。我們需要設計智慧的收集流程,確保收進來的數據是有價值的。

另外,現在是多模態模型的時代,我們不只需要語言數據,還需要各種類型的數據,可以是影像、聲音。合成數據(synthetic data)也是一個值得探索的方向。

延伸閱讀

其他人也在看

你可能有興趣

已成功複製連結