2024人工智慧年會・演講精華

等不到法規鬆綁、無主責機關　主權AI發展卡「資料」，台灣陷國族危機

2024年人工智慧年會聚焦於台灣主權AI發展議題，專家呼籲政府與各界積極整合力量。圖片來源：台灣人工智慧學校

2024-10-30

撰文、整理・陳芳毓

11865

在台灣人工智慧學校九月底舉辦的「人工智慧年會」中，一場關於主權AI的對談引發熱烈討論。

本文重點

台灣發展主權AI面臨算力資源不足的挑戰，專家建議將資源優先投入在數據累積與人才培育，避免過度追求大規模算力，並強調數據的永久性價值。
若全球應用程式都依賴少數AI模型，將造成國族文化風險。台灣需防止繁體中文文化、歷史被邊緣化，應讓國際意識到缺乏繁中模型的問題。
專家呼籲政府效法日本，修改法規解決數據使用限制，明確指定主管機關負責推動數據開放政策。建議設立專責小組，推動數據開放與AI發展。

由TAIDE模型主要參與者中研院資創中心研究員李育杰、長庚大學智慧運算學院院長許永真，以及Appier獨立董事簡立峰等專家，深入探討了台灣發展主權AI指國家自主開發、掌控的人工智慧系統，不依賴外國技術，確保數據安全與決策自主權，而非依賴他國。的迫切性與挑戰。

簡立峰特別強調，若未來全球的應用程式都依賴少數幾個AI模型，將造成嚴重的國族風險，台灣的歷史文化可能被邊緣化。雖然台灣在發展AI時面臨算力資源不足，但李育杰認為，資源有限的國家，更應將重點放在數據累積與人才培育上。許永真則呼籲，台灣各界應該團結合作，避免資源分散。

討論最後，與會者達成共識：台灣需要政府更積極的行動，效法日本，尤其是在法規面上解決數據使用的限制，並明確指定主管機關負責推動數據開放政策。他們期待「AI行動內閣」能夠加速立法進程，為台灣AI發展提供更好的環境。

以下為對談精華：

主持人侯宜秀（以下簡稱侯）：從你們的觀點來看，為什麼要倡議和發展主權AI？是為了國家安全、文化保存、反映在地價值和傳統，或是產業發展所需要？

許永真（以下簡稱許）：首先，我們必須清楚認知，發展主權AI需要大量資源。以OpenAI的GPT-4為例，它在兩年前開發時就花費了一億美元（約新台幣32億元），使用了2.5萬個A100 GPU，耗時100天，消耗了50百萬瓦的能源。這是一個驚人的資源投入。

Meta在今年初下了更大的訂單，高達60萬個H100 GPU。相比之下，台灣整個國家隊只有72片GPU，差距巨大。所以，雖然我們都理解發展主權AI的必要性，但如何做到，需要非常謹慎的考慮。我們需要把資源用在刀口上，在過程中積累經驗。

AI-人工智慧-主權AI-台灣-大型語言模型-TAIDE-台灣人工智慧學校-人工智慧年會-李育杰-許永真許永真（中）指出，發展主權AI需要挹注大量資源，且涉及國族認同與文化等重要議題，需要各界合作。圖片來源：台灣人工智慧學校

為什麼這很重要？因為，這不僅關係到保存台灣文化的目的，還會影響國家認同等重要議題。從經濟角度來看，我們在TAIDE專案中至少做到了一點：我們承諾發布一個參考模型，讓各行各業至少有一個較小的模型可以作為基礎。這個小模型滿足了一些條件：我們希望讓它自由、容易且安全地供每個人使用。

但是，後續的工作還需要大家一起努力。

簡立峰（以下簡稱簡）：我認為主權AI的主權是一個國族問題，我們過去沒有如此擔心過。

我負責過Google中文搜尋，當時也擔心繁體中文會消失。但Google至少做到了本地化，比如在不同地區搜索「NTU」，會得到該地區相關的結果。

然而，現在的大型語言模型，完全沒有針對用戶的背景文化來做調適；它的英文優化都已經做不完了，更別說其他語言。

我們應該擔心的是，如果未來，全世界的APP背後都加上AI，而這個AI只跑兩、三個模型，這將是人類史上前所未有的危險時刻。

因為，不像以前的雲端服務只是提高效率，這些模型每天在回答問題，幫忙做決策；1,000萬個APP背後只剩兩個AI模型，那就是這兩個model（模型）在幫它們做決策。全世界的法院有辦法管理這兩個model（模型）嗎？

主權AI涉及國家安全、法律管轄權、生命權、教育權和文化權。我們現在還不知道會失去哪些權利而無法管理。

因此，主權AI的第一個前提是「先弄清楚風險」，再來決定策略。遺憾的是，台灣對風險的理解還很少，每個人只從自己的專業出發，沒有從國族的長期角度來看待這個問題。

文化風險是長期風險，但短期風險已經出現了，就是「被忽略」。

全世界開發語言模型的單位，第一先做的語言是英文，第二就是中文。所以他們認為中文模型沒有問題，這才是台灣說不出口的問題。

因此，台灣的主權AI策略還有一個重點：讓世界知道（缺乏繁中模型）是一個被忽視的問題。

這不僅是技術風險，還有國族風險。可能有一天，台灣所有的歷史資料都沒有被放進「未來的維基百科」，我們的文化特色被遺漏。

侯：台灣發展主權AI，應包含哪些面向？哪一個最迫切需要積極投入資源？

李育杰（以下簡稱李）：資源有限的國家，優先序就很重要。

在AI行動方案1.0時期，我們建立了台灣杉二號超級電腦，配備了2,056片V100 GPU。然而，這個大規模投資最初並未充分發揮作用，因為當時對GPU的需求還不高。這些GPU以每台服務器八片的方式分散存在，直到生成式大型語言模型的出現，才將所有機器串聯起來訓練模型。

現在國內已經意識到，訓練生成式AI模型需要GPU。然而我擔心的是，人們一旦有了資源，就盡可能地購買最多的設備。

AI-人工智慧-主權AI-台灣-大型語言模型-TAIDE-台灣人工智慧學校-人工智慧年會-李育杰李育杰（右）認為資金投入需先安排優先序，才能思考最符合台灣現況的投資策略。圖片來源：台灣人工智慧學校

我認為，雖然要建立基本算力，但不該一次投入所有資金。一半用於購買設備，一半用於雲端服務，才能跟上最新的技術。我們資源有限，投資時需要有明確的策略。

我想強調的是，模型是暫時的，而數據是永久的。過去一年在進行TAIDE專案時，很多人問我「台灣是否應該從頭開始訓練自己的模型？」

我的回答是：首先，我們的數據量不足；其次，我們的算力不夠；第三，我不太相信目前AI領域普遍採用的Transformer這種「暴力美學」方法。

然而，如果我們在過程中不斷積累數據，也許有一天，當有了新的技術突破，不需要像現在Transformer這樣的大規模算力，我們就有機會從頭開始訓練自己的模型。在這個過程中，我們積累了數據和人才，而不是盲目追求超大規模的算力。

所以我的優先順序單是：算力、資料、人才。

許：我們的想像力不該被算力所限制。看AI的時候，要放眼整個AI的國際發展，才能找到台灣自己的位置。

作為一個資源相對有限的國家，我們更需要一起合作，而不是互相扯後腿。良性競爭是好的，但不應該只是民間批評政府，或者不同單位之間互相挑戰。

比如，台灣有好幾個本土的大語言模型，我們應該互相欣賞、分享、合作。只有這樣，才有機會在國際舞台上與他人一起⋯⋯我不想用「競爭」這個詞，而是說「一起玩」，即使你不是最厲害的競爭者，但你不能不參與。

侯：許老師提到想像力跟協力，加上人力，資料力、算力，還有什麼？

簡：當有這麼多的「力」要去討論，問題就在策略跟戰略。從學術角度，AI能力一定要培養，但人才有限，所以要抓重點。但從國家角度，要先理解風險，之後有戰略跟策略；買不到的要靠自己，買得到的，就讓市場經濟推動。

台灣每天都看到AI相關活動，但更需要的是戰略層級的討論。比如，日本人的戰略就是「開放日文資料」，這樣才有bargaining power（議價能力）說「國外的語言模型沒有優化日文」，所以他開放資料，讓國外知道能怎麼優化。

台灣每個地方都在討論資料，可是沒有人覺得這是他的責任。我希望能找出負責人，否則一直討論，十年後還是討論同一個問題。

侯：資料牽涉到智慧財產權，主管機關傾向看國外或法院的決定。但這不是法律問題，而是國家策略跟戰略的問題，不該把決定責任推給法院。剛剛許老師講到協力，台灣已有許多產學合作機制，比如人工智慧學校、聯發科達哥平台和台大教授李宏毅的合作課程。我們能怎麼樣揪團來做AI？

簡：人工智慧年會就是AI最大的協力者，下一步要「影響」，接著「行動」，我們不能只是「有興趣」。動能沒有起來，很多人就會放棄幫台灣想辦法。比如沒有繁體中文資料，很多人可能會放棄繁中模型。

「協力」就是要形成一個專責小組（taskforce）。我們需要推動改變，就像過去推動政府改革一樣，這次AI的影響比那還要嚴重，只是「受害者」還沒有出生，所以我們沒有緊迫感。

但實際上，這是一場新的社會運動、一場改革。我們需要推動、催生這些改變。比如說，我們最近在許多AI評比中都排在後面，甚至在國家策略中排到了70、80名。為什麼？因為社會沒有發出聲音，沒有推動法律的改革。

過去，政治、人權、社會福利等問題上，我們都有行動；現在面對即將到來的巨大海嘯，只有關心，只有興趣，這是不夠的。

AI-人工智慧-主權AI-台灣-大型語言模型-TAIDE-台灣人工智慧學校-人工智慧年會-李育杰-許永真-簡立峰-政府簡立峰提出協力行動的重要性，並建議成立專責小組，實際推動改變。圖片來源：台灣人工智慧學校

許：我認為，AI已經發展到了一個階段，它雖然需要大量資源和科技支持，但也已經成熟到會影響各行各業。我們常說「It takes a village to raise a child.」（要養育一個孩子，需耗盡全村的力量），在AI時代，這件事更加重要。

我們不應該把AI當成「只有資訊科技人員才能處理」的怪獸。無論人才、算力或資料，每個人都可以在自己的專業領域中思考如何參與、如何貢獻。這一點非常重要。

例如，資料方面，各行各業的人如果願意幫忙整理貢獻，都會對技術的發展產生直接影響，進而影響整個未來社會。我想強調的是，參與AI革命不一定要去學寫程式或AI的課。

侯：算力和模型並非護城河，真正的關鍵在於數據。這個議題我們已經討論了三年，但似乎沒有太多進展。與其問「為什麼」沒有進展，我更想討論「如何」才能推動進展。我們需要思考如何建立良好的數據環境，產業、政府和學校各自應該扮演什麼角色？

AI-人工智慧-主權AI-台灣-大型語言模型-TAIDE-台灣人工智慧學校-人工智慧年會-李育杰-許永真-簡立峰-政府侯宜秀觀察，台灣主權AI的發展仍止步不前，各界應積極提出解方。圖片來源：台灣人工智慧學校

李：資料是AI發展的基礎，但在台灣，獲取高質量的資料一直是一個挑戰。需要政府、學術界和產業界共同努力來解決這個問題。

首先我認為，政府應該制定明確的數據開放政策，特別是對於一些公共數據。比如，國家考試的資料就是一個很好的資源。

簡：之前在與iKala團隊討論時，一直等不到測試評測資料，所以我們決定自力救濟，使用了國考的資料。沒想到這竟然成為了一個基準測試（benchmark）。這說明我們確實需要這樣的基準測試。

許：我希望大家一起發聲，也許不需要上街頭，可是聲音要讓政府聽到。官員需要一點膽量，民意可以給他們一些基礎。

舉個例子。我們幾年前開始做AI，覺得最簡單取得的就是國家考試資料，沒想到比想像中困難太多了。連半官方的媒體也要花很多很多錢買，而且只能用一年。這讓我們感到非常無力。

在人工智慧領域，我們過去沒把日本放在眼裡，他們在頂級會議的參與度很低。日本政府也意識到這點，做了一個勇敢的決定：修改著作權法，只要滿足一些限制，資料可以用來訓練AI模型，不會侵犯著作財產權。這也使得OpenAI直接到日本尋求合作。

另外，台灣在討論智慧財產權和隱私議題時，常常忽略了一個更根本的問題：資料的所有權。

以健康資料為例，資料的擁有者是個人，不是醫院。只要有機制取得授權，就應該能使用這些數據。但醫院長期以來都抗拒這種觀念。

我們只需資料的使用權，讓AI來學，不是要所有權。這是一種新的權利，跟智慧財產權並沒有直接衝突。在AI時代，必須重新思考數據的擁有權、使用權和傳播權。

李：做TAIDE的時候，有一件事情我想做、但沒做好。政大司徒達賢老師把他所有的講義捐出來，李德才院士也把他的部落格的文字捐出來，我一直希望有一個平台，讓大家把可用好的資料捐出來。這是一個快速累積資料的方式。

我們沒有辦法很快看到著作權法上的修正，那就「自己的大型語言模型自己建」。

簡：我的看法是「自己的大型語言模型自己救」，不一定要自己建。全世界可以幫我們建立模型，但如果我們不提供資料，這個語言就會被忽視。

身為資通訊大國，我們一直在談論資料的重要，卻遲遲未見具體行動。最近的一個例子很能說明問題：當ChatGPT推出時，我收到Google前同事的來信，說他們找不到繁體中文資料，只在網路上找到一個20T的簡體中文資料，含繁體中文。

我們必須採取行動，例如在網站上設置數據捐贈信箱，類似在便利商店「隨手捐發票」，讓更多人參與資料的收集和分享。

AI-人工智慧-主權AI-台灣-大型語言模型-TAIDE-台灣人工智慧學校-人工智慧年會-李育杰-許永真-簡立峰-政府專家碰撞不同觀點，也匯集使用資料與建立大型語言模型等看法。圖片來源：台灣人工智慧學校

許：作為一個群眾外包的研究者，我要提醒大家，提到數據捐贈時，要特別注意品質控制。根據我的經驗，90%的群眾外包數據都不太能用。我們需要設計智慧的收集流程，確保收進來的數據是有價值的。

另外，現在是多模態模型的時代，我們不只需要語言數據，還需要各種類型的數據，可以是影像、聲音。合成數據（synthetic data）也是一個值得探索的方向。

等不到法規鬆綁、無主責機關　主權AI發展卡「資料」，台灣陷國族危機

本文重點

以下為對談精華：

延伸閱讀

其他人也在看

你可能有興趣

您的帳號尚未驗證

已發送驗證信

等不到法規鬆綁、無主責機關 主權AI發展卡「資料」，台灣陷國族危機

本文重點

以下為對談精華：

延伸閱讀

其他人也在看

你可能有興趣

您的帳號尚未驗證

已發送驗證信

等不到法規鬆綁、無主責機關　主權AI發展卡「資料」，台灣陷國族危機