誰為下一代策展繁中AI資料？台灣大林之晨：教育部的關鍵任務

林之晨指出，AI背後的資料庫將形塑下一代的教育與價值觀，這是國家的重要責任。圖片來源：台灣大哥大

2024-11-13

整理・陳芳毓

9698

在AI發展的浪潮中，硬體建設往往受到最多關注，但優質的資料庫建設可能才是決定性的關鍵。

在「導航AI新未來　工欲善其事必先利其器！台灣發展AI產業之際，如何完善基礎建設？」Podcast節目中，台灣大哥大總經理林之晨深入探討台灣在發展AI時面臨的數據挑戰。從中文語料庫的匱乏，到AI教育對社會價值觀的潛在影響，為聽眾揭開AI發展背後不為人知的關鍵議題。這場對談不僅觸及技術層面，更延伸至文化、教育與國家發展的深度思考。

「未來城市」編輯部整理了對談精華：

主持人陳芳毓（以下簡稱陳）：除了硬體建設，還有什麼是國家發展AI該要具備的基礎建設呢？

來賓林之晨（以下簡稱林）：好資料是成功的AI模型的關鍵，甚至比演算法要重要。

但跟GPT聊天的時候，會發現他們會講中文，但很生硬。如果英文的程度是一個25歲成年人，中文的程度比較接近一個15歲的少年，有時候有點為賦新詞強說愁，會用絢爛的辭藻，但內涵還沒有沒有足夠的文化素養、人情世故和商業邏輯。

最主要的原因，就是當初餵給它的繁體中文資料，無論是數量跟品質，遠遠低於英文資料。

為什麼會這樣？研究整個AI生態系，英文世界裡有很多公益或半官方組織，準備了很多Common data（共通資料）；這些共通資料很多是免費，或授權費相當低廉。要訓練一個英文AI，就可以用這些共通語料庫。所以基礎能力上，Claude、GPT、Copilot的表現都差不多。

但在繁體中文的世界，我們沒有這樣的一個共通的語料庫；因此，繁體中文的表現就遠遜於英文。不管是政府或者是企業，當你想要有更好的AI發展，資料的取得跟整理是最重要的工作。有整理好的資料，就可以訓練出好的AI，沒有好資料，算力再強、傳輸速度再快，還是Garbage in, garbage out（意指垃圾進，垃圾出）。

所以，AI的基礎建設，資料跟數據是最重要的。

陳：很多年，專家學者就不斷強調台灣需要資料，為什麼這麼多年過去了，我們還是在談同一件事？如何才能把資料建立起來？

林：其實有兩波。第一波在2010年左右開始，當時Open Data、Open Goverment衍生出很多應用。政府有很多的結構性的資料，譬如說交通數據、市民年齡分布數據、住房的數據等等數據，開放這些結構性數據，民間可以拿去加值。

最有名的例子，就是政府當年開放實價登錄數據，最後延伸出樂屋網、591等民間房地產科技平台，這些平台又賦能了很多房地產從業者，民眾也可以方便地在預算內找到適合的地方。因為政府開放結構性房地產實價登錄資料，造成的後續這麼大的產業變革跟創新。

這是第一步。

2017年開始，Transformer模型使大型語言相關模型普及化。它能吃下大量非結構性資料，也就是傳統文章等，自動分析裡面的結構，然後產出新的文章。
所以最近五年，大家關注的就變成「如何蒐集繁體中文非結構性資料，變成共同語料庫？」

比如，天下雜誌多年來累積了這麼多優質文本資料，有沒有機會讓它變成餵養AI的養分？什麼情況下，天下雜誌願意跟AI公司做合作？現在比較多的討論是這樣的議題。

AI-人工智慧-台灣-教育-林之晨-大型語言模型-人文社會-教育部-國家社會-繁體中文資料庫-策展-大數據-語料庫近年大型語言模型普及化，背後的非結構性資料的搜集與應用已引發討論。圖片來源：Shutterstock

陳：怎麼樣才能讓資料能夠使用？

林：AI是「Garbage in,garbage out.」，如果為給它的都是價值觀比較偏頗的內容，就會訓練出一個價值觀偏頗的模型，這就可能不符合使用需求。所謂的好的資料，並不是資料完整，而是語料所隱含的價值觀符合社會或主流價。

這也是為何當我們在用GPT的時候，有時覺得它講的話不太符合台灣主流，因為它吃了很多簡體中文資料，自然就隱含了對岸的價值觀跟政治意識。

在繁體中文的世界，我們已經累積了超級大量的資料，這些資料絕對足夠拿來訓練AI；但是，誰來決定什麼要拿去訓練，什麼不能訓練？整理與篩選非常重要，這就是策展。

策展，就是篩選哪些資料要用來訓練AI。

五年、十年之後，很多小孩會跟AI學習；決定該教他們什麼，就是國家的責任。

我們過去三、四十年實行國民教育，很重要的原因就是，我們希望國民都能夠認識到國家之所以存在的基本價值，例如民主自由的價值觀。所以以前設立國立編譯館，現在則有課綱，我們希望透過這種制度，讓老師教課的時候，能傳遞整個國家社會共同的價值觀。

在未來世界，假設老師變成了AI，那AI要教什麼內容？就是國家的責任。

過去，國家做國立編譯館，未來，國家應該做繁體中文共同語料庫。當這個語料庫被GPT使用，未來不管國民用哪一個國家的AI，繁體中文內容都會符合台灣的社會價值觀，它不會用繁體中文內容來宣傳反民主或反自由的價值觀。

所以，資料的好壞不在於量的多寡，而是於資料的品質。誰決定資料好壞，是國家和社會的責任。

陳：照你這樣說，資料蒐集單位的負責人不只是技術單位如數位部、經濟部，也要有人文社會背景才行。

林：這件事情講就的是素養和社會價值觀。我們希望未來能成為「全民老師」的AI，有什麼樣的智慧？這是未來二、三十年整個社會的變革與轉型，也是教育部的責任。

誰為下一代策展繁中AI資料？台灣大林之晨：教育部的關鍵任務

延伸閱讀：如何讓教育成為台灣發展AI的關鍵助力？

其他人也在看

你可能有興趣

您的帳號尚未驗證

已發送驗證信