誰為下一代策展繁中AI資料?台灣大林之晨:教育部的關鍵任務

誰為下一代策展繁中AI資料?台灣大林之晨:教育部的關鍵任務
林之晨指出,AI背後的資料庫將形塑下一代的教育與價值觀,這是國家的重要責任。圖片來源:台灣大哥大
2024-11-13
整理・陳芳毓
9243
在AI發展的浪潮中,硬體建設往往受到最多關注,但優質的資料庫建設可能才是決定性的關鍵。

在「導航AI新未來 工欲善其事必先利其器!台灣發展AI產業之際,如何完善基礎建設?」Podcast節目中,台灣大哥大總經理林之晨深入探討台灣在發展AI時面臨的數據挑戰。從中文語料庫的匱乏,到AI教育對社會價值觀的潛在影響,為聽眾揭開AI發展背後不為人知的關鍵議題。這場對談不僅觸及技術層面,更延伸至文化、教育與國家發展的深度思考。

「未來城市」編輯部整理了對談精華:

主持人陳芳毓(以下簡稱陳):除了硬體建設,還有什麼是國家發展AI該要具備的基礎建設呢?

來賓林之晨(以下簡稱林):好資料是成功的AI模型的關鍵,甚至比演算法要重要。

但跟GPT聊天的時候,會發現他們會講中文,但很生硬。如果英文的程度是一個25歲成年人,中文的程度比較接近一個15歲的少年,有時候有點為賦新詞強說愁,會用絢爛的辭藻,但內涵還沒有沒有足夠的文化素養、人情世故和商業邏輯。

最主要的原因,就是當初餵給它的繁體中文資料,無論是數量跟品質,遠遠低於英文資料。

為什麼會這樣?研究整個AI生態系,英文世界裡有很多公益或半官方組織,準備了很多Common data(共通資料);這些共通資料很多是免費,或授權費相當低廉。要訓練一個英文AI,就可以用這些共通語料庫。所以基礎能力上,Claude、GPTCopilot的表現都差不多。

但在繁體中文的世界,我們沒有這樣的一個共通的語料庫;因此,繁體中文的表現就遠遜於英文。不管是政府或者是企業,當你想要有更好的AI發展,資料的取得跟整理是最重要的工作。有整理好的資料,就可以訓練出好的AI,沒有好資料,算力再強、傳輸速度再快,還是Garbage in, garbage out(意指垃圾進,垃圾出)。

所以,AI的基礎建設,資料跟數據是最重要的。

陳:很多年,專家學者就不斷強調台灣需要資料,為什麼這麼多年過去了,我們還是在談同一件事?如何才能把資料建立起來?

林:其實有兩波。第一波在2010年左右開始,當時Open Data、Open Goverment衍生出很多應用。政府有很多的結構性的資料,譬如說交通數據、市民年齡分布數據、住房的數據等等數據,開放這些結構性數據,民間可以拿去加值。

最有名的例子,就是政府當年開放實價登錄數據,最後延伸出樂屋網、591等民間房地產科技平台,這些平台又賦能了很多房地產從業者,民眾也可以方便地在預算內找到適合的地方。因為政府開放結構性房地產實價登錄資料,造成的後續這麼大的產業變革跟創新。

這是第一步。

2017年開始,Transformer模型使大型語言相關模型普及化。它能吃下大量非結構性資料,也就是傳統文章等,自動分析裡面的結構,然後產出新的文章。
所以最近五年,大家關注的就變成「如何蒐集繁體中文非結構性資料,變成共同語料庫?」

比如,天下雜誌多年來累積了這麼多優質文本資料,有沒有機會讓它變成餵養AI的養分?什麼情況下,天下雜誌願意跟AI公司做合作?現在比較多的討論是這樣的議題。

AI-人工智慧-台灣-教育-林之晨-大型語言模型-人文社會-教育部-國家社會-繁體中文資料庫-策展-大數據-語料庫近年大型語言模型普及化,背後的非結構性資料的搜集與應用已引發討論。圖片來源:Shutterstock

陳:怎麼樣才能讓資料能夠使用?

林:AI是「Garbage in,garbage out.」,如果為給它的都是價值觀比較偏頗的內容,就會訓練出一個價值觀偏頗的模型,這就可能不符合使用需求。所謂的好的資料,並不是資料完整,而是語料所隱含的價值觀符合社會或主流價。

這也是為何當我們在用GPT的時候,有時覺得它講的話不太符合台灣主流,因為它吃了很多簡體中文資料,自然就隱含了對岸的價值觀跟政治意識。

在繁體中文的世界,我們已經累積了超級大量的資料,這些資料絕對足夠拿來訓練AI;但是,誰來決定什麼要拿去訓練,什麼不能訓練?整理與篩選非常重要,這就是策展。

策展,就是篩選哪些資料要用來訓練AI。

五年、十年之後,很多小孩會跟AI學習;決定該教他們什麼,就是國家的責任。

我們過去三、四十年實行國民教育,很重要的原因就是,我們希望國民都能夠認識到國家之所以存在的基本價值,例如民主自由的價值觀。所以以前設立國立編譯館,現在則有課綱,我們希望透過這種制度,讓老師教課的時候,能傳遞整個國家社會共同的價值觀。

在未來世界,假設老師變成了AI,那AI要教什麼內容?就是國家的責任。

過去,國家做國立編譯館,未來,國家應該做繁體中文共同語料庫。當這個語料庫被GPT使用,未來不管國民用哪一個國家的AI,繁體中文內容都會符合台灣的社會價值觀,它不會用繁體中文內容來宣傳反民主或反自由的價值觀。

所以,資料的好壞不在於量的多寡,而是於資料的品質。誰決定資料好壞,是國家和社會的責任。

陳:照你這樣說,資料蒐集單位的負責人不只是技術單位如數位部、經濟部,也要有人文社會背景才行。

林:這件事情講就的是素養和社會價值觀。我們希望未來能成為「全民老師」的AI,有什麼樣的智慧?這是未來二、三十年整個社會的變革與轉型,也是教育部的責任。

其他人也在看

你可能有興趣

已成功複製連結