模型代工 打造「AI台積電」!蔡宗翰:AI時代文組人的新出路

模型代工 打造「AI台積電」!蔡宗翰:AI時代文組人的新出路
蔡宗翰關注AI人才培養,並鼓勵各科系應結合AI專業,平衡各產業的未來能力。圖片來源:陳俊銘攝
2024-09-24
採訪、撰文・陳芳毓、許靜之
11523
「就像打開了潘朵拉的盒子!」中研院人社中心研究員蔡宗翰回憶起2022年11月30日的衝擊。

本文重點

  1. 蔡宗翰發現ChatGPT在繁體中文上的局限,促使他們開發TAIDE模型。這不僅是為了填補語言鴻溝,更關乎資安和培養本土AI人才。
  2. 為因應AI時代,蔡宗翰提議人文學科轉型,如在外文系增設「資料工程組」。他以海外華語教學AI輔助工具為例,展示跨領域結合的潛力。
  3. 蔡宗翰提出「AI代工」模式,利用台灣在製造業與國際夥伴關係的優勢,為各行業開發AI模型,促進人才均衡發展,邁向「AI台積電」的願景。

那天ChatGPT首次面對世人,這位專攻自然語言處理的學者抱著好奇心登入,卻意外開啟了三小時驚心動魄的探索。「它能摘要、翻譯、分析、聊天,簡直實現了我所有的夢想,」蔡宗翰臉上難掩興奮之情。

但新技術帶來的不只有驚喜。

當從小醉心於歷史人文的蔡宗翰,要求ChatGPT解釋「十字軍東征」時,卻發現用英文提問,答案準確完整;換成繁體中文後,卻錯誤百出。

為什麼會這樣?

這個問題揭示了AI發展中的關鍵挑戰:GPT模型的訓練資料以英文為主,未來可能出現語言的數位鴻溝:英語使用者享受AI帶來的便利,繁體中文使用者則可能逐漸被邊緣化。

「我們必須立即行動!」驚覺ChatGPT在繁體中文上的局限後,蔡宗翰火速聯繫了陽明交大教授李育杰、台大資工系教授許永真、台大電機系教授李宏毅等志同道合的學者,很快達成共識:台灣需要自己的大型語言模型。

然而,理想與現實間橫亙著巨大鴻溝。

「分散各大學去做是不可能的,」蔡宗翰坦言,「算力不足、經費有限、繁體中文訓練資料稀缺⋯⋯若資源四散,根本無法成事。」

面對重重障礙,他們選擇迎難而上。不到一年,努力終究開花結果——以繁體中文為主的「TAIDE」(Trustworthy AI Dialog Engine)模型終於誕生,目前有寫文章、寫信、摘要、英翻中與中翻英等五大功能,測試分數與GPT 3.5模型相近。

AI 20 Taiwan-AI-人工智慧-台灣-教育-蔡宗翰-大型語言模型-TAIDE-台大-資工系-模型代工-人才轉型蔡宗翰意識到ChatGPT的局限及國家資安問題,與眾多台灣學者合作開發大型語言模型TAIDE。圖片來源:陳俊銘攝

台灣為何需要自己的語言模型?

如今,TAIDE已成為台灣AI應用的重要基礎,但回顧開發初期,也曾面臨諸多質疑。

「為什麼要重複造輪子?」是當時最常聽到的批評之一。許多人認為,既然ChatGPT已經支援繁體中文,台灣完全可以直接使用,無需投入大量資源開發自己的模型;即便現在仍有立委質疑,為何「花三億只能得到ChatGPT 3.5的效果?」

非做不可的原因,在每個團隊成員心裡的答案可能都不一樣;對蔡宗翰來說,主要原因有兩個:練兵與資安

談到練兵,蔡宗翰巧妙地將TAIDE與IDF經國號戰機相比:「很多人一開始看衰IDF戰機是『I Don't Fly』,但正因為台灣先做了IDF,後來才有能力製造高等教練機,也才買得到F16。」IDF不僅證明了台灣的國機國造能力,促成美國對台軍售F-16,其後續改良更促使2020年勇鷹高教機問世,使台灣躋身全球少數能生產第五代高教機的國家之列。

至於資安考量,蔡宗翰提出了一個發人深省的問題:「如果總統或國防部長需要一個數位大腦,我們可以用進口的嗎?」

他認為,鑒於國防和半導體產業對台灣的戰略重要性,政府有義務開發自主的生成式AI對話引擎,以確保數據安全。「就算只有台積電或魏哲家一個用戶,都該為他們開發!」

語言科系,能不能成立「資料工程組」?

TAIDE更長遠的目標,是為各產業持續訓練和優化專屬模型奠定基礎。

「每個領域都有自己獨特的專業用語和表達方式,」蔡宗翰舉例,在財會專業文件中,使用「我們」可能被視為權責不清;但在其他情境下,「我們」卻是拉近關係的有效用語。因此,「每個領域的AI模型,應該由該領域的專家主導開發。」

此外,由於語言模型並非一勞永逸,就像法律會隨時代變遷而修訂,AI模型也需要持續更新以跟上變化。正好讓每個行業都有機會理解參與AI,確保模型的專業與永續。

然而,當前台灣社會對AI的認知似乎出現了偏差。一方面,AI熱潮促使學生爭相報考資工系;另一方面,卻傳出國立大學人文科系申請入學報到率掛零,校方將原因歸咎於AI的消息。

面對這種冷熱兩極的現象,要在AI時代振興人文學科,蔡宗翰提出了一個大膽的想法。

「想像一下,台大外文系增設『資料工程組』:學生不僅學習語言,還要學習如何將語言知識轉化為AI可利用的資料,」這樣的跨領域結合,既保留了語言學習的核心,又增加了技術應用的層面。

他強調,這種轉變不只為適應AI。「每個學系都該思考如何吸引年輕人,將發展方向與社會需求結合。」

他指出,雖然有些學系在這方面可能更具優勢,但每個領域都需尋找定位。「AI加速了變革,科系若不能及時調整,恐怕難以生存。」

為了將理念付諸實踐,蔡宗翰選擇了海外華語教學作為切入點——組織一群華語教師,共同開發一個AI輔助教學工具。

這個專案,源於海外的華語教師面臨的教材短缺、版權障礙及內容老舊問題。過去,華語教師還要自己編寫所有內容,包括課文、生字表、英文翻譯和發音指導,既耗時又費力。「如果能用AI來生成這些內容,效率將大大提高,」蔡宗翰說,系統建立起來後,還能根據學生的華語程度自動調整教材難度。

AI 20 Taiwan-AI-人工智慧-台灣-教育-蔡宗翰-大型語言模型-TAIDE-台大-資工系-模型代工-人才轉型蔡宗翰觀察,AI加速變革,大學科系若不能及時調整,恐難以培養未來人才。圖片來源:陳俊銘攝

AI模型代工,帶動全領域人才轉型

AI除了在高教等領域可能衝擊人文科系,也對產業造成另一個更大挑戰:人才分配失衡。

「半導體產業的磁力太強了,」蔡宗翰嘆了口氣,「連軟體人才也被吸走。」面對這個看似難解的困境,他的眼中閃過一絲希望:前科技部長陳良基提出的「AI代工」模式。

「台灣在AI發展上有一個無可替代的優勢,那就是歐美對我們的信任,」他指出,台灣擁有完整的先進製造技術與供應鏈,多年來與國外科技大廠透過「代工」建立的互信夥伴關係,正是這個模式的重要基石。

他強調,當台灣能為各行各業打造AI模型,其他產業人才才不會被半導體業吸走,而能跟著AI一起成長。他舉例,若是國外投資銀行要做一個金融模型,從成本與過去的聲譽來看,台灣自然是最佳選擇;台灣的財經人才,也能藉此接觸AI與國際企業。

最後,一但AI產業成發展茁壯,提供合理的薪酬,加上政府大力投資,就有機會一拚人才轉型。

「AI台積電」不只是口號,而是台灣的下一個里程碑。

我們在半導體領域創造了奇蹟,現在,AI時代的舞台已經搭好——台灣,準備好了嗎?

小檔案|蔡宗翰

AI 20 Taiwan-AI-人工智慧-台灣-教育-蔡宗翰-大型語言模型-TAIDE-台大-資工系-模型代工中央資工系教授蔡宗翰。圖片來源:陳俊銘攝 圖片設計:未來城市

  • 現職:中央大學資訊工程學系教授、中研院人社中心研究員
  • 學歷:台大資訊工程所博士
  • 榮譽:Google Research Award、中央大學研究傑出獎、吳大猷科學普及著作獎青少年科普特別推薦獎

延伸閱讀

深度專題|台灣AI 20

「AI即國力」在2024年已成共識。進入新時代,天下「未來城市」推出了「台灣AI 20」專題報導,邀請產官學代表組成推薦委員會,選出20位在AI的技術創新、產業應用、政策推動、知識教育和社群連結五大領域中,選出20位對台灣AI發展有重大影響的人物。

誰是台灣AI 20人物?他們為台灣做了哪些事?立刻點擊閱讀「台灣AI 20」深度專題。

台灣AI 20|獨家名單!影響台灣AI發展的20人

其他人也在看

你可能有興趣

已成功複製連結