發起本土語言模型TAIDE 台灣AI教育先驅許永真:給本土AI人才一個練兵場

發起本土語言模型TAIDE 台灣AI教育先驅許永真:給本土AI人才一個練兵場
許永真縱橫教壇數十年,為台灣培育AI人才,並推動TAIDE計畫。圖片來源:廖祐瑲攝
2024-09-04
採訪、撰文・陳承璋
10403
「這太重要了,攸關AI人才的培育、文化霸權議題!」當談起台灣第一個大型語言模型TAIDE創立的原因,許永真便語氣堅定,替這一個專為台灣使用者量身訂做的AI語言模型辯護。

本文重點

  1. 許永真推動TAIDE計劃,透過開發台灣第一個大型語言模型,旨在培育AI人才、改變台灣長期「重硬輕軟」的思維,並守護AI的台灣文化及資料。
  2. 許永真30年來堅持研究AI,從機器人、照片辨識到大型語言模型,始終走在前沿,為台灣AI發展奠定基礎。
  3. TAIDE成功吸引國際關注,Meta更將其納為全球開發標竿。許永真期望藉此改變台灣軟體業,讓軟體應用與人才獲得同等重視。

許永真,是台大資工系第一位女教授,可能也是台灣開設AI課最久的大學教授,亦是台灣可信任生成式AI發展計畫(TAIDE)的早期發起人之一。

時間,回到去年三月。

當ChatGPT問世,其強大的語言生成能力震驚世界,成為AI應用新引爆點;近半年後,她與陽明交大應數系教授李育杰等幾位學者,開始討論台灣是否應該發展自己的語言模型。

「最後李育杰去說服國科會主委吳政忠。當時,很多人不看好,工研院、資策會都跳出來反對,認為不該把資源放在這裡,」她說。

質疑聲浪在於,Open AI開發第一版大型語言就花了2,000多億美元(約新台幣6.37兆元),但台灣算力最大的超級電腦「台灣杉二號」所使用的GPU,卻落後別人兩代,如何拚得過國外的大型語言模型?何不使用國外的模型即可?

如今,一年半過去,以Meta的開源模型Llama2為基礎,串聯台大、交大、中央、高雄大學等校學者研發的語言模型TAIDE,透過大量搜集台灣本土資料,已具備大型語言模型的翻譯、摘要、生成文章等功能,也開放產官學界使用。

堅持台版大型語言模型

一路逆風,終究開花結果,起初,她是看到什麼?

一頭俐落短髮,外型幹練的她,在以男性為主的資訊工程界顯得格外醒目;任教30年,她為了培育台灣AI人才,所花的精力卻不輸任何人。

在女生還不時興讀理工的時代,許永真就以聯考榜首的成績,進入台大資工系;從美國史丹佛大學取得博士學位後,1991年回台大資工所任教。她回台的那年,所有人都不看好AI,要取得研究經費,困難重重。比如,大家看不懂為什麼要研發走路會跌倒、歪斜的機器人?她向國科會爭取經費,馬上被回絕,畢竟,要一台動作不精確的機器做什麼?

但她看到的是,這是會自行學習的機器,如嬰兒學步,只要機器人不斷進步,從A點走到B點,哪怕走路無法直行,也是了不起的研究成果。

逆境,不澆熄她的熱情,她到處爭取經費,花十幾萬,買數位相機、雷達感測器,整台機器人組裝完畢,竟要價百萬,「你很難想像,那年代的相機畫素只有200乘以200,雷射測距機器現在都是3D,以前卻是1D只測得到線,」她說。

許永真-人工智慧-台大-教育-軟體-大型語言模型-本土-台灣文化-國際-教學-資源-國科會-AI 20 Taiwan-研究面對早期外界的不看好,許永真仍堅持爭取機器人、照片辨識等AI研究資源。圖片來源:廖祐瑲攝

近2000年,網路科技大爆發,她轉而研究照片辨識,讓機器學習辨識人臉,也成為跑在最前面的人。

走在前頭的代價,無非是不被看好,且拿不到太多資源,「但我就是抱著資源有多少,就做多少的心態,帶學生做好玩的研究,」她說。

但一條路,慢慢地被走出來。日後,物聯網應用起頭,她因老早就進行人機互動與物聯網研究,迎來Intel合作,成立台大創新研究中心,每年研究費則達100萬美金(約新台幣3,000萬元)。

跟著她的學生,也一個個都有了成就,不是進入國外頂大如麻省理工學院、UCLA教書,就是進入Google、Meta等企業工作。孤獨,反而讓她把時局看得更清楚。

「當大家還不重視AI時,她堅持了很多年,」陽明交大資工系終身講座教授林一平觀察,許永真自主性高,視野廣闊,不人云亦云;現在AI浪潮興起,她卻常提醒同儕,不要什麼新鮮就追什麼,「現在一直追,以後會後悔。」

長期缺乏軟體投資,TAIDE成關鍵火種

從2000年網路科技興起、2008年iPhone帶起手機應用,台灣都因長期不重視軟體而錯過機會,曾有近十年的時間,遠遠落後於人。眼看AI捲土重來,許永真不禁思考:難道,台灣還要繼續缺席嗎?

這正是她力推TAIDE的關鍵。

「如果台灣沒有自己的語言模型,讓本土人才累積實戰經驗,Google、Meta還會要我們的學生嗎?」她憂慮。

其二,全世界的語言模型,訓練的資料很少有繁體中文資料。如此一來,台灣的文化、慣用語,會不會在AI更普遍的未來全都消失?

在台灣學界近30年,她更感慨,台灣雖靠AI硬體研發與代工受惠,「但除了台積電,許多技術都不是自己的,這些代工廠,有多少間毛利率還在個位數?」她逆風評論眼前的AI熱潮。

尤其,TAIDE計畫在購買運算設備時,光是九台NVIDIA H100機器,共72張GPU,就花了新台幣一億多元。「台灣代工,毛利很少,但是他賣回給我們,卻拿了這麼多錢。台灣的經濟,可不可以有一日不再靠賣肝?」

她鋒利的詰問,是希望台灣長期「重硬輕軟」的思維,能在這個AI應用爆發的拐點翻轉。

TAIDE是她為台灣種下的火種,許永真負責到處串聯資源,包括,與Llama對接、說服各大產官學機構,促進TAIDE能因連結各界資源,而有更多不同的商業應用。

Meta也因看見TAIDE的成功,不僅要把TAIDE納為全球開發標竿,也將採用透過繁中訓練的資料,未來,在全球大型語言模型裡,台灣文化就不怕被忽視。

然而,對比種種成就,許永真最驕傲的,仍是台灣的人才終於也有了舞台,「訓練TAIDE的學生,已經好幾個人都被Google、Meta挖走了!」期盼他們有機會站在巨人的肩膀上,日後,也能對台灣的軟體業帶來改變。

許永真最想看見的是,有一日,軟體應用與人才,能與硬體受到同樣的重視。

再過幾個月,滿65歲的許永真要從台大退休。她一路走來,都專注在培育學生;AI浪潮來襲下,她也衝在最前頭,要替學生爭取一個舞台。「影響我人生最深的觀念,就是只要選擇了就不要後悔,」

選了,就不要回頭看,只要堅定地往前走,路,就一定會被踩出來。

小檔案|許永真

長庚大學特聘教授許永真。圖片來源:廖祐瑲攝 圖片設計:未來城市

  • 出生:1960年
  • 現職:長庚大學特聘教授
  • 學歷:美國史丹佛電腦科學博士
  • 經歷:台大資工系教授、台灣人工智慧學會理事長

延伸閱讀

深度專題|台灣AI 20

「AI即國力」在2024年已成共識。進入新時代,天下「未來城市」推出了「台灣AI 20」專題報導,邀請產官學代表組成推薦委員會,選出20位在AI的技術創新、產業應用、政策推動、知識教育和社群連結五大領域中,選出20位對台灣AI發展有重大影響的人物。

誰是台灣AI 20人物?他們為台灣做了哪些事?立刻點擊閱讀「台灣AI 20」深度專題。

台灣AI 20|獨家名單!影響台灣AI發展的20人

其他人也在看

你可能有興趣

已成功複製連結