我們的研究團隊在辦公室內,仔細檢視著最新一版的大語言模型,過年沒回家,還在努力盯著好幾台螢幕「挑毛病」!
「這句中文太生硬了,換個更自然的說法吧。」每個字、每個詞,他們都希望做到最好。他們不是在討論製造規格,而是在打磨台灣第一個具備推理能力的繁體中文AI模型——FoxBrain。
在AI風起雲湧的時代,ChatGPT、Claude等「超級助理」,已成為許多人的工作幫手。但是,這些「外國助理」雖然能說中文,但對台灣的在地文化和專業領域理解十分有限,很容易犯錯;於是,鴻海決定跨界挑戰,要打造一個真正懂台灣、懂製造的AI助手。
FoxBrain最令人驚豔的是它的推理能力。在數學和邏輯測試中,它不只超越台灣同級的AI模型,更接近世界頂尖水準。這就像是一個不只會說中文,還能深入思考、分析的助手。
FoxBrain的誕生究竟代表什麼?為什麼連製造業巨頭鴻海也要跨足AI領域?
鴻海研究院人工智慧研究所所長栗永徽率領團隊,打造第一個具備推理能力、能說中文的AI模型。圖片來源:栗永徽提供
開放vs封閉:兩種不同的AI模型路線
在了解FoxBrain之前,要先認識AI世界中的兩種模型:封閉模型和開放模型。
以ChatGPT為代表的封閉模型,就像是一間高級餐廳的獨門秘方,顧客只能品嚐成品,無法得知詳細的烹飪方法。這類模型由大公司完全掌控,使用者只能透過官方提供的介面使用,無法自行修改或優化。
而鴻海的FoxBrain,則選擇了一個不同的路——開放模型。這就像是一位名廚決定公開自己的招牌食譜,不只分享,還鼓勵其他廚師根據在地口味改良。FoxBrain的模型權重將對外開源,這意味著台灣的政府、企業與個人都可以下載、修改,打造專屬的AI應用。(延伸閱讀|AI分成哪幾種?最近這一波AI跟以前的差在哪?)
為什麼鴻海要開發AI?
在多數人眼中,鴻海是全球最大的電子代工廠,生產智慧手機、遊戲機、伺服器等知名商品。這樣一家製造業巨頭,為何要投入AI開發?
大家都知道鴻海的製造能力是世界頂級,但在我們已經做得很好的製造基礎上,希望再往上提升。
劉揚偉董事長當初在研究所內提到後,我們不只一次,在對外演講中分享這個想法。
「提升」體現在三個方面:智慧製造、智慧電動車和智慧城市。想像一下,如果能用AI來優化生產線、預測設備維護、協助自動駕駛決策,甚至改善城市管理,這將為鴻海帶來全新的發展機會。而FoxBrain,就是實現這些目標的關鍵工具。
劉董事長曾說過:「這個願景不只是為了鴻海自己。」
在全球AI發展版圖中,台灣一直被視為硬體製造重鎮,卻鮮少在AI軟體領域發聲。由於語言文化的隔閡、資料安全的顧慮,以及對在地需求的理解不足,台灣不能只依賴國際AI模型。
更積極的是,台灣必須掌握自己的未來。當AI革命來臨,如果只能依賴他人的工具,又如何在全球競爭中保持優勢?FoxBrain的誕生,正是要打造台灣的「AI引擎」。
儘管台灣也有些不同聲音,很多人認為,開發LLM成本太高,而且也無法和其他國際大廠競爭!我們的想法不同,所以決定做給大家看,證明台灣自己也可以!劉董事長也很支持AI所的想法,所以研究院打造LLM的方向,在院內會議中很快就敲定了。
接下來,關鍵點在於整個模型訓練,用一句話總結,就是「用AI訓練AI」。
首先是資料生成的部分,大約三階段:資料清理與過濾(Data Cleaning & Filtering)、資料增強(Data Augmentation)、資料評估(Data Quality Assessment),在這個過程上,我們使用其他AI領域的開源大模型,來擔任裁判的工作。
針對文字間的關聯,從而評估生成具邏輯性和語意的回應,不斷針對模型參數的調整,磨出最合適的模型。
農曆連假結束後,我們研究所打造的第一版FoxBrain正式推出,僅使用120張NVIDIA H100 GPU,花約四周的時間就完成,總計算力花費2688 GPU days。推出時,擁有70B參數,已生成98B tokens高品質中文預訓練資料,能上下文處理長度128 K token。
在TMMLU+評測結果中,FoxBrain的數學與邏輯推理表現優異。圖片來源:鴻海研究院官網
其實,打造第一版不難,其他科技公司也可以做到,重點是接下來的擴大運用!
我們將FoxBrain開源,讓所有企業都能使用。這個決定背後有更大的願景:
打造台灣的AI生態系統,讓醫療、製造、金融、客服等各領域的企業與研究機構,都能在FoxBrain的基礎上自主訓練、微調並應用,不必從零開始。
共創台灣的AI未來
在FoxBrain新聞稿發布後,我跟所內大模型團隊成員說:「這不算是最風光的工作,但當我們成功的那一刻,證明了一件事:為理想堅持到底,就是一件了不起的大事。」。
在AI技術日新月異的今天,FoxBrain的誕生,其實不是一個技術突破,這只是對台灣AI人才能力與價值的挑戰,也是台灣科技實力的一次自我證明。接下來,FoxBrian還有很漫長的路要走。
這一切的起點,就在內湖這間燈火通明的研究室。(延伸閱讀|誰為下一代策展繁中AI資料?台灣大林之晨:教育部的關鍵任務)




