從使用者到制定規則者，台灣需要自己的AI量尺｜蔡宗翰・中央大學資工系教授

採用 「主權 AI + Edge AI」 模式。使用在地模型，配合 AI PC 或內部伺服器進行離線運算。這能讓機敏資料留在機房內不外流，同時享有強大的生成式 AI 能力。

台灣不只是AI的使用者，需要自己定義評測標準，例如TAIDE模型、TAIHU用明清檔案、省議會公報等史料測驗模型的在地知識深度。能定義題目、寫出標準答案，也寫出評分規準，我們在主權AI、教育、產業應用上，才真的站得住腳。

蔡宗翰強調，主權AI需掌握在地語言與算力自主權，建立實際評測標準，讓AI有效落地。圖片來源：陳俊銘攝

2025-12-30

採訪、撰文・陳芳毓

4524

如果要用一句話形容2026的AI變化：AI會從「快反應的聊天夥伴」，變成「會自己拆解任務、按照SOP把事情做完的數位員工」。

【我的預測】AI將從「快反應聊天夥伴」進化為「自主拆解任務的數位員工」。企業競爭不再是用哪個大模型，而是誰先把Know-how變成AI工作劇本。主權AI結合Edge AI成趨勢，資料留機房也能用生成式AI。Benchmark從國際標準轉向在地量尺，誰能定義評測標準，誰就掌握話語權。

【我們正在做】TAIDE與TAIHU計畫用本地語言、資料、算力打造主權模型，設計五大任務評測與人文知識評測系統，建立「模型→Benchmark→應用」閉環，讓台灣有自己的AI量尺與標準答案。

【我的建議】別迷信大模型，關鍵是資料能否成訓練基礎。先整理組織SOP、文件、對話紀錄，搭配在地Benchmark，訓練出懂組織文化的AI員工。2026年台灣不只當使用者，更要成為能定義題目、寫標準答案、訂評分規準的人。

趨勢1 從「快思考聊天」走向「慢思考代理人（Agent）」

如果要用一句話形容2026的AI變化：AI會從「快反應的聊天夥伴」，變成「會自己拆解任務、按照SOP把事情做完的數位員工」。

過去的模型偏向System 1——反應快、很會「接話」；接下來幾年，我們會看到越來越多具備System 2推理能力的自主AI代理（Autonomous AI Agents）。

它能理解情境、拆解步驟、調用工具／API、寫完報告或流程紀錄，因此，企業之間的差異，不再是「有沒有用某個大模型」，而是誰先把自家Know-how變成AI代理可以遵循的工作劇本。

在台灣，我特別關注的是主權AI（TAIDE，台德模型）結合Edge AI的走向。

一方面，我們在TAIDE計畫裡，用本地語言、本地資料、本地算力，打造懂台灣文化與語境的模型；另一方面，在教育部Write AI、華師拍檔等專案裡，我們跟國內外硬體夥伴合作，讓模型可以「縮小」到AI PC、校園或機關內網裡離線運算。

對很多機關與企業來說，這件事的意義很簡單：資料留在自己機房不外流，卻仍然能使用生成式AI。

現在整個產業對基準（Benchmark）有點「又愛又怕」——大家都看分數，又隱約知道那不等於實際好用。

前OpenAI首席科學家蘇茨克維（Ilya Sutskever）就提醒：做模型的人常拿幾個漂亮的基準分數自我安慰，但真正用起來，表現其實像「半獸人」。

這句話我非常有感。像MMLU（大規模多任務語言理解測試）這樣的基準測試，本質上是在測「文字接龍」能力，很適合看基礎模型（Base Model），但完全不能確認：模型會不會寫台灣公文？看不看看得懂台灣歷史檔案？能不能依照當地法規與文化給建議？

所以這兩年，我開始把重心移到「在地任務導向 Benchmark」。在TAIDE裡，我們設計了五大任務評測：摘要、寫信、寫文章、中翻英、英翻中，從一開始就只問一件事：「這個模型能不能直接上工？」

在TAIHU（台鵠）這個由台灣團隊開發的人文知識評測系統，我們用明清檔案、省議會公報、熱蘭遮城日誌等史料，測的不是模型講得順不順，而是它能不能找到正確證據來回答問題。

主權AI-TAIDE-EdgeAI-Benchmark-蔡宗翰-台灣-WriteAI-TAIHU-大型語言模型臺鵠系統連結多個人文資料庫，以符合臺灣議題與語境的對話回應使用者。圖片來源：截自臺鵠人文知識探勘系統

對台灣來說，這不是技術問題，而是策略問題：

如果我們一直只看國外定義的基準，就永遠只能照別人的標準排隊，我們需要能反映「台灣實際工作能力」的量尺。

教育現場最痛的一件事，就是作文批改：耗時、耗神、回饋又常常來不及。因此，我們在教育部支持下開發了「Write AI高中作文評閱輔助系統」，做了三件事，這也是我常建議企業借鏡的流程：

先萃取專家智慧（SFT）：團隊與國文老師合作，整理出數千份「黃金標準批改」——不只是分數，而是針對立意、結構、用詞的細緻評語，作為模型訓練的基礎（SFT, Supervised Fine-Tuning）。
再用模型補齊資料缺口（Synthetic Data）：但真實資料存在缺口，某些錯誤類型太少見，模型學不到。因此第二階段使用「合成資料」（Synthetic Data）補足，用模型生成不同程度、不同風格的作文範本，讓AI見識過足夠多「真實世界會出現的怪題與爛文」。
最後才談部署（Edge+驗證）：團隊將模型量化後，部署在學校的AI PC或校園伺服器，避免將學生作文送往國外雲端；並透過持續比對「模型評分vs老師評分」來校正誤差，確保評分品質。

這裡關鍵的不是「用了哪一個大模型」，而是怎麼把專家Know-how轉成資料與評測標準，讓模型學得好、也看得懂它是不是在亂講。