【我的預測】AI將從「快反應聊天夥伴」進化為「自主拆解任務的數位員工」。企業競爭不再是用哪個大模型,而是誰先把Know-how變成AI工作劇本。主權AI結合Edge AI成趨勢,資料留機房也能用生成式AI。Benchmark從國際標準轉向在地量尺,誰能定義評測標準,誰就掌握話語權。
【我們正在做】TAIDE與TAIHU計畫用本地語言、資料、算力打造主權模型,設計五大任務評測與人文知識評測系統,建立「模型→Benchmark→應用」閉環,讓台灣有自己的AI量尺與標準答案。
【我的建議】別迷信大模型,關鍵是資料能否成訓練基礎。先整理組織SOP、文件、對話紀錄,搭配在地Benchmark,訓練出懂組織文化的AI員工。2026年台灣不只當使用者,更要成為能定義題目、寫標準答案、訂評分規準的人。
趨勢1 從「快思考聊天」走向「慢思考代理人(Agent)」
如果要用一句話形容2026的AI變化:AI會從「快反應的聊天夥伴」,變成「會自己拆解任務、按照SOP把事情做完的數位員工」。
過去的模型偏向System 1——反應快、很會「接話」;接下來幾年,我們會看到越來越多具備System 2推理能力的自主AI代理(Autonomous AI Agents)。
它能理解情境、拆解步驟、調用工具/API、寫完報告或流程紀錄,因此,企業之間的差異,不再是「有沒有用某個大模型」,而是誰先把自家Know-how變成AI代理可以遵循的工作劇本。
趨勢2 主權模型+Edge AI:AI不只在雲端,也在你桌上的電腦裡
在台灣,我特別關注的是主權AI(TAIDE,台德模型)結合Edge AI的走向。
一方面,我們在TAIDE計畫裡,用本地語言、本地資料、本地算力,打造懂台灣文化與語境的模型;另一方面,在教育部Write AI、華師拍檔等專案裡,我們跟國內外硬體夥伴合作,讓模型可以「縮小」到AI PC、校園或機關內網裡離線運算。
對很多機關與企業來說,這件事的意義很簡單:資料留在自己機房不外流,卻仍然能使用生成式AI。
趨勢3 Benchmark典範轉移:從崇拜分數到在地量尺
現在整個產業對基準(Benchmark)有點「又愛又怕」——大家都看分數,又隱約知道那不等於實際好用。
前OpenAI首席科學家蘇茨克維(Ilya Sutskever)就提醒:做模型的人常拿幾個漂亮的基準分數自我安慰,但真正用起來,表現其實像「半獸人」。
這句話我非常有感。像MMLU(大規模多任務語言理解測試)這樣的基準測試,本質上是在測「文字接龍」能力,很適合看基礎模型(Base Model),但完全不能確認:模型會不會寫台灣公文?看不看看得懂台灣歷史檔案?能不能依照當地法規與文化給建議?
所以這兩年,我開始把重心移到「在地任務導向 Benchmark」。在TAIDE裡,我們設計了五大任務評測:摘要、寫信、寫文章、中翻英、英翻中,從一開始就只問一件事:「這個模型能不能直接上工?」
在TAIHU(台鵠)這個由台灣團隊開發的人文知識評測系統,我們用明清檔案、省議會公報、熱蘭遮城日誌等史料,測的不是模型講得順不順,而是它能不能找到正確證據來回答問題。
臺鵠系統連結多個人文資料庫,以符合臺灣議題與語境的對話回應使用者。圖片來源:截自臺鵠人文知識探勘系統
對台灣來說,這不是技術問題,而是策略問題:
如果我們一直只看國外定義的基準,就永遠只能照別人的標準排隊,我們需要能反映「台灣實際工作能力」的量尺。
行動1 Write AI:把「作文批改」變成AI最擅長的固定工作
教育現場最痛的一件事,就是作文批改:耗時、耗神、回饋又常常來不及。因此,我們在教育部支持下開發了「Write AI高中作文評閱輔助系統」,做了三件事,這也是我常建議企業借鏡的流程:
- 先萃取專家智慧(SFT):團隊與國文老師合作,整理出數千份「黃金標準批改」——不只是分數,而是針對立意、結構、用詞的細緻評語,作為模型訓練的基礎(SFT, Supervised Fine-Tuning)。
- 再用模型補齊資料缺口(Synthetic Data):但真實資料存在缺口,某些錯誤類型太少見,模型學不到。因此第二階段使用「合成資料」(Synthetic Data)補足,用模型生成不同程度、不同風格的作文範本,讓AI見識過足夠多「真實世界會出現的怪題與爛文」。
- 最後才談部署(Edge+驗證):團隊將模型量化後,部署在學校的AI PC或校園伺服器,避免將學生作文送往國外雲端;並透過持續比對「模型評分vs老師評分」來校正誤差,確保評分品質。
這裡關鍵的不是「用了哪一個大模型」,而是怎麼把專家Know-how轉成資料與評測標準,讓模型學得好、也看得懂它是不是在亂講。
行動2 主權AI+Benchmark:讓台灣有自己的AI量尺
在TAIDE模型與TAIHU Benchmark的實作裡,我們嘗試做一套「從模型→Benchmark→應用」的閉環:
先用主權模型掌握在地語言與算力自主權,再透過在地任務導向Benchmark,讓大家可以比較不同模型在公文、RAG、翻譯與寫作上的實際表現。
最後,把這些成果釋出成公共財,讓中小企業不用從零開始做評測,也能知道做客服應該選哪個模型、做歷史檢索又該選哪一個。
對產官學界,我的建議是:不要只迷信某一家大模型的名字,更應該在意的是,你手上的資料能不能變成訓練與評估的基礎。
如果你能先把自己最重要的SOP、文件、對話紀錄整理好,再搭配合適的在地Benchmark,你就有能力訓練出一個真正懂你組織文化與工作方式的AI員工。
切記,沒有高品質的資料,就沒有聰明的AI;沒有在地的Benchmark,就沒有自己的話語權。
2026年我希望看到,台灣不只是AI的使用者,而是能定義題目、寫出標準答案,也寫出評分規準的那群人。這樣,我們在主權AI、教育、產業應用上,才真的站得住腳。
未來城市@天下|中央大學資工系教授蔡宗翰2026年AI趨勢觀點:
A: 大模型具備通才,卻不一定懂你的在地文化與組織,更應該在意的是,你手上的資料能不能變成訓練與評估的基礎。先把自己最重要的SOP、文件、對話紀錄整理好,再搭配合適的在地Benchmark,你就有能力訓練出一個真正懂你組織文化與工作方式的AI員工。
A: 採用 「主權 AI + Edge AI」模式。使用在地模型,配合AI PC或內部伺服器進行離線運算。這能讓機敏資料留在機房內不外流,同時享有強大的生成式AI能力。
A:台灣需要自己定義評測標準,例如TAIDE模型、TAIHU用明清檔案、省議會公報等史料測驗模型的在地知識深度。能定義題目、寫出標準答案,也寫出評分規準,我們在主權AI、教育、產業應用上,才真的站得住腳。





