本文從定義、核心特徵、爆發原因、產品形態,到技術架構四大模組,逐步拆解AI Agent的運作邏輯,以及它與AI助理、RPA的本質差異。
- AI Agent是什麼?
- AI Agent有哪三個核心特徵?
- AI Agent為什麼現在才爆發?
- 目前市面上的AI Agent有哪些產品型態?
- AI Agent、AI助理、RPA有什麼不同?
- AI Agent怎麼運作?由哪些架構組成?
AI Agent是什麼?
AI Agent(人工智慧代理人)是一種能自主感知環境、規劃行動並執行任務的軟體系統。Google在2025年AI Agent技術白皮書中指出,AI Agent以大型語言模型(LLM)為核心決策引擎,結合外部工具、編排層與執行環境,可以持續循環運作直到完成目標。
以出差行程安排為例:一般AI工具只能一問一答,每次互動獨立;AI Agent接到同樣任務後,會自動查航班、比價、預訂飯店、把行程寫進行事曆,全程不需人類逐步確認。
AI Agent有哪三個核心特徵?
AI Agent與一般AI工具的本質差異,體現在三個核心能力:
- 自主性(Autonomy):AI Agent接到目標後,可自行規劃並執行多步驟任務,中途不需要人類介入每個決策點。AI Agent的自主程度從「提供建議、人類決定」到「完全自主執行、人類只看結果」,依部署設定而不同。
- 工具使用(Tool Use):AI Agent能主動調用外部工具,搜尋網路、讀寫檔案、操作瀏覽器、呼叫API、寄送郵件,從「說話的AI」變成「動手的AI」。
- 記憶與學習(Memory):AI Agent能保存短期工作記憶與長期記憶,前者追蹤當前任務的執行狀態,後者累積使用者偏好與歷史互動,讓跨次任務的執行更連貫。
AI Agent為什麼現在才爆發?
AI Agent的概念在學術界討論已超過20年,但真正大規模商用是2024年後的事。觸發點有三:
- 大型語言模型(LLM)推理能力大幅提升;
- 工具調用(function calling)機制成熟;
- 雲端算力成本下降。
商業情報公司CB Insights指出,從2023年到2025年,企業財報電話會議提及AI Agent的頻率已成長十倍;在其追蹤的逾1,500個科技市場中,當年交易活躍度前十大主題有五個與AI Agent直接相關。
目前市面上的AI Agent有哪些產品型態?
麻省理工學院(MIT)在2025年調查市面上30款主流AI Agent產品後,歸納出以下三種型態:
| 產品型態 | 主要用途 | 代表產品 |
|---|---|---|
| 聊天型 | 透過對話介面執行任務 | Claude、ChatGPT Agent |
| 瀏覽器型 | 直接控制瀏覽器執行網頁操作 | Perplexity Comet、Opera Neon |
| 工作流程型 | 整合進企業系統,自動化跨系統流程 | Salesforce Agentforce、Microsoft Copilot Studio |
AI Agent、AI助理、RPA有什麼不同?
AI Agent、AI助理(AI Assistant)與RPA(機器人流程自動化)都能替人執行任務,但自主程度、應用範圍與失敗方式截然不同。
| 核心差異 | AI Agent | AI助理 | RPA |
|---|---|---|---|
| 代表產品 |
Claude Agent、Salesforce Agentforce |
ChatGPT、Gemini、Copilot、Claude | UiPath、Automation Anywhere |
| 任務模式 | 自主規劃任務、呼叫工具並執行行動 | 以對話介面協助使用者完成任務 | 模擬人類操作、自動執行固定流程 |
| 自主決策程度 |
高,能自主規劃與執行 |
低,需使用者逐步引導 | 無,完全依照腳本執行 |
| 學習與記憶 | 可跨任務保存上下文 | 通常限於單次對話 | 無 |
| 出錯處理 | 自動調整、嘗試替代方案 | 回報使用者,等待指示 | 停機報錯,需人工介入 |
| 外部系統整合 | 動態呼叫多種API與工具 | 有限串接,缺乏主動規劃 | UI模擬操作,彈性低 |
目前企業多採混合部署,透過RPA處理格式固定的標準流程,AI Agent處理例外狀況與跨系統判斷,AI助理輔助需要人類確認的高風險決策節點。(延伸閱讀|AI AgentXRPA 雙刀流:企業如何打造最強數位員工?)
AI Agent怎麼運作?由哪些架構組成?
根據Google的技術白皮書,AI Agent的運作由以下四個功能模組構成:
- 基礎模型(Model):LLM負責理解指令、分析情境、制定行動計畫,並判斷任務是否完成。AI Agent在此扮演整合者角色,統一銜接規則系統、分析AI與生成式AI的輸出,而非取代既有系統。
- 工具整合(Tools):AI Agent透過工具調用與外部世界互動。工具連接的標準化介面目前以MCP(Model Context Protocol)為主。
- 記憶與上下文(Memory & Context):AI Agent的記憶通常以向量資料庫實作。若資料破碎會導致決策前後矛盾,在多Agent系統中更可能串聯傳播錯誤。
- 編排層(Orchestration):管理多步驟工作流程,決定任務順序、工具分配與人類確認節點。企業通常使用AutoGen、CrewAI、LangGraph等框架處理複雜的跨系統流程。
這四個模組決定了AI Agent能做什麼,企業則透過自主程度的設定,劃定AI Agent的行動邊界。了解架構之後,下一步是釐清AI Agent能為企業解決哪些具體問題。
閱讀重點
A:AI Agent是能自主感知環境、規劃行動並執行任務的軟體系統,給定目標後自行決定怎麼做。ChatGPT問一句答一句,每次互動獨立;AI Agent接到「安排出差行程」後,會自動查航班、比價、訂飯店、寫入行事曆,全程不需逐步確認。
A:根據Google技術白皮書定義,AI Agent由四個模組構成:基礎模型(LLM負責理解指令與制定計畫)、工具整合(透過MCP標準介面調用外部工具)、記憶與上下文(以向量資料庫儲存執行狀態與歷史互動)、編排層(管理多步驟流程與人類確認節點)。
A:AI Agent概念在學術界討論超過20年,真正爆發的觸發點有三:LLM推理能力大幅提升、工具調用機制成熟、雲端算力成本下降。商業情報公司CB Insights指出,自2023年以來,企業財報提及AI Agent的頻率已成長十倍。




