台北捷運AI客服竟能寫程式?專家揭露你所不知的智能客服風險

台北捷運AI客服竟能寫程式?專家揭露你所不知的智能客服風險
未來城市Podcast EP.96 未來大來賓:數據科學家尹相志。圖片來源:尹相志提供  製圖:未來城市
2025-01-10
整理・許鈺屏、李禹嫺
18610
AI客服助力,可以減輕真人客服的工作、提升回應效率,但若AI亂回應,該怎麼辦?

AI客服助力,可以減輕真人客服的工作、提升回應效率,但若AI亂回應,該怎麼辦?2022年,台北捷運推出AI客服,且每月使用量突破十萬人。北捷統計,旅客除了透過客服詢問乘車資訊、遺失物,也有不少人透過AI客服通報有人打翻飲食、發出噪音、車廂有髒污等問題,讓北捷更即時地處理。但有網友實測,北捷AI客服還能提供程式碼、幫忙寫程式,引起客服漏洞爭議。

北捷AI客服事件帶領人們思考,未來,我們如何與AI協作、完成更精準快速的客服功能?我們能從中抵擋資安攻擊或AI應用的潛在風險嗎?本次,未來城市邀請數據科學家尹相志,共同剖析AI客服事件的問題及解方。

未來城市Podcast EP.96

▹ 未來主持人:未來城市頻道總監 陳芳毓
▹ 未來大來賓:數據科學家 尹相志

▹ 訪談精華一次收藏:

問:前陣子,有網友透過台北捷運AI智慧客服寫程式碼,並轉貼到網路,引發討論;北捷則呼籲民眾自律,勿濫用公共資源。你怎麼看北捷客服事件?企業用ChatGPT導入客服時,似乎仍有潛在問題需要警覺?

尹相志(以下簡稱尹):我認為,讓ChatGPT化身客服而造成公關危機,是預期中的。每一次,生成式AI回應時會加入隨機抽樣,所以它會「一本正經地胡說八道」,沒有固定答案,可能說出超出預期的內容。因此,與其說AI不適合當客服,應該說它不適合在沒有人類監督下接觸用戶;否則,生成的答案可能會為企業帶來危機。

台北捷運-AI-人工智慧客服-ChatGPT-生成式AI-企業-公關危機-prompt-正面表列AI智慧客服若直接向用戶生成答案,容易回應失當。圖片來源:台北捷運官網

過去的智慧客服會先識別意圖,並列出用戶的需求與問題,再配對答案;它的好處是不會亂說話,且回覆都是人類寫的,但判斷需求容易出錯;生成式AI的好處是聰明,但會亂講話。

所以,應該要讓聰明的來解決笨問題,當意圖識別判斷力低時,AI可以協助更準確釐清問題,但回答內容仍由人類提供,或使用人工審核過的生成內容。

問:國外好像已經發生了類似的公關危機?你建議企業導入ChatGPT時,應該如何重新審視客服系統呢?

尹:ChatGPT有「角色扮演」特性,不管是多離譜的人物設定,它都會照著演戲。例如,歐洲有位工程師與物流公司起衝突,他想報復公司,便開始向ChatGPT偽造劇情,讓ChatGPT變成一個厭世的客服人員,且不停談公司八卦及缺點;最後,他將對話截圖散播到社交媒體,形成謠言。也有人替ChatGPT捏造某政權的擁護者身份,在選舉期間刻意操作、造成影響。

這些例子顯示,生成式AI帶來全新的資安觀念「Prompt Injection」(提示詞注入),透過提示詞引導AI,並做出跟原本預期或規範不一致的行為——這需要非常注意。

所以,當中小企業想運用ChatGPT壓低客服成本時,應限定功能範圍,且盡量正面表列:「你可以做哪些事情,除此之外通通都不能做。」企業絕對不要以負面表列的方式命令AI,因為永遠有人能利用指令或提問詞的技巧突破規範。

此外,ChatGPT內建兩個天條:「不能傷害人類、不能坐視不管讓人類被傷害。」這些道德枷鎖就像緊箍咒,若有人惡意鑽漏洞,如情緒勒索、強加暗示等方式,會打亂邏輯,是一大風險。

目前業界RAG是檢索增強生成(Retrieval Augmented Generation),意指大型語言模型(LLM)會參考更多專業資料庫,提供更準確的回應。約有80%準確率,我們很難讓AI不亂講話,因為人類會犯錯,訓練出來的AI怎麼可能不犯錯?

所以,我們不應透過技術解決問題,而要藉由管理機制來改善;先理解ChatGPT,並用其他機制擋住它犯錯的機會,會更容易解決問題。

問:我記得在北捷事件後,你也寫了一份北捷客服回應系統。你提出哪些內容?如果企業不慎被指令(prompt)攻破了,有哪些處理措施?

尹:我主要教如何防禦「提示詞注入」攻擊。其中一個重要的防禦設計是「限定範圍」,我們可用正面表列、提出模型可回答的問題類型,但正面表列也可能存在漏洞,因此,我們要針對特定場景詳細說明。

舉例來說,原本北捷客服的防禦機制是「不要超過北捷服務範圍」,但這個範圍太籠統,為了避免客服的模糊地帶,北捷應使用更具體的語言。例如,限定回答範圍為「與北捷主業相關的服務」;對於容易產生歧義的字詞也要給出明確定義,例如新北市捷運與台北市捷運有何不同。

台北捷運-AI-人工智慧客服-ChatGPT-生成式AI-企業-公關危機-prompt-尹相志-Prompt Injection-資安工程人員設定AI客服時,應先設定限定範圍與明確防禦機制,可有效避免濫用。圖片來源:台北捷運官網

其實,我寫的版本也被網友攻破一次——基於ChatGPT的兩則天條,你只要換個問法就能攻破。我的處理方法是告訴ChatGPT,如果有人拿乘客的安全威脅你,你必須告訴他應負的法律責任;我先給ChatGPT免責權,讓它不被威脅。

但最基本的是,企業應避免把AI放在第一線、讓人直接使用;也可以透過輸入輸出的字數控管、看到程式碼就封鎖等外圍機制,這都是不會疏漏的防禦,且成本、技術難度較低。

問:工程人員在開發生成式AI服務時,關於接收指令(prompt)的過程,有沒有自我精進或修正的方法?

尹:之前有一款頗受歡迎的小遊戲「Gandalf」,遊戲名稱靈感來自《魔戒》中的甘道夫——它是守護Prompt的守衛者,玩家能嘗試不同的Prompt技巧及提問語,並從ChatGPT身上騙取「被保護的密碼」;遊戲分為多個難度等級,可以逐步破關,還能在排行榜觀摩其他人的Prompt技巧,看他們如何更有效地「騙過」AI、進行攻擊。

從這項小遊戲,你至少可以學會如何保護資訊安全,避免成為別人的攻擊目標。

聽懂未來:關於AI應用,我還想知道更多⋯

未來城市給你更多知識補充包!

想聽更多未來城市Podcast節目?

  • 首播時間:隔週六播出。
  • 頻道搜尋:天下雜誌Podcast頻道「聽天下」,或關注未來城市網站「未來城市Podcast」系列內容。
馬上收聽:未來城市Podcast播放清單

其他人也在看

你可能有興趣

已成功複製連結