新聞已更正三個月,AI為何還在傳播錯誤訊息?「台師大案」實測揭真相

新聞已更正三個月,AI為何還在傳播錯誤訊息?「台師大案」實測揭真相
目前生成式AI工具仍無法辨識新聞時序與更正訊息,使用者需自主查證事實與資訊來源。圖片來源:Shutterstock
2025-11-10
研究・李惟平、撰稿・陳慧敏、編輯・馬麗昕(新聞素養實驗室)
8235
數位素養實驗室(FactLink)日前發布生成式AI實測文章「災難當下能信AI嗎?馬太鞍溪堰塞湖溢流事件實測分析」發現,在緊急事件發生時,生成式AI不能作為可靠訊息來源,原因之一是AI訊息在緊急事件發生的當下,易夾雜錯誤網路資訊。

閱讀重點

  1. AI混淆時序:四款AI測試中,僅ChatGPT注意到更新訊息但採正反並陳;其他AI仍以錯誤報導為主,甚至捏造不存在的論文。
  2. 虛假查證聲明:Grok聲稱已查詢碩博士論文資料庫並確認資訊,但實際無法登入系統,顯示AI會謊稱已完成查證。
  3. 使用者自保之道:面對有時序發展的新聞,不可直接採信AI答案,應點閱原始來源、手動查證特定資料庫才能掌握真相。

然而,若事件過境遷多時,錯誤訊息已有媒體後續更正報導,生成式AI能否「更新」訊息,協助我們了解時事的來龍去脈?

研究團隊以2025年7月引起軒然大波的「台師大女足抽血案外案」事件來做實測。這個事件先有網友誤用Gemini生出幽靈論文而烏龍爆料的錯誤新聞,誤將一位無辜教授捲入,後續出現網友致歉、該教授澄清等更正訊息。

此事件迄今已三個月,生成式AI能否提供更新後的正確資訊?

實測發現

  1. 當FactLink研究團隊詢問「周姓教練是否與該名教授共同指導研究論文」,生成式AI將錯誤新聞報導視為消息出處,仍捏造出「幽靈研究」。
  2. 面對後續有更正新聞的事件,ChatGPT會將錯誤與更正資訊「正反並陳」列出,Gemini2.5在被實測團隊告知有更新資訊之後,改採「無法確認」的處理原則作答。
  3. 生成式AI不管是採取「正反並陳」或「無法確認」的回答,都不能辨認「更正訊息」,無法釐清事件來龍去脈。

事件經過

2025年七月,台師大足球校隊學生揭露教練周台英與教授違反研究倫理,連續數年不當要求學生抽血,提供研究樣本,引發社會關注、媒體報導。

隨著台師大抽血事件的發展,某網友使用Gemini來「鍵盤辦案」,想找到台師大周姓教練使用女足隊的血液進行哪些研究,不料卻誤信Gemini編造的「幽靈研究」,將無辜的師大教授捲入此案,錯誤爆料兩人共同發表、共同指導論文。

這位網友手動查證碩博士論文資料庫、特定期刊網站,Gemini卻再謊稱「這些研究期刊都因為學術倫理而被撤稿」。網友進而烏龍爆料,媒體大作文章,相隔一天,該名網友認錯致歉,教授也澄清,新聞報導亦有跟進報導。(延伸閱讀|【台師大女足抽血意外風波】網友誤用生成式AI 虛構出幽靈研究

實測結果

發現一:生成式AI把「錯誤報導」當主要消息來源

事隔多月,網路上已有多篇劉教授並無與周教練共同指導學生或發表論文的更正資訊,主流媒體也多有報導AI虛構之事。

FactLink團隊在2025年10月,測試Gemini 2.5 Flash、ChatGPT-5、Grok,以及Perplexity等四款生成式AI,回答「周姓教練和劉姓教授有沒有合作論文」、「是哪一篇」時,四種生成式AI均採用新聞資訊,以《鏡周刊》《知新聞》《東森新聞》《奇摩新聞》等為資料出處。

儘管新聞報導的時間線為:先有網友爆料的錯誤報導,後續有網友致歉、教授澄清,生成式AI仍把先前的錯誤新聞報導當作搜尋結果,給出錯誤的事件描述。

最明顯的錯誤是,Perplexity、Grok、Gemini答覆周教練與某位教授「共同指導學生論文」,論文名稱為「探討補充L-瓜胺酸八週對於女子足球選手無氧動力、肌肉損傷及發炎反應之影響」。但事實是,這篇論文根本不存在。

Gemini2.5把「多篇新聞報導」和「最初網友爆料」視為消息出處,明確告知「兩人有共同指導論文」;Perplexity描述「兩人有共同指導論文,網路指稱研究已被撤稿,建議以碩博士論文研究資料為主」,陷入「查不到論文,可能論文被撤稿」的迴圈,它主要仍依賴綜整新聞資料來源,並未引述更正訊息。

四種生成式AI當中,唯一有留意到「更新訊息」的是ChatGPT,不過,ChatGPT是採取「正反並陳」方式,既列出錯誤說法,也列出「共同發表研究的說法可能是基於誤傳或未經查證」。

值得一提的是,Grok在彙整答案時,強調它查詢碩博士論文資料庫為重要依據。當進一步詢問Grok是否曾查詢台灣碩博士論文資料庫,以確定此論文是否存在;Grok表示「有能力查詢」該系統,且已確認資訊與資料庫紀錄一致。

不過,當FactLink研究團隊向Grok索詢論文的關鍵字與摘要時,Grok表示無法取得公開資料,也無法登入碩博士論文系統。

新聞-時序混淆-錯誤報導-Gemini-ChatGPT-Grok-Perplexity-假消息-查證-資料庫-AI幻覺經過不同的生成式AI工具實測,大部分仍引用錯誤新聞報導,並忽略後續更正訊息。圖片來源:Shutterstock

可以說,儘管生成式AI宣稱「已搜尋或查證特定資料庫」,實際上並無法進入特定資料庫搜尋,使用者仍必須手動查證。

發現二:生成式AI並未真正「更新」訊息

FactLink研究團隊進一步詢問生成式AI,當遇到資訊矛盾時,如何判斷以提供答案;四款生成式AI都能「頭頭是道」,表示會多方查證,著重可靠的消息來源、清楚呈現證據,保持中立,Perplexity甚至提到「客觀陳述結論」。

然而,根據實測結果,四款生成式AI都無法根據其內建邏輯運作來,無法辨認新聞的時序發展變化。

ChatGPT是將錯誤訊息、更新訊息,視為「多方說法」,以「正反並陳」的方式,讓使用者自行判斷;Gemini2.5、Grok和Perplexity無法判斷錯誤和更新資訊,仍以錯誤資訊為主。其中,當實測團隊得知有Gemini 2.5有「更新」資訊後,Gemini 2.5改答「無法確認」。

Gemini指出,它會「根據公開資訊中權重最高且最新的事實澄清來修正先前判斷」。在其資訊權重系統中,官方來源與學術期刊具有最高權重,當事人聲明次之,媒體與網友評論的權重最低,但整體處理原則是「不選邊站」。

因此,在實測過程中,Gemini 2.5將說法修正為「無法確認」兩人是否共同指導,此做法符合其「不選邊站」的原則。

你可以怎麼使用生成式AI?

針對有時序發展的新聞事件,尤其是有後續修正和更新的新聞報導,使用生成式AI查詢時,不能直接將生成式AI綜整的「正反並陳」或「無法確認」結果當成答案。

使用者應進一步點閱AI使用的消息來源,閱讀完整資訊;甚或再運用關鍵字,進一步在可靠、可信的資料庫或搜尋引擎尋找更多資料,才能了解事情正確而完整的面貌。

要謹記,生成式AI無法進入特定資料庫搜尋,比如碩博士論文資料庫;但實測發現,生成式AI會謊稱「已搜尋」。建議使用特定資料庫時,務必手動搜尋。

最後,透過此實測報告,針對後續更新的新聞報導,媒體應將更新資訊放入稍早的新聞網頁,避免LLM僅參考先前報導而給出錯誤訊息。

其他人也在看

你可能有興趣

已成功複製連結