12月將發行的一本期刊中有篇有趣的論文,該研究找了72位頂級期刊審稿者(reviewer)及72位編輯(editor),請他們判斷若干篇研究摘要(abstract)究竟是人寫的或AI生成;該研究還深度訪談這些審稿者及編輯,以了解他們判斷人寫或AI生成的邏輯為何。
結果,即使專家們各有一套道理,但他們能正確辨識出AI生成摘要的比率只有38.9%——意即每1,000篇文章,僅389篇能被正確辨識,其他都搞錯了,不是人寫的卻被誤認為AI生成,就是AI生成卻被以為是人寫的。瞎猜都有一半的正確率,這些專家的判斷卻比瞎猜還慘。
研究指出,近150位審稿者與編輯閱讀AI或人類生成的文章時,僅抓出不到38.9%AI內容。圖片來源:Shutterstock
但我更有興趣的是,論文後半段整理了審稿者及編輯者最常用來判斷的四項邏輯,每一個乍聽都很有道理,但正確率卻出乎我意料。
一、通順度與連貫性(continuity and coherence)
這些有經驗的專家們認為,容易閱讀、通順且流暢的內容,應該就是人寫的,反之則是AI生成。這也是最多人用以判斷的經驗法則。但遺憾的是,若只用這一條標準做判斷,正確率只有22.2%。意思是,依據現今日的狀況,「容易閱讀、通順流暢」的內容反而大多是AI生成,人類已經輸了!
二、細節的具體或模糊性(specificity or vagueness of details)
這些有經驗的專家們認為,如果摘要有提到具體細節,如研究方法、研究發現等,就是人寫的;若細節較少,就是AI生成。用這一條邏輯來判斷,正確率也只有28.6%;意思是,AI生成比人寫的內容有更多具體細節。
三、熟悉度與口吻(familiarity and voice)
我對這個判斷原則的解讀是,當專家們覺得這個「口吻」比較像某個人講話的語氣、有熟悉感,就會被認為是人類所寫。很遺憾,用這一條判斷邏輯來辨別的話,正確率更低,只有20%。意思是,AI已經可以模仿人類的口氣,別再用這個邏輯來判斷了!(延伸閱讀|不只有Tinder!交友軟體導「AI戀愛教練」 Online智慧相親將助70%男女脫單)
四、句子層級的寫作品質(writing quality at the sentence-level)
這個標準的意思是,特定句子或用語的結構比較好,就判斷是人寫的;反之,若句子品質較差,例如很少人使用的描述方法,或特定用語怪怪的,就被判斷為AI生成。這是正確率最高的判斷邏輯,達60%。
這篇論文只有十頁,對於評論者的經驗分布、專家們認為哪些內容用AI生成較符合道德規範的(共識度最高的是用來編修文稿、寫程式和寫摘要),都有更深入的介紹。文章也很通順,值得一看——等等,該不會就是AI寫的吧!?(笑)
AI已能生成書信、報告、履歷等文字,且AI生成的內容更具細節。圖片來源:截自tinywow網站
AI論文如過江之鯽,我之所以導讀這篇,是因為它刷新了一般人的三觀——「AI寫得比人通順」「AI寫得比人有細節」「AI會用讓人不熟悉的口吻來寫」,連有多年經驗的評論者都難以辨識。只能說,小心,AI生成文章就在你身邊!(延伸閱讀|張潔平:將反覆練習外包給AI,人類還培養得出創造力嗎?)
不過人類也算厲害,能找到一個正確率60%的規則,可用來判斷內容是否為AI生成;然而,這篇論文一旦發布了,我相信立刻會有AI學者推出改良版模型,讓模型能通過這一條評測標準。
未來,這種攻防就像病毒和防毒軟體之爭,將持續好一陣子;或者,最後我們已經無法分辨,甚至也不區分辨,以AI生成內容就是常態了。(延伸閱讀|哈佛法學教授雷席格:我們正處於AI的「奧本海默時刻」,好壞永遠並存【完整全文】)
(本文獲作者同意轉載)




