語言專家也看走眼！最新研究：AI生成比人類寫的文章更通順好讀

AI與人類生成的內容難以判別，連專家判斷正確率也不到四成。圖片來源：Shutterstock

2023-11-13

文・楊立偉（台大工管系兼任助理教授）

33217

你能辨認文章是人寫的，還是AI生成嗎？如果你辦不到，那語言學專家可以嗎？

12月將發行的一本期刊中有篇有趣的論文，該研究找了72位頂級期刊審稿者（reviewer）及72位編輯（editor），請他們判斷若干篇研究摘要（abstract）究竟是人寫的或AI生成；該研究還深度訪談這些審稿者及編輯，以了解他們判斷人寫或AI生成的邏輯為何。

結果，即使專家們各有一套道理，但他們能正確辨識出AI生成摘要的比率只有38.9%——意即每1,000篇文章，僅389篇能被正確辨識，其他都搞錯了，不是人寫的卻被誤認為AI生成，就是AI生成卻被以為是人寫的。瞎猜都有一半的正確率，這些專家的判斷卻比瞎猜還慘。

ai-人工智慧-ai應用-語言-語言學家-編輯-審稿-閱讀-科技與惡-生成式ai-ai內容研究指出，近150位審稿者與編輯閱讀AI或人類生成的文章時，僅抓出不到38.9％AI內容。圖片來源：Shutterstock

但我更有興趣的是，論文後半段整理了審稿者及編輯者最常用來判斷的四項邏輯，每一個乍聽都很有道理，但正確率卻出乎我意料。

一、通順度與連貫性（continuity and coherence）

這些有經驗的專家們認為，容易閱讀、通順且流暢的內容，應該就是人寫的，反之則是AI生成。這也是最多人用以判斷的經驗法則。但遺憾的是，若只用這一條標準做判斷，正確率只有22.2%。意思是，依據現今日的狀況，「容易閱讀、通順流暢」的內容反而大多是AI生成，人類已經輸了！

二、細節的具體或模糊性（specificity or vagueness of details）

這些有經驗的專家們認為，如果摘要有提到具體細節，如研究方法、研究發現等，就是人寫的；若細節較少，就是AI生成。用這一條邏輯來判斷，正確率也只有28.6%；意思是，AI生成比人寫的內容有更多具體細節。

三、熟悉度與口吻（familiarity and voice）

我對這個判斷原則的解讀是，當專家們覺得這個「口吻」比較像某個人講話的語氣、有熟悉感，就會被認為是人類所寫。很遺憾，用這一條判斷邏輯來辨別的話，正確率更低，只有20%。意思是，AI已經可以模仿人類的口氣，別再用這個邏輯來判斷了！（延伸閱讀｜不只有Tinder！交友軟體導「AI戀愛教練」　Online智慧相親將助70%男女脫單）