你的社群留言,成了ChatGPT的訓練資料——大型語言模型資料從哪來?

你的社群留言,成了ChatGPT的訓練資料——大型語言模型資料從哪來?
OpenAI善用大型語言模型(LLM),訓練、優化ChatGPT所生成的內容。圖片來源:Shutterstock
2023-10-12
文・蘇經天(摘自《新AI與新人類》)
15990
一般來說,專用型AI通常針對特定任務或領域進行優化,而大型語言模型(Large Language Model, LLM)則以廣泛的語言知識和生成能力為特點。畢竟人類世界中無論哪個領域,一直以來都是以語言為載體進行傳播與交流。

可能會讓你十分驚訝的是,每個人在某種程度上都無意識地貢獻了LLM的創建與發展。

因為這些大型語言模型的網絡的編織,包含了每個人的數位足跡——當你在網路上進行活動,如撰寫部落格文章、留言,或在社群媒體分享內容時,就留下了數位足跡。

大型語言模型訓練資料來自哪裡?

這些公開資料形成了巨大的數據庫,可能會(在你完全不知情的狀況下)被用於各種目的。LLM的訓練是一個資料密集型過程,透過分析大量文字資料,讓模型學習語言的結構和模式。

  • 部落格、網路文章、多媒體作品:當你撰寫一篇網誌文章或是設計了一幅畫並公開分享時,就有可能被收集並用於訓練LLM,進而學習如何以更自然的方式生成文字。
  • 社群媒體:當你在Twitter或Facebook上發布內容時,這些文字可能會被用於訓練LLM,經由分析,使模型能夠理解當代的流行語言和網路用語。
  • 網路論壇、電腦程式:參與網路論壇、留言板也是一種貢獻。LLM可以從這些討論中學習不同主題和領域的知識,並了解各種觀點和辯論方式。

於是,你的每一次分享,每一篇文章,以及每一條留言,都是LLM學習和進步的磚石。至於使用LLM開發AI的公司不只OpenAI一家,但為什麼OpenA開發的ChatGPT卻能勝出?因為他們擁有他人夢寐以求的祕密武器。

LLM-Facebook-Twitter-社群媒體-AI-生成式AI-OpenAI-ChatGPT-人工智慧社群上,使用者的公開貼文、留言,是大型語言模型(LLM)的訓練素材。圖片來源:Shutterstock

讓ChatGPT脫穎而出的祕密武器

在開發人工智慧的領域裡,使用深度學習的公司很多;而使用大型語言模型(LLM)來開發AI的公司也不只OpenAI一家。ChatGPT的脫穎而出,還因為運用了另外兩種特別的學習機制和架構,而得以實現更高效的平行訓練:一個是基於自注意力的Transformer架構;另一個則是被稱為Masked Self-Attention的技術。除此之外,GPT的優勢有:

  1. 數據集規模:GPT模型的運作,依賴於龐大且多元化的數據集,這是它超越其他模型的關鍵要素之一。GPT系列模型所取得的訓練數據,源於各式網路來源,如維基百科、各類書籍、網路頁面等,包含了各領域的豐富知識。同時,OpenAI對於資料進行嚴謹的清理與篩選,確保模型在訓練過程中能夠吸收高品質的知識,所以可以提升生成內容的精確度與信賴度。
  2. 跨語言能力:GPT模型在多語言處理方面具有很強的能力,能夠理解和生成不同語言的文本,滿足全球範圍用戶的需求。相比其他模型,GPT在跨語言任務上表現更為出色,如翻譯、跨語言摘要等。
  3. 靈活的微調:GPT於微調策略上的卓越表現,正是超越其他語言模型的核心因素。在預訓練的基礎上,進行具有針對性的精細校準,讓GPT能迅速適應各式NLP任務,例如文本分類、情感分析等。
  4. 知名投資者的支持:OpenAI得到眾多知名投資者的支持,如前期的馬斯克(Elon Musk)及後期大舉投注的比爾・蓋茲(Bill Gates),這些投資者的背景和聲譽,為GPT帶來背書與額外的品牌價值。此外,這些投資者的資源和網絡,也為GPT的市場行銷與形象推廣提供有力的支持。
  5. 迅速聚集大量用戶:GPT模型在短時間內吸引大量用戶,迅速擴大了市場規模。這得益於其出色的自然語言生成能力,使得GPT在各種場景下的應用更為廣泛,在極短時間內達到一億用戶的門檻。

綜上所述,OpenAI的GPT系列模型在數據集、模型構建、用戶互動以及其他關鍵優勢方面均表現出色,超越了Google、Meta等公司的大型模型。

這些優勢,使GPT其他的生成式人工智慧模型,同時包含文字、圖像、音樂、影像的處理,在許多應用場景中展現出驚人的性能。不過,這場新AI戰爭才剛剛開始,勝負仍然在未定之天。

關於ChatGPT與LLM,你可能還想知道:

新AI與新人類:學習、認知與生命的進化新路程

作者:蘇經天 出版社:大塊文化 出版日期:2023/9/1

新AI與新人類:學習、認知與生命的進化新路程

其他人也在看

你可能有興趣

影音推薦

#廣編企劃|【2023 天下城市高峰論壇 #9】新竹市交通處長 倪茂榮:改善交通,必須先做出優良示範道路|天下雜誌✕未來城市

已成功複製連結