我們的所見與所愛—人類眼中的AI

AI專家李飛飛來台演講全記錄（上）：使AI見人所見——受人類視覺啟發的電腦視覺

國際AI專家李飛飛（左三）出席國科會舉行的AI論壇，分享人工智慧視覺的發展進程。圖片來源：國家科學及技術委員會

2023-03-25

紀錄、整理・陳芳毓

31303

三月23日，國際AI專家、前Google首席科學家李飛飛出席國家科學及技術委員會舉辦的「AI進行式—技術展望與產業應用論壇」。她投入電腦視覺研究20多年來，歷經哪些過程？對於AI的創新及突破，她有哪些觀察？以下是李飛飛的演講摘要。

本文摘要

本文探討了生命起源的歷史，從五億4,000萬年前的地球到人類的智慧發展。其中，寒武紀大爆發被認為是因為動物視覺能力的進化而引發的，並且推動了動物神經系統的發展以及智慧的形成。

近70年來，電腦視覺和人工智慧領域有了相當的進步，而人類的視覺系統成為電腦視覺的最大靈感來源之一。李飛飛說明如何將機器智慧化，使其能夠看到和理解人類所見的事物。

物體識別是視覺智能的基礎模組，對電腦科學家而言是一個重要的研究議題。過去的解決方案包括手動設計特徵和模型，但並不實用。近年來，機器學習成為解決物體識別難題的有效方法，但參數學習中仍面臨過度擬合的問題。為此，研究人員借鑑了人類學習的方式，以ImageNet為基礎，編制含有2.2萬個類別的1,500萬張圖片的數據集，透過數據驅動的方式，提高機器學習的泛化能力。

ImageNet是一個廣泛使用的數據集，透過亞馬遜的群眾外包平台－土耳其機器人，完成大量的數據收集和編輯。卷積神經網絡是在電腦視覺領域中具主導地位的神經網絡家族，過去十年間從最初的卷積神經網絡到轉換器模型不斷更新發展。

深度學習時代的元年，在2012年隨著ImageNet挑戰賽的勝利而來。電腦視覺演算法的表現已經超越了人類，讓深度學習在物體識別和電腦視覺等領域中獲得顯著突破，從卷積神經網絡AlexNet到後來的ResNet都不斷地層出不窮。許多大型科技公司和新創公司使用深度學習演算法開發了許多不同的產品和服務，這個趨勢並沒有放緩。

電腦視覺近30年來在物體識別、關係識別、故事講述等方面取得了重大進展。通過使用場景圖編碼來理解視覺關係，更好地識別不尋常的關係。此外，多行動者活動理解等演算法讓電腦能學習識別物體及其動態關係。

此進展係由數據、計算和算法如神經網路所促成，引領了人工智慧的深度學習革命。人工智慧發展的關鍵與目標，都受到了人類認知科學和神經科學的啟發。（ChatGPT整理）

現在，我們要一起回到超過五億4,000萬年前的歷史。那時的地球是什麼樣貌呢？主要由污泥構成，海洋裡還有原始湯（primordial soup），生命剛開始萌芽，形態也非常簡單。

但一些奇妙的事情接續發生了。

五億四千萬年到五億三千萬年之間，從地質的角度來看，只有短短一千萬年。但在這麼短暫的時間裡，動物物種數量快速增加。如果觀察化石研究，很難解釋為什麼在這麼短的時間內進化出這麼多不同的動物。動物學家稱之為「寒武紀大爆炸」。

寒武紀大爆發的關鍵：視覺進化

為什麼會發生這種現象呢？

寒武紀大爆發的主要理論之一，是由動物學家安德魯・帕克（Andrew Parker）所提出。他認為，大爆發是由於視覺能力的突然進化而引發。視覺讓動物能看到光及自己以外的世界，進而引發一場進化競賽，動物要麼進化，要麼滅亡。

自此，動物開始不斷進化，而進化過程中最重要的進展之一，就是神經系統的發展以及智慧的形成。在人類這個物種出現時，已發展出驚人的智慧水準。人類靠視覺遊走世界、操作和改變事物、社交、娛樂自己，甚至溝通，視覺對於人類智力發展扮演著非常重要的角色。

因此，作為一位電腦科學家，我們也從人類智慧中得到啟發，開始將機器智慧化。

電腦視覺的歷史，有一個有趣的開始。

這是一個真實的城市傳說。大約70年前、1966年夏天，麻省理工學院一位教授決定開始進行一個暑期的視覺專案，好善用實習生。當時的假設是，只需一個夏季，機器視覺問題就能被解決。

70年後回顧此事，我們可能覺得滑稽。隨著時間推移我們發現，機器視覺的問題顯然遠比當時想像的複雜許多。

時至今日，電腦視覺和人工智慧領域都有相當大的進步，視覺也已成爲頂尖科技中不可或缺的一環，例如無人車、影像分類以及DALLE.2和OpenAI最近發展的多模態GPT-4模型等應用。

相較於演化的五億4,000萬年，人工智慧的發展不過70年，且仍在不斷發展過程中。

我的演講將從人工智慧視覺的發展談起，分成三部分。

電腦視覺的靈感，來自人類視覺

我的工作是建立人工智慧研究，讓機器能看到和理解人類所見的事物。這是電腦視覺的起點。即如何讓機器「看見」？人類的視覺系統成為我們最大的靈感來源。

認知科學家和神經科學家告訴我們，人類的視覺擅長快速檢測物體，我們還有專門用於物體識別的大腦區域，甚至有專門的大腦區域辨別不同的人體部位。這些都告訴我們，人類視覺智力的強大令人難以置信。

其中，有一個功能對人類智慧至關重要，那就是識別物體的能力。

物體識別是視覺智能的基礎建設模組。對電腦科學家而言，這是長久以來非常重要的議題，是一個值得追求的「北極星」，尤其是本世紀之交。

或許你會說「我睜開眼睛就能看到物體」，是的，對我們而言是容易的，因為數百萬年來演化已優化了這個功能。但對於電腦接收彩色和亮度像素來說，卻非常困難。電腦須克服光線和紋理變化、雜亂背景、遮蔽及攝影角度。即使是識別單一物體，在數學上也是非常複雜的問題。

歷史上，有許多人勇敢嘗試來解決物體識別的問題，我將它分為三種。

最早的一種，我稱之為手動設計的特徵和模型。計算機科學家選擇了一些特徵，比如幾何形狀，設計模型參數來識別物體。這是70年代到90年代的研究，但它沒有起到實質作用。

到了世紀之交，電腦視覺和人工智慧領域發生了一個關鍵時刻——這個工具稱為機器學習，是結合統計學與電腦編程的工具，就像人工智慧中的通用語，是一種非常強大的電腦程式訓練方式。如果我們做得很好，有一天說不定它就能擴展到很大的規模。

對於人視覺來說，什麼樣的規模才夠大呢？

我完成加州理工學院博士學位、成為助理教授時，研究心理學家們在7、80年代的文獻，發現了一個令人難以置信的數字——南加州大學Ernie Biederman教授估計，到了六歲為止，人類能辨別超過三萬個視覺分類，相當於每天學習十幾個類別。

這個數字使我很沮喪。我和學生、同事們的研究只有四個、六個類別，即使每個類別都有幾百張照片，能用電腦視覺算法訓練的照片數量仍然很少。

機器學習的頓悟時刻

我想了想，又跟學生討論，促成了我們的「頓悟」時刻——我們花了大量時間思考算法、調整參數，卻忽略了學習演算法的趨力。

對於AI領域的人來說，關鍵詞是「泛化」（generalizaion）。如何克服參數學習中的過度擬合（overfitting，模型訓練過度導致無法分辨訓練資料以外的資料）？我們決定採取全新的數據驅動方法——ImageNet。

我們花了大約三年，編制了一個包含2.2萬個類別的1,500萬張圖片數據集。這是從網上十億個圖像中整理出來的乾淨數據。

這裡有一個小故事，你們可能是第一個聽到的觀眾。

組裝ImageNet的過程中，我們非常絕望，因為不知道該怎麼構建如此大的數據集。有個台灣學生說，亞馬遜有個叫「土耳其機器人」（Amazon Mechanical Turk）的群眾外包平台，感謝他展示了這個新平台，才能實現ImageNet的收集和編輯。

簡而言之，ImageNet不僅僅是一個數據集，它還是一個關於「如何看待機器學習」的典範轉移。事實證明，有一支演算法特別適合擷取巨量數據、且能更好地泛化——這就是神經網絡系列。

尤其，卷積神經網絡（Convolutional Neural Networks，CNN）是在電腦視覺領域中具主導地位的神經網絡家族，過去十年間從最初的卷積神經網絡到轉換器模型不斷更新發展。

對不在人工智慧領域的人來說，可能很難理解神經網絡的運行原理，但你可以將把它想像成類似腦部的演算法——基本單元是類似於神經元的單元，從其他類似於神經元的單元中接收輸入，通過不同的數學函數將它們疊起來串在一起，然後輸出。

早期的神經網絡就已經有1.4億個參數，而今天已經是近兆參數。

卷積神經網絡學習物體類別的方式前所未有，例如能識別貓或泰迪熊或男孩和女孩或狗等類型的物體。為了更善用卷積神經網絡，我們的實驗室整理了ImageNet，並且開放清單，供整個研究社群免費使用，並且每年舉辦ImageNet挑戰賽。

這個演算法的表現令人難以置信，大幅減少了誤差率。2012年ImageNet挑戰賽的勝利被視爲「深度學習時代」元年。自此以往，深度學習在物體識別和電腦視覺等領域中獲得顯著突破，從卷積神經網絡AlexNet到後來著名的ResNet，各種大型、有趣的模型層出不窮。

到了2016年左右，電腦視覺演算法的表現已經超越了人類。ImageNet是AI巨大進步的貢獻者，電腦視覺的論文也受到高度引用。深度學習革命帶來的不只是學術進步，而且已開始向工業和市場蔓延。

2012年以來，許多大型科技公司和新創公司使用深度學習演算法開發了許多不同的產品和服務，這個趨勢並沒有放緩。作為研究人員，尋找下一個四星級專案已成爲當務之急。雖然物體識別是重要的基礎，但我們已做出了貢獻，許多企業正接手並將其產品化。（延伸閱讀｜罹癌換跑道　學者獲「AI界諾貝爾獎」：若有AI診斷，我的乳癌就能早兩年發現）