醫學院用AI面試,竟刷掉數百位優秀女性與少數族裔⋯⋯科技為什麼也會偏心?

醫學院用AI面試,竟刷掉數百位優秀女性與少數族裔⋯⋯科技為什麼也會偏心?
曾有醫學院使用演算法篩選面試學生,結果出現種族、性別歧視等不公平現象。圖片來源:Shutterstock
2020-09-15
文.班.格林(摘自《被科技綁架的智慧城市》)  圖・Shutterstock
19414
想想看Gmail是如何監控你收到的來信以偵測垃圾郵件?

每當你收到一封電子郵件,Gmail都會評估其中的內容來判定這封信是正常郵件或垃圾郵件。

雖然工程師可以預先設定規則來歸納垃圾郵件特性,例如內容含有「限時優惠」這類用詞,及2個以上的拼字錯誤等條件。

不過,機器學習演算法卻可經由分析過去的信件,來偵測到更細微、複雜且可用於分辨垃圾郵件的模式。

機器如何學習?

「機器學習」是一種預測性分析技術,其強大之處在於可以探勘大量資料集,並檢驗複雜趨勢,進而辨識出調查人員難以發覺的模式。

隨著資料量急速增加,能運用這些資料做出明智決策的能力,也變得愈加珍貴。

一般機器學習演算法仰賴「訓練資料」,也就是由過去範例所組成且經過分門別類的資料。

以垃圾郵件篩選工具為例,訓練資料會是由電子郵件所組成的資料庫,資料會透過人工分別標示為「垃圾郵件」或「非垃圾郵件」。接下來,Gmail的工程師會定義每封郵件的屬性,也就是所謂的「特徵」(features),讓演算法做為判斷信件是否為垃圾郵件的依據。

收到新郵件時,Gmail會套用先前學習的規律判斷是否為垃圾郵件。收到新郵件時,Gmail會套用先前學習的規律判斷是否為垃圾郵件。

在這個例子中,相關特徵可能是電子郵件的用詞、電子郵件的發送位址(例如寄件人是否在收件人的聯絡人清單中?)以及使用的標點符號類型。

之後,Gmail便會利用機器學習演算法來歸納特徵和標籤間的關係,透過「擬合」(fitting)這種數學最佳化的過程,演算法可以判定各個特徵和垃圾郵件訊息的相關性有多高。

最後,演算法會產出一套公式,也就是所謂的「模型」,具備分類新範例的功能,每當你收到電子郵件,Gmail就會套用先前學習的規律。

模型評估郵件時,就是在判定內容比較接近訓練資料中的垃圾郵件或非垃圾郵件,進而衡量郵件是正常內容的可能性有多高。

當然,垃圾郵件篩選工具只是機器學習應用的冰山一角。能夠駕駛汽車、打敗西洋棋和撲克牌比賽世界冠軍,以及識別人臉的軟體背後,全都是機器學習演算法。(延伸閱讀|紅白歌合戰AI復活過世30年「歌謠女王」美空雲雀 有人嚇傻有人哭

為什麼機器學習無法擁有預測未來的能力?

機器學習能從複雜模式中找出意義,並且預測難以掌握的事件,而這一點導致許多人認為,幾乎所有問題都可以仰賴資料和演算法解決。

基於這種思維,創業家及《Wired》雜誌編輯克里斯.安德森(Chris Anderson)在2008年宣稱,大數據象徵「理論的終結」。如果有足夠資料能預測將來,誰還需要費心去理解各種現象?

儘管演算法看似和世界相關的理論或假設無關,事實上演算法向來都是反映出創建者信念、優先目標和設計偏好,就連垃圾郵件篩選工具也不例外。

演算法以工程師定義的郵件屬性與特徵做為根據。演算法以工程師定義的郵件屬性與特徵做為根據。

形塑過程從Gmail工程師挑選演算法的訓練資料時就已開始,為了確保演算法學會規則,且要精準套用至每種可能出現的郵件內容,訓練資料中的郵件範例必須要精準標示,並能夠等比例代表篩選工具將來會評估到的郵件。

如果在訓練資料中垃圾郵件的數量過多,篩選工具將會高估郵件是垃圾郵件的可能性。此外,挑選特徵時也需要一點直覺,也就是郵件中哪些屬性比較適合辨別垃圾郵件。

如果Gmail工程師只知道一種可辨識指標,但忽視另一種,他們打造的功能就只能偵測到他們看過的類型。最後,Gmail必須決定,這款經過最佳化的垃圾郵件篩選工具要達成什麼目標,是要抓出每封垃圾郵件,還是優先阻擋部分類型的垃圾郵件?

在這樣的計算過程中,Gmail必須考量偽陽性(把正常電子郵件標示為垃圾郵件)和偽陰性(讓垃圾郵件出現在收件匣)之間的得失。

如果過度注重避免偽陽性,Gmail收件匣就會塞滿垃圾郵件;而相對的,如果過度注重避免偽陰性,Gmail則可能會誤把重要訊息過濾掉。

這項決定是模型能否成功的關鍵:2018年3月發生在亞利桑那的車禍中,Uber自駕車撞上一位女性並導致其身亡,就是因為自駕車的軟體被調整成過度忽視偽陽性(以避免自駕車對塑膠袋這類障礙物過度反應)。(延伸閱讀|Uber是豬隊友,自駕車的安全風險誰來顧?

Uber自駕車因為模型預測失敗,曾發生車禍意外。Uber自駕車因為模型預測失敗,曾發生車禍意外。

儘管多數人都在談論機器學習有預測未來的能力,但這種技術預測的其實是過去。當考量不夠周全,就等於是冒險放任演算法做出不公平的決定。

Gmail之所以可以有效偵測到垃圾郵件,是因為演算法知道以前的垃圾郵件是什麼樣貌(而這就是訓練資料的價值所在),並推斷目前的垃圾郵件也是相同的樣貌。機器學習模型內建的核心假設,就是在過去與特定結果相關的特性,將會在未來導致相同的結果。(延伸閱讀|蘋果創辦人:AppleCard演算法性別歧視 妻子信用額度僅我的1/10

有偏見的過去如何影響未來?

資料反映出的是其產生當時的社會情境,因此一段充滿系統性歧視的國家歷史,就會產出反映這些偏見的資料:

當雇主偏好白人應徵者,而非能力相當的非裔美國人應徵者;或偏好男性而非能力相當的女性,最終累積而成的資料會呈現出社會表象—讓人錯誤推測白人或男性就是比較有能力、有學識而且有前途。

換句話說,仰賴源自不公正社會的資料而沒有批判性思考,會導致在判斷某個族群與生俱來的特質時,誤把歧視的產物視為中立事實。

就篩選垃圾郵件而言,這可能不成問題,但當演算法必須做出更重大決定,訓練資料包含偏見可能會造成嚴重的後果。

機器學習雖能檢驗複雜趨勢,但也會因資料的人為因素而產生偏誤。機器學習雖能檢驗複雜趨勢,但也會因資料的人為因素而產生偏誤。

1970年代,位於倫敦的聖喬治醫學院(St. George’s Hospital Medical School)開發出篩選申請者的電腦程式。由於大約會有2,000名申請者爭取稀少的150個名額,如果程式能夠簡化過程,顯然極具吸引力。

於是在幾乎整個1980年代,都由這套程式執行學校的初步審查,並篩選出值得聖喬治醫學院面試的申請學生。

然而在1988年,英國種族平等委員會(U.K. Commission for Racial Equality)針對這套演算法進行調查,發現演算法並不公正:由於採用這套程式,聖喬治醫學院偏頗地拒絕了數百名學業成績足以進入面試階段的女性和少數族群。(延伸閱讀|重量級人工智慧專家李飛飛:我希望AI保持謙卑,因為它不是萬能

受過去資料影響,女性及少數族群在篩選面試者的演算法中顯得較為弱勢。受過去資料影響,女性及少數族群在篩選面試者的演算法中顯得較為弱勢。

演算法並不是自動學會這種偏見。

綜觀聖喬治醫學院的歷史,入學委員會長期以來都是基於種族和性別歧視做出錄取決定。當演算法參考的是由過去的訓練資料,就會推論出該校認為女性和少數族裔比較不如人。

換言之,演算法沒有學會辨識出學業表現最符合資格的學生,而是學會辨識出最類似過去學校錄取對象的申請者。

事實上,這套演算法和院內遴選委員會之間的相關性高達90%,這也是為何當初聖喬治醫學院認為這套遴選演算法會很有用。

時至今日,還是有許多人犯下相同錯誤,仰賴機器學習來做出重大決策,最後卻發現模型的預測帶有偏見。

例如在2014年,亞馬遜公司開始研發機器學習演算法來輔助決定僱用哪些應徵者,而不過一年後,亞馬遜就決定放棄這項計畫,因為公司發現這套模型不合理地對男性應徵者比較有利。


被科技綁架的智慧城市

書名:被科技綁架的智慧城市(The Smart Enough City: Putting Technology in Its Place to Reclaim Our Urban Future)
作者:班.格林(Ben Green)
譯者:廖亭雲
出版社:行人
出版日期:2020/08/27

其他人也在看

你可能有興趣

影音推薦

#廣編企劃|【2023 天下城市高峰論壇 #9】新竹市交通處長 倪茂榮:改善交通,必須先做出優良示範道路|天下雜誌✕未來城市

已成功複製連結