匿名資料一點都不安全!人工智慧加計程車路線,就知道誰愛上夜店|城市圖書館

匿名資料一點都不安全!人工智慧加計程車路線,就知道誰愛上夜店|城市圖書館
免費Wi-Fi雖然方便,卻會讓你的生活軌跡無所遁形。圖片來源:Shutterstock
2020-09-14
文.班.格林(摘自《被科技綁架的智慧城市》)
15637
人人都有高速網路可用已經成為民主社會的必備條件,如果沒有網路,就算不是不可能也難以應徵工作、獲得醫療服務以及與其他人互動。

然而,許多低收入的個人和家庭無法負擔穩定的寬頻網路服務。以美國底特律為例,有4成的居民沒有寬頻網路可用;紐約市則是有2成3的居民面臨相同問題。

紐約免費Wi-Fi不花納稅錢,還倒賺5億?

2016年,紐約市看似找到解決這種數位落差的方法,而且適用於所有城市:LinkNYC,這項計畫透過設置超過7,500個網路連線的服務亭在全市各處,為市民提供免費的Wi-Fi。

LinkNYC提供紐約市民免費Wi-Fi,其中卻有侵犯隱私的爭議。LinkNYC提供紐約市民免費Wi-Fi,其中卻有侵犯隱私的爭議。圖片來源:截自LinkNYC官網

紐約市長比爾.白思豪(Bill de Blasio)在啟用這項計畫時表示:「LinkNYC讓我們往目標又邁進了幾步,也就是建立公平的起跑點,以及為紐約市民提供21世紀最重要的工具。」

其中最令人訝異的,莫過於提供這項服務不會花費市政府任何一毛錢;事實上,紐約市預估這項計畫將可以為全市帶來超過5億美元的收入。

就像眾多的智慧城市技術一樣,這似乎是可以解決重大社會問題的慈善的科技方案;但在表象之下,在LinkNYC的架構之中潛伏著更危險的現實。

目前紐約市已設有1,778個可使用的LinkNYC Wi-Fi服務亭。目前紐約市已設有1,778個可使用的LinkNYC Wi-Fi服務亭。圖片來源:截自LinkNYC官網

LinkNYC帶來的益處和資金聽起來美好到不真實,那麼這項計畫的資金到底從何而來?

服務亭的所有者和營運者是Sidewalk Labs,也就是Alphabet(Google的母公司)的子公司之一,其規劃透過蒐集每一位服務使用者的資料來賺取收益。Sidewalk創辦人及執行長丹.多克托爾洛夫(Dan Doctoroff)在2016年向大眾宣告,公司預期會「因為這項服務大賺一筆」。

LinkNYC服務亭配備了可以蒐集大量資料的感測器,包括所有連接到Wi-Fi網路的裝置資料:不只是所在地點和作業系統,還有裝置的MAC位址(裝置的唯一識別碼,用於輔助裝置連接至網路)。

Sidewalk Labs宣稱這類資料純粹是「技術資訊」,而不是其蒐集的「個人可識別資訊」,如使用者姓名和電子郵件(使用者需要輸入這些資料才能註冊以使用網路)。

上述的分類方法符合傳統的隱私權標準,判斷的關鍵在於是否有個人可識別資訊(personally identifiable information,簡稱「PII」),例如姓名、地址和社會安全號碼等,本身可以用於辨識個人的特徵。包含PII的資料會被視為敏感資訊,但不含PII的資料則不會。(延伸閱讀|Zoom資安政治學(中)|獨裁政府對單一個資沒興趣?對AI下令,你就可能被撈到!

連接陌生公共Wi-Fi時電腦會跳出警示訊息。連接陌生公共Wi-Fi時電腦會跳出警示訊息。

4份資料,就能辨識出9成民眾的個資

在人類眼中,這顯然是合理的區分方式,畢竟MAC位址是12字元長的英數字串,看起來就如同無法解讀,只能由機器處理的冗長文字。

裝置的MAC地址為12字元長的英數字串。裝置的MAC地址為12字元長的英數字串。圖片來源:https://bit.ly/2GzsNKH

話雖如此,即便資料不包含姓名又難以理解,也不代表其中不含個人資訊。確實,一個單一的資料點——電話在特定時間和特定地點的MAC位址——不太可能會洩漏個人的身分,或是任何關於這個人的敏感資訊。

但是當數百萬個資料點在蒐集後與現代的分析技術結合,這類資料就可以用於追蹤人的移動模式,並推論出其生活的種種細節。

這種資料累積後會變得相當敏感,儘管每筆紀錄單獨看來都很無害,因為人類的行為就是如此出奇地獨特,而大規模蒐集資料可以擷取出這些獨特之處。

電腦科學家伊維斯-亞歷山大.德蒙鳩斯伊(Yves- Alexandre de Montjoye)主導的研究分析了2個資料集,包含超過100萬人的手機地點追蹤和信用卡交易資訊,最後證實上述的現象確實存在。

即使這2個資料集之中都沒有PII,只包含匿名的個人ID(和MAC位址原理相同)、地點和時間,德蒙鳩斯伊明確指出還是可能透過資料辨識出個人,進而瞭解這些人的行為。

值得注意的是,只要取得4個某人曾經所在時間地點的資料點,就能分別辨識出超過9成的人。

此外,德蒙鳩斯伊的分析確實解釋了細碎行為資料對隱私權造成的風險,但過去就已經有例證顯示,理應是匿名資料有可能會洩漏大量的個人資訊。(延伸閱讀|數位身分證很安全?愛沙尼亞曾遭駭,德國反個資存手機

單一資料很無害?大量累積就能成為再識別資訊

事件發生在1997年,麻州州長威廉.韋爾德(William Weld)釋出州政府員工的醫療紀錄做為研究用途,並保證這些資訊是匿名狀態;然而數天後,韋爾德收到一封信件,內容是他本人的醫療紀錄,完全是從釋出的資料中篩選整理而成。

這封信來自當時還是麻省理工學院研究生的坦婭.斯威尼(Latanya Sweeney),她透過比對匿名醫療紀錄和公開的選民名單,並且整理出同時存在於兩個資料集中的資訊(例如出生日期),最後辨識出韋爾德的個人檔案。

許多其他類型的資料集也具有類似的「再識別」(reidentification)風險,例如在2013年,紐約市政府公布了本應是匿名的當地計程車行程資料,結果一位資料科學家分析了這些行程的乘車起點和終點,並從模式中辨識出曼哈頓脫衣舞俱樂部的常客姓名。

用同樣的方式也可以得知誰去清真寺祈禱、加班到深夜、造訪同志酒吧,或是接受化療。另一位資料科學家則是運用倫敦自行車共享程式的類似行程資料,彙整出多名個人的移動模式,進而推理出這些人的居住和工作地點。(延伸閱讀|為何Uber能用數據分析客戶的一夜情?

紐約市政府提供歷年來計程車的行程統計資料。紐約市政府提供歷年來計程車的行程統計資料。圖片來源:截自New York City Taxi and Limousine Commission官網

然而,危險的不只是看似匿名的資料可能會洩漏個人的身分和行為,當資料和人工智慧結合,更有可能推論出大量隱藏在資料集中的個人資訊。

舉例來說,只要有你去過哪裡的詳細資訊,機器學習演算法就可能預測出你認識的對象以及下一個造訪地點。演算法可以根據個人在Instagram發布相片的頻率,偵測出個人是否憂鬱,而看似是規律行為的資料如Facebook按讚數,也可能透漏出個人的性向認同、種族、政治立場,甚至是雙親的婚姻狀態。(延伸閱讀|為何不該在臉書上按讚?哈佛教授:按了之後,你只會看見這3種文章⋯⋯

演算法具備的能力足以利用理應是匿名且無害的資料,辨識和得知關於個人的資訊,這突顯出LinkNYC其實明顯侵犯了大眾的隱私權,也揭開讓這項服務成真的關鍵性手法:Sidewalk Labs所謂的「技術資訊」表面上看來是匿名資料,事實上卻比公司大方承諾要保護的「個人可識別資訊」更加敏感。

換言之,根據一位隱私權律師的說法,LinkNYC隱私權政策的目的是「讓你相信公司有所承諾,但實際上是讓公司得以恣意妄為」。背後的目的當然是利潤:資料越是詳細,Sidewalk Labs越能從中獲利。

意識到這些隱私權風險之後,許多紐約市民開始對LinkNYC產生疑慮,紐約公民自由聯盟(New York Civil Liberties Union)執行長直言:「免費公共Wi-Fi可以說是這座城市的珍貴資源,但是如果牽涉到太多個人資訊,紐約市民有權知道。」


被科技綁架的智慧城市

書名:被科技綁架的智慧城市(The Smart Enough City: Putting Technology in Its Place to Reclaim Our Urban Future)
作者:班.格林(Ben Green)
譯者:廖亭雲
出版社:行人
出版日期:2020/08/27

其他人也在看

你可能有興趣

影音推薦

#廣編企劃|【2023 天下城市高峰論壇 #9】新竹市交通處長 倪茂榮:改善交通,必須先做出優良示範道路|天下雜誌✕未來城市

已成功複製連結