匿名資料一點都不安全！人工智慧加計程車路線，就知道誰愛上夜店｜城市圖書館

免費Wi-Fi雖然方便，卻會讓你的生活軌跡無所遁形。圖片來源：Shutterstock

2020-09-14

文．班．格林（摘自《被科技綁架的智慧城市》）

23640

人人都有高速網路可用已經成為民主社會的必備條件，如果沒有網路，就算不是不可能也難以應徵工作、獲得醫療服務以及與其他人互動。

然而，許多低收入的個人和家庭無法負擔穩定的寬頻網路服務。以美國底特律為例，有4成的居民沒有寬頻網路可用；紐約市則是有2成3的居民面臨相同問題。

紐約免費Wi-Fi不花納稅錢，還倒賺5億？

2016年，紐約市看似找到解決這種數位落差的方法，而且適用於所有城市：LinkNYC，這項計畫透過設置超過7,500個網路連線的服務亭在全市各處，為市民提供免費的Wi-Fi。

LinkNYC提供紐約市民免費Wi-Fi，其中卻有侵犯隱私的爭議。圖片來源：截自LinkNYC官網

紐約市長比爾．白思豪（Bill de Blasio）在啟用這項計畫時表示：「LinkNYC讓我們往目標又邁進了幾步，也就是建立公平的起跑點，以及為紐約市民提供21世紀最重要的工具。」

其中最令人訝異的，莫過於提供這項服務不會花費市政府任何一毛錢；事實上，紐約市預估這項計畫將可以為全市帶來超過5億美元的收入。

就像眾多的智慧城市技術一樣，這似乎是可以解決重大社會問題的慈善的科技方案；但在表象之下，在LinkNYC的架構之中潛伏著更危險的現實。

目前紐約市已設有1,778個可使用的LinkNYC Wi-Fi服務亭。圖片來源：截自LinkNYC官網

LinkNYC帶來的益處和資金聽起來美好到不真實，那麼這項計畫的資金到底從何而來？

服務亭的所有者和營運者是Sidewalk Labs，也就是Alphabet（Google的母公司）的子公司之一，其規劃透過蒐集每一位服務使用者的資料來賺取收益。Sidewalk創辦人及執行長丹．多克托爾洛夫（Dan Doctoroff）在2016年向大眾宣告，公司預期會「因為這項服務大賺一筆」。

LinkNYC服務亭配備了可以蒐集大量資料的感測器，包括所有連接到Wi-Fi網路的裝置資料：不只是所在地點和作業系統，還有裝置的MAC位址（裝置的唯一識別碼，用於輔助裝置連接至網路）。

Sidewalk Labs宣稱這類資料純粹是「技術資訊」，而不是其蒐集的「個人可識別資訊」，如使用者姓名和電子郵件（使用者需要輸入這些資料才能註冊以使用網路）。

上述的分類方法符合傳統的隱私權標準，判斷的關鍵在於是否有個人可識別資訊（personally identifiable information，簡稱「PII」），例如姓名、地址和社會安全號碼等，本身可以用於辨識個人的特徵。包含PII的資料會被視為敏感資訊，但不含PII的資料則不會。（延伸閱讀｜Zoom資安政治學（中）｜獨裁政府對單一個資沒興趣？對AI下令，你就可能被撈到！）

連接陌生公共Wi-Fi時電腦會跳出警示訊息。

4份資料，就能辨識出9成民眾的個資

在人類眼中，這顯然是合理的區分方式，畢竟MAC位址是12字元長的英數字串，看起來就如同無法解讀，只能由機器處理的冗長文字。

裝置的MAC地址為12字元長的英數字串。圖片來源：https://bit.ly/2GzsNKH

話雖如此，即便資料不包含姓名又難以理解，也不代表其中不含個人資訊。確實，一個單一的資料點——電話在特定時間和特定地點的MAC位址——不太可能會洩漏個人的身分，或是任何關於這個人的敏感資訊。

但是當數百萬個資料點在蒐集後與現代的分析技術結合，這類資料就可以用於追蹤人的移動模式，並推論出其生活的種種細節。

這種資料累積後會變得相當敏感，儘管每筆紀錄單獨看來都很無害，因為人類的行為就是如此出奇地獨特，而大規模蒐集資料可以擷取出這些獨特之處。

電腦科學家伊維斯－亞歷山大．德蒙鳩斯伊（Yves- Alexandre de Montjoye）主導的研究分析了2個資料集，包含超過100萬人的手機地點追蹤和信用卡交易資訊，最後證實上述的現象確實存在。

即使這2個資料集之中都沒有PII，只包含匿名的個人ID（和MAC位址原理相同）、地點和時間，德蒙鳩斯伊明確指出還是可能透過資料辨識出個人，進而瞭解這些人的行為。

值得注意的是，只要取得4個某人曾經所在時間地點的資料點，就能分別辨識出超過9成的人。

此外，德蒙鳩斯伊的分析確實解釋了細碎行為資料對隱私權造成的風險，但過去就已經有例證顯示，理應是匿名資料有可能會洩漏大量的個人資訊。（延伸閱讀｜數位身分證很安全？愛沙尼亞曾遭駭，德國反個資存手機）

單一資料很無害？大量累積就能成為再識別資訊

事件發生在1997年，麻州州長威廉．韋爾德（William Weld）釋出州政府員工的醫療紀錄做為研究用途，並保證這些資訊是匿名狀態；然而數天後，韋爾德收到一封信件，內容是他本人的醫療紀錄，完全是從釋出的資料中篩選整理而成。

這封信來自當時還是麻省理工學院研究生的坦婭．斯威尼（Latanya Sweeney），她透過比對匿名醫療紀錄和公開的選民名單，並且整理出同時存在於兩個資料集中的資訊（例如出生日期），最後辨識出韋爾德的個人檔案。

許多其他類型的資料集也具有類似的「再識別」（reidentification）風險，例如在2013年，紐約市政府公布了本應是匿名的當地計程車行程資料，結果一位資料科學家分析了這些行程的乘車起點和終點，並從模式中辨識出曼哈頓脫衣舞俱樂部的常客姓名。

用同樣的方式也可以得知誰去清真寺祈禱、加班到深夜、造訪同志酒吧，或是接受化療。另一位資料科學家則是運用倫敦自行車共享程式的類似行程資料，彙整出多名個人的移動模式，進而推理出這些人的居住和工作地點。（延伸閱讀｜為何Uber能用數據分析客戶的一夜情？）

紐約市政府提供歷年來計程車的行程統計資料。圖片來源：截自New York City Taxi and Limousine Commission官網

然而，危險的不只是看似匿名的資料可能會洩漏個人的身分和行為，當資料和人工智慧結合，更有可能推論出大量隱藏在資料集中的個人資訊。

舉例來說，只要有你去過哪裡的詳細資訊，機器學習演算法就可能預測出你認識的對象以及下一個造訪地點。演算法可以根據個人在Instagram發布相片的頻率，偵測出個人是否憂鬱，而看似是規律行為的資料如Facebook按讚數，也可能透漏出個人的性向認同、種族、政治立場，甚至是雙親的婚姻狀態。（延伸閱讀｜為何不該在臉書上按讚？哈佛教授：按了之後，你只會看見這3種文章⋯⋯）

演算法具備的能力足以利用理應是匿名且無害的資料，辨識和得知關於個人的資訊，這突顯出LinkNYC其實明顯侵犯了大眾的隱私權，也揭開讓這項服務成真的關鍵性手法：Sidewalk Labs所謂的「技術資訊」表面上看來是匿名資料，事實上卻比公司大方承諾要保護的「個人可識別資訊」更加敏感。