差異隱私是一個定義,用於描述分析數據集和推斷匯總結果的各種方法和技術,而不直接影響原始數據集中包含的任何特定個人的隱私。
該技術通常用於訓練算法並獲取有關大型數據集的統計信息,而不會直接影響數據主體。
這些技術之所以有趣,是因為它們是消費者的利益及其對隱私的渴望與組織的需求及其對數據的需求之間的折衷方案。
差異隱私如何發揮作用?
差異隱私是通過使用密碼學家最初設計的技術來實現的一種狀態,該技術用於使用算法分析統計數據集。
當數據處理器將數據稱為“差異隱私”時,他們指的是用於向數據集添加噪聲的各種技術,以便無法再查明數據主體的身份(最初用於獲取這些輸出)。
作為一種提供消費者隱私的方法,實現差異隱私的技術正變得越來越流行,同時仍然為組織獲取重要的聚合數據。
這些技術允許獲取有用的模式和分析。因此,最好將其理解為希望在其政策中保證個人隱私的公司用於分析大數據的一組技術,同時仍然能夠以聚合方式利用用戶數據。
例如,政府使用差別私有數據集來發布通過全國人口普查或其他調查收集的人口統計信息和匯總統計數據。這很有用,因為它允許在不影響參與調查的公民個人的機密性和隱私的情況下發布觀察結果。
如果從算法輸出中觀察到的數據不能歸因於任何個人,並且無法從輸出中判斷哪些個人的數據被用來得出統計結論,則數據被認為是差分隱私的。
為什麼差異隱私很重要?
在消費者隱私日益受到重視並受到政府立法的世界中,差異隱私提供了數據處理的框架,而不會造成不必要的隱私侵犯。
這不僅保護每個人的隱私,而且理論上還允許組織、企業和政府實體以符合隱私法規的方式處理數據。
重要的是要理解,當您的數據(通常)包含在數據庫中時,這通常會直接影響您的隱私。
當數據僅作為產生差分隱私輸出的算法的輸出進行分析時,您的個人身份信息永遠無法作為輸出直接訪問。這確保了統計處理的結果不能重新歸因於構成原始數據集的個人。
差分隱私系統可確保數據始終以無法判斷特定用戶的數據是否用於獲得最終輸出的方式構建。
這是一個重要的區別,因為研究證明,即使個人數據已通過剝離標識符進行“匿名化”,仍然存在重新識別該數據的流程。這就是為什麼匿名數據(僅適用於一個數據主體)比差分隱私輸出更具侵入性和問題性。
全局 VS 本地差異隱私
這兩個主要的差分隱私模型。每個因素都會影響數據的處理方式以及為數據主體提供的隱私級別。下面我們解釋了每個模型,並詳細說明了它們所具有的任何潛在缺點。
全球模式
在全局模型中,單個管理者(例如一家科技公司)可以控制用於創建安全聚合輸出的原始數據集。該管理者分析數據並在以差異隱私狀態發布數據之前添加噪音。
在這些情況下,數據管理者最初可以訪問個人輸入,因此,這些用戶的隱私受到數據處理器本身的影響。然而,已發布的報告具有明顯的私密性,看到這些已發布詳細信息的人無法從數據中挑選出任何個人。
只有當數據處理器具有強大的安全性以防止對其中央數據庫中的可識別數據進行所有不必要的訪問時,人們才能認為這種全局模型是差分隱私的。此外,有權訪問數據的數據處理者/管理者必須存在高度信任。
如果不能滿足這些條件,則無法令人滿意地實現差異隱私,因為:
- 該公司可能會選擇自行濫用您的數據,或者可能會因管理不善而意外洩露您的數據
- 黑客可以訪問破壞差異隱私的原始數據
本地模型
在差分隱私的本地模型中,每個人都會向自己的數據添加噪聲。這降低了數據處理器了解每個人的輸入內容的可能性。
該模型假設不可能信任任何數據處理者或管理者,因此有必要在讓他們分析數據之前向數據添加噪音。
在實踐中,這通常涉及算法請求或獲取數據,這些數據在發送回數據處理器之前會自動用噪聲進行混淆。
因此,在本地私有模型下,用戶永遠不會將其個人數據發送到存儲在中央數據庫中,從而消除了黑客攻擊和數據管理不善或濫用的可能性。
差異隱私 VS 數據匿名
數據匿名化是獲取個人數據並清除標識符的過程,以便無法立即清楚數據所指的是誰。例如,如果存在一個數據庫表明本尼週二觀看了侏羅紀公園,該數據可以通過將其更改為匿名:A週二,匿名“受試者 A”觀看了《侏羅紀公園》。
這似乎使數據安全,但實際上它仍然僅適用於一個數據主體,並且存在重新識別該數據的方法。例如,上週二觀看侏羅紀公園時碰巧撞見本尼的人可以推斷出本尼是數據主體。因此,這種對單個數據集進行匿名化的方法不能被認為是萬無一失的。
在現實世界中,研究表明,匿名數據集通常只需少量額外數據即可重新歸屬於其所有者。如果試圖重新識別數據主體的人可以輕鬆訪問這些附加數據,則可能會發生重新識別,從而在系統中為數據主體造成巨大的漏洞。
這就是為什麼差分隱私技術最終比去識別化或“匿名”數據集更安全的原因;它們不包含任何可能鏈接回任何單個數據主體的數據。
不存在真正匿名的個人數據集,因為僅適用於一個數據主體的數據可能總是可以使用其他數據集重新識別。
這就是為什麼差異隱私從根本上來說更加健全。當以負責任的方式實現時,它會產生一個消除重新識別可能性的結果 - 即使想要重新識別數據的人擁有除他們正在尋求信息的數據主體之外的每個數據主體的數據 - 這仍然是不可能的。
因此,差異隱私技術可以成功地允許數據處理器收集和處理信息,同時降低信息可能被用於損害個人隱私權的風險。
差分隱私安全嗎?
由於差異化隱私數據被處理為聚合輸出的方式,人們普遍認為這是一種在不影響人們隱私的情況下分析數據的安全方法。
與可能遭受重新識別攻擊的“匿名”數據集不同,差異私有數據不能,通常用於重新識別個體。
因此,差分隱私結果可以被認為是顯示最初從包含可識別數據的數據庫中收集的統計分析的好方法。
然而,為了向數據主體充分提供差異隱私的承諾,必須滿足一些考慮因素。除非這些考慮因素得到令人滿意的應用,否則被認為是差分隱私的數據可能並非如此。
例如,為較大的數據集實現差分隱私需要添加較低水平的噪聲才能實現隱私。相反,被分析的數據集越小,涉及的數據主體越少,為實現足夠的差異隱私而必須添加的噪聲量就越大。
因此,如果沒有向數據集中添加足夠的噪聲,識別的可能性就會增加(意味著實際上沒有實現差異隱私)。
我們應該接受差異隱私的使用嗎?
這是一個重要的問題,應該從兩個不同的方面來考慮:
首先,重要的是承認數據是一個強大且有用的工具。數據可以讓人們、組織、企業和政府了解當前正在發生的事情,從而使這些決策者能夠在未來做出更好的選擇。
這可以幫助開展非常重要的工作,例如提高效率、分配資源、減少不必要的浪費以及了解實施服務的後勤要求。
考慮到這一點,處理數據——同時也為個人提供個人數據隱私——可以被理解為非常理想。
因此,對於數據主體和尋求使用數據更好地告知其未來行動的決策者來說,使用差異隱私來分析數據通常應被視為積極的結果。
合理的保障措施
只要用於向數據集添加噪聲和實現差異隱私的技術在數學上是合理的,我們就可以認為該過程可以作為一種允許數據主體在高度隱私的情況下進行數據分析的方法。
也就是說,只有在負責任地實施和實現差異隱私時才必須接受它,這意味著立法者必須對差異隱私的應用提出要求以真正保護數據主體的方式。
潛在的限制
重要的是要承認實施差異隱私會產生某些限制。這是因為添加噪聲的過程會降低從數據獲取的準確度。根據數據處理器所需的數據類型,這可能不是可接受的折衷方案,從而導致差分隱私的本地模型不適合。
隱私和準確性之間的權衡是否可以接受,很大程度上取決於所涉及的數據和數據處理器的類型。以及訪問個人數據集是否具有合法的合法利益(也許通過採用全球差分隱私模型)。
這些問題對於理解差異隱私的使用至關重要,並且人們普遍認為,當聚合的非特定輸出足以滿足數據處理器的需求時,可以主要使用差異隱私。另一方面,如果差異隱私使數據變得如此不准確以至於變得無用,那麼差異隱私可能不被認為適合目的。
差異化隱私和 COVID-19 大流行
儘管差異隱私技術已經存在很多年了(並且近年來變得越來越流行,例如蘋果等公司使用它來為 iOS 設備上的各種服務提供隱私),但由於新冠疫情,該技術最近獲得了很大的關注。
通過訪問位置數據來分析人們的去向,可以利用差異隱私來發現冠狀病毒傳播的潛在熱點不侵犯個人隱私權。
這是一個如何利用差異隱私在不侵犯人們隱私的情況下為社會提供福利的例子,也是數據隱私專家認為可以接受的一種去中心化、非侵入性的追踪方式,可以防止病毒的傳播。
