差异隐私是一种定义,用于描述用于分析数据集和推断汇总结果的各种方法和技术,而无需直接影响原始数据集中包含的任何特定个体的隐私。
该技术通常用于训练算法并获取有关大型数据集的统计信息,而无需直接影响数据主体。
使这些技术有趣的是,它们是消费者的利益与他们对隐私的渴望与组织需求及其对数据需求之间的妥协。
差异隐私如何工作?
差异隐私是通过使用密码学家最初设计的技术来实现的一种状态,用于使用算法分析统计数据集。
当数据处理器将数据称为“差异性私有”时,它们是指用于向数据集增加噪声的各种技术,以便无法将数据主体的身份(最初用于获取这些输出)的身份进行确定。
作为提供消费者隐私的一种方法,到达差异隐私的技术越来越流行 - 同时仍为组织获得重要的汇总数据。
这些技术允许获取有用的模式和分析。因此,最好将其理解为一组技术,用于分析希望在其政策中承诺个人隐私的公司分析大数据,同时仍然能够以汇总方式利用用户数据。
例如,政府使用不同的私人数据集来发布人口统计信息和通过国家人口普查或其他调查收集的汇总统计数据。这很有用,因为它可以发表观察,而不会影响参加调查的那些个人公民的机密性和隐私。
如果从算法的输出中观察到的数据不能归因于任何个人,并且如果无法从输出中得出哪些人的数据来得出统计结论,则将数据视为私有。
为什么差异隐私很重要?
在一个越来越多的消费者隐私对政府对消费者隐私的立法的世界中,差异隐私为数据处理提供了框架,而不会不必要地侵犯隐私。
这不仅保护了每个人的隐私,而且从理论上讲,这还允许组织,企业和政府实体以某种方式处理数据,以使他们可以遵守隐私法规。
重要的是要理解,当您的数据包含在数据库中(通常)时,这通常会直接影响您的隐私。
当数据仅作为产生不同私有输出的算法的输出分析时,您的个人身份信息永远不会直接作为输出访问。这样可以确保无法将统计处理的结果重新归因于构成原始数据集的个人。
差异化的私有系统可确保始终以某种方式构建数据,以至于无法确定是否使用特定用户的数据来获得最终输出。
这是一个重要的区别,因为研究证明,即使通过剥离标识符来“匿名”“匿名”,也存在重新识别该数据的过程。这就是为什么匿名数据(仅适用于一个数据主体)比差异私人输出更具侵入性和问题。
全球与本地差异隐私
这两个主要隐私模型。每个都会影响数据的处理方式以及数据主体提供的隐私水平。下面我们已经解释了每个模型,并提供了有关它们拥有的任何潜在缺陷的详细信息。
全球模型
在全球模型中,单个策展人(例如,一家技术公司)控制了用于创建安全汇总输出的原始数据集。该策展人在以差异性私有状态发布数据之前分析数据并添加噪声。
在这种情况下,数据策展人最初可以访问各个输入,因此,这些用户的隐私受到数据处理器本身的影响。但是,已发布的报告是私人的,没有人看到这些已发表的细节可以从数据中挑出任何个人。
只有数据处理器具有强大的安全性,以防止所有不需要访问其中央数据库中可识别数据的访问权限,才能考虑这种全局模型。此外,可以访问数据的数据处理器/策展人中必须存在高水平的信任。
如果无法满足这些条件,则无法令人满意地实现差异隐私,因为:
- 该公司可以选择滥用您的数据本身或可能通过管理不善会意外泄露数据
- 黑客可以访问打破差异隐私的原始数据
本地模型
在差异隐私的本地模型中,每个人本身都会为数据添加噪音。这降低了数据处理器知道每个人的输入是什么的潜力。
该模型假设不可能信任任何数据处理器或策展人,因此,在让它们分析之前,有必要向数据添加噪声。
实际上,这通常涉及算法要求或获取数据,这些算法会在发送回数据处理器之前自动与噪声混淆。
因此,在本地私人模型下,用户从未发送其个人数据存储在中央数据库中 - 消除了黑客攻击和数据管理不善或滥用的可能性。
差异隐私与数据匿名
数据匿名化是获取个人数据并将其擦洗标识符的过程,以使数据尚不清楚数据是谁。例如,是否存在一个数据库,以指出该数据库本尼星期二看着侏罗纪公园,通过将其更改为:鼻子“主题”周二观看侏罗纪公园。
这似乎使数据安全,但实际上它仍然仅适用于一个数据主体,并且存在重新识别该数据的方法。例如,一个碰巧在本尼(Benny)看侏罗纪公园(Jurassic Park)时碰巧走进的人可以推断出本尼(Benny)是数据主题。结果,这种匿名化单个数据集的方法不能被视为万无一失。
在现实世界中,研究表明,匿名数据集通常只能通过少量额外的数据将其重新归入其所有者。如果寻求重新识别数据主体的人可以轻松访问这些附加数据,则可能会重新识别,从而在系统中为数据主体造成巨大的脆弱性。
这就是为什么差异隐私技术最终比识别或“匿名”数据集更安全的原因;它们不包含任何可能链接回任何单个数据主体的数据。
没有真正匿名的单个数据集之类的东西,因为仅适用于一个数据主体的数据可能总是可以使用其他数据集重新识别。
这就是为什么差异隐私在根本上更合理的原因。负责任地实现时,它会从重新识别的潜力中删除结果 - 即使想要重新识别数据的人都有数据主体以外的所有数据主题的数据,但仍应是不可能的。
结果,差异隐私技术可以成功地允许数据处理器收集和处理信息,同时减少可能以损害个人隐私权的方式使用它的风险。
差异隐私安全吗?
由于如何将私人数据处理为汇总的输出,因此普遍同意是一种安全的方法来分析数据而不会影响人们的隐私。
与可以进行重新识别攻击的“匿名”数据集不同,差异化数据不能,通常用于重新识别个人。
结果,可以将私人结果视为显示最初从包含可识别数据的数据库中收集的统计分析的一种好方法。
但是,必须满足一些考虑因素,以便向数据主体提供适当的差异隐私的承诺。除非令人满意地应用这些考虑因素,否则可能不会私人的数据。
例如,实现较大数据集的差异隐私需要添加较低级别的噪声才能获得隐私。相反,分析数据集的越小,所涉及的数据主体越少,必须添加的噪声量就越大,才能获得足够的差异隐私。
因此,如果未在数据集中添加足够的噪声,则识别的可能性会增加(这意味着实际上没有实现差异隐私)。
我们应该接受差异隐私的使用吗?
这是一个重要的问题,应该从两个不同的方面进行考虑:
首先,重要的是确认数据是一个强大而有用的工具。数据可以使人们,组织,企业和政府能够找出当前正在发生的事情,从而使这些决策者将来可以做出更好的选择。
例如,这可以有助于提高效率,分配资源,减少不必要的浪费以及理解实施服务的后勤要求,例如提高效率,分配资源,减少不必要的浪费。
考虑到这一点,可以将处理数据(同时还为个人提供个人数据隐私提供)被理解为非常可取。
因此,对于数据主体和寻求使用数据以更好地告知其行动的数据主体和决策者,通常应将使用差异隐私用于分析数据。
合理的保障措施
只要用于在数据集中添加噪声并实现差异隐私的技术在数学上是合理的,我们可以将过程视为允许具有高水平数据主体隐私的数据分析的方法。
也就是说,差异隐私只有在负责任地实施和实现时才能接受,这意味着立法者必须设定对差异隐私应用的要求以一种真正保护数据主题的方式。
潜在的局限性
重要的是要认识到,通过实施差异隐私会产生某些限制。这是因为添加噪声的过程可以降低从数据中获得的准确性水平。根据数据处理器所需的数据类型,这可能不是可接受的妥协 - 从而使当地模型的差异隐私不合适。
隐私和准确性之间的权衡是否可以接受,很大程度上取决于所涉及的数据和数据处理器的种类。以及访问各个数据集(也许是采用全球差异隐私模型)是否存在合法的法律利益。
这些问题对于理解差异隐私的使用至关重要,通常认为,当汇总,非特异性输出足以满足数据处理器的需求时,可以主要使用差异隐私。另一方面,差异隐私会导致数据如此不准确而变得无用,那么差异隐私可能不会被视为适合用途。
差异隐私和共同19-19大流行
尽管差异隐私技术已经存在了很多年(近年来一直在越来越流行 - 例如,苹果公司像苹果这样的公司使用它为iOS设备上的各种服务提供隐私),但由于大流行,该技术最近获得了很多吸引力。
通过访问位置数据来分析人们的去向,可以采用差异隐私来发现潜在的热点以扩散冠状病毒病毒不侵犯个人的隐私权。
这是一个例子,说明如何使用差异隐私为社会提供利益而不侵犯人们的隐私,而这是一种分散和非侵入性跟踪,被认为可以预防数据隐私专家传播病毒。
