针对失配的先验信息对抗推断攻击的隐私的制作方法

文档序号:9713929阅读:932来源:国知局
针对失配的先验信息对抗推断攻击的隐私的制作方法
【专利说明】
[0001] 相关申请的交叉引用
[0002] 本申请请求于2013年2月8日,在美国专利和商标局提交,并且被分配的序列号为 61 /762480的临时申请的优先权和从其获得的所有利益。
技术领域
[0003] 本发明一般地设及用于保护隐私的方法和装置,并且更特别地,设及根据在联合 概率比较中使用的失配或不完整的先验信息生成隐私保护映射机制的方法和装置。
【背景技术】
[0004] 在大数据时代,用户数据的收集和挖掘已经成为大量的私有和公共机构的快速成 长的惯常做法。例如,技术公司利用用户数据,W向他们的客户提供个性化服务,政府代理 依赖数据W解决各类挑战,例如,国家安全、国民健康状况、预算和经费分配,或者医疗机构 分析数据W发现疾病的起源和可能的治疗方案。在一些情形下,收集、分析或与第=方共享 用户数据,在未经用户许可或觉察的情况下执行。在另一些情形下,数据被用户自愿向特定 分析方公布,W获得服务作为回报,例如,产品评级被公布W获得推荐。运一服务,或者用户 从允许访问该用户的数据所获得的其它利益,可W被称为效用。在二者之一的情形下,当一 些被收集的数据可能被用户认为是敏感的(例如,政治观点、健康状态、收入水平)时,或乍 看可能无害(例如产品评级),仍然导致对与其相关的更为敏感的数据的推断时,隐私风险 将会增加。后者的威胁设及推断攻击(inference attack),运是一种通过利用隐私数据与 被公开公布数据的关系,对隐私数据进行推断的技术。
[0005] 在近些年中,在线隐私滥用的许多威胁已经显露,包括身份窃取、名誉损害、工作 丢失、歧视、骚扰、网络恐吓、追踪甚至自杀。同时,对在线社会网络(OSN)提供方的指控已经 变成常见的设嫌非法数据收集、未经用户许可共享数据、未经通知用户改变隐私设置、误导 用户追踪他们的浏览行为、不执行用户的删除行为,W及未适当地通知用户关于他们的数 据的用途和其他哪些人得W访问运些数据。OSN的赔偿责任可能上升到几千万甚至几亿美 J L O
[0006] 互联网中管理隐私的一个中屯、问题在于同时管理公开数据和隐私数据。许多用户 愿意公布关于他们的一些数据,比如他们的观影史或者他们的性别;他们运么做是因为运 种数据允许有用的服务,并且因为运些属性很少被认为隐私。然而,用户还有其他他们认为 隐私的数据,比如收入水平、政治立场、或医疗条件。在运样的工作中,我们关注用户能够公 布她的公开数据,但是能够阻止可W从公开信息得到她的隐私数据的推断攻击的方法。通 知用户关于如何使她的公开数据失真(在公布它之前),W致推断攻击不能够成功地得知她 的隐私数据,运一点将是受期望的。同时,该失真应当是有界的,W便于原来的服务(比如推 荐)能够继续有效。
[0007] 期望用户获得对公开公布的数据的分析的利益,比如电影喜好、或购物习惯。然 而,不期望第=方能够分析运一公开数据并推断隐私数据,比如政治立场或收入水平。期待 用户或服务能够公布一些公开信息W获得利益,但是控制第=方推断隐私信息的能力,运 一点将是受期望的。运一控制机制的困难方面在于,使用先验记录和隐私记录(不容易被获 取W进行可靠比较)的联合概率比较,隐私数据通常被推断。隐私数据和公开数据的运一限 定数目的样本导致先验信息失配的问题。因此,期望克服上面的难点,并且向用户提供对于 隐私数据安全的体验。

【发明内容】

[0008] 根据本发明的一方面,公开了一种装置。根据示例性的实施例,用于处理用户数据 的装置包括:存储器,用于存储所述用户数据,其中所述用户数据包括公开数据;处理器,用 于将所述用户数据与调查数据比较,用于响应于所述比较,确定隐私数据的概率,并响应于 所述概率的值超过预定阔值,用于改变所述公开数据W生成改变后的数据;网络接口,用于 传送所述改变后数据。
[0009] 根据本发明的另一方面,公开了一种用于保护隐私数据的方法。根据示例性的实 施例,该方法包括W下步骤:获取所述用户数据,其中所述用户数据包括公开数据;将所述 用户数据与调查数据比较;响应于所述比较确定隐私数据的概率;并响应于所述概率的值 超过预定阔值,改变所述公开数据W生成改变后的数据。
[0010] 根据本发明的另一方面,公开了用于保护隐私数据的第二方法。根据示例性的实 施例,该方法包括W下步骤:收集与用户相关的多个用户公开数据;将所述多个公开数据与 多个公开调查数据比较,其中所述公开调查数据与多个隐私调查数据相关;响应于所述比 较确定所述用户隐私数据的概率,其中所述用户隐私数据的概率准确地超过阔值;并改变 所述多个用户公开数据的至少一个W生成多个改变后的用户公开数据;将所述多个改变后 的用户公开数据与所述多个公开调查数据比较;W及响应于所述多个改变后的公开数据与 所述多个公开调查数据的所述比较,确定所述用户隐私数据的所述概率,其中所述用户隐 私数据的概率低于所述阔值。
【附图说明】
[0011] 通过参考下面结合附图对本发明的实施例的描述,本发明的上面提及的和其他特 征和优势,W及获得运些的方式,将变得更为明显,且本发明将被更好地理解,其中:
[0012] 图1为根据本原理的实施例,描述了用于保护隐私的示例性方法的流程图。
[0013] 图2为根据本原理的实施例,描述了当隐私数据和公开数据之间的联合分布已知 时,用于保护隐私的示例性方法的流程图。
[0014] 图3为根据本原理的实施例,描述了当隐私数据和公开数据之间的联合分布未知 且公开数据的边缘概率测度也未知时,用于保护隐私的示例性方法的流程图。
[0015] 图4为根据本原理的实施例,描述了当隐私数据和公开数据之间的联合分布未知 但公开数据的边缘概率测度已知时,用于保护隐私的示例性方法的流程图。
[0016] 图5为根据本原理的实施例,描述了示例性的隐私代理的框图。
[0017]图6为根据本原理的实施例,描述了具有多个隐私代理的示例性系统的框图。
[0018] 图7为根据本原理的实施例,描述了用于保护隐私的示例性方法的流程图。
[0019] 图8为根据本原理的实施例,描述了用于保护隐私的第二示例性方法的流程图。
[0020] 运里提出的范例示出了本发明的优选实施例,并且运些范例不被解释为W任何方 式限制本发明的范围。
【具体实施方式】
[0021] 现在参考附图,并且更特别地参考图1,示出用于实现本发明的示例性方法100的 示图。
[0022] 图1示出了根据本原理,用于使将被公布的公开数据失真W保护隐私的示例性方 法100。方法100起始于105。在步骤110,例如,从不关屯、他们的公开数据或隐私数据的隐私 的那些用户,基于被公布的数据收集统计信息。我们将运些用户表示为"公开用户",并且将 希望使将被公布的公开数据失真的用户表示为"隐私用户"。
[0023] 统计信息可W通过网络爬虫、访问不同的数据库收集,或者可W被数据整合方提 供。哪些统计信息能够被收集取决于公开用户所公布的内容。例如,如果公开用户公布了隐 私数据和公开数据,联合分布Ps,x的估计能够被获取。在另一示例中,如果公开用户仅公布 了公开数据,边缘概率测度Px(而非联合分布Ps,X)的估计,能够被获取。在另一示例中,我们 可能仅能够获得公开数据的均值和方差。在最差的情形下,我们可能不能获得关于公开数 据或隐私数据的任何信息。
[0024] 在步骤120,假定效用约束,该方法基于统计信息确定隐私保护映射。如之前讨论 的,隐私保护映射机制的解决方法取决于可用的统计信息。
[0025] 在步骤130,在于步骤140向例如服务提供方或数据收集代理公布之前,根据被确 定的隐私保护映射,使当前隐私用户的公开数据失真。对隐私用户,假定值X = X,根据分布 Pyix=X,值Y = y被采样。运一值y被公布,而非真实值X。注意到该隐私映射的使用W生成被公 布的y
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1