用于鉴于协同和组合的效用感知隐私保护映射的方法和装置的制造方法

文档序号：9848281阅读：298来源：国知局

用于鉴于协同和组合的效用感知隐私保护映射的方法和装置的制造方法
【专利说明】
[0001] 相关申请的交叉引用
[0002] 本申请要求下面的于2013年8月19日提交的序列号为61/867,544、题为"Method and Apparatus for Utility-Aware Privacy Preserving Mapping in View of Collusion and Composition(用于鉴于协同和组合的效用感知隐私保护映射的方法和装置)"的美国临时申请的申请日的权益，该临时申请出于所有目的通过引用以其整体合并于此。
[0003] 本申请涉及于2012年8月20日提交的序列号为61/691,090、题为"A Framework for Privacy against Statistical Inference(用于针对统计推断的隐私的框架)"的美国临时专利申请（以下简称"Fawaz"）。该临时申请明确地通过引用以其整体合并于此。
[0004] 此外，本申请涉及下面的申请：（1)代理案号PU130120、题为"Method and Apparatus for Utility-Aware Privacy Preserving Mapping against Inference Attacks(用于针对推断攻击的效用感知隐私保护映射的方法和装置)"，以及(2)代理案号 PU130122、题为"Method and Apparatus for Utility-Aware Privacy Preserving Mapping through Additive Noise(用于通过加性噪声的效用感知隐私保护映射的方法和装置)"，这两个申请通过引用以其整体被指定、合并于此，并且被同时提交申请。
技术领域
[0005] 本发明涉及用于保护隐私的方法和装置，并且更具体地，涉及用于鉴于协同 (collusion)或组合(composition)的保护用户数据的隐私的方法和装置。
【背景技术】
[0006] 在大数据时代中，对用户数据的收集和挖掘已经成为大量私有和公共机构的快速增长且常见的实践。例如，技术公司利用用户数据向它们的客户提供个性化的服务，政府机构依赖数据来处理各种挑战（例如，国家安全、国家卫生、预算和资金分配），或医疗机构分析数据以发现疾病的起源和潜在的治愈方法。在某些情况下，第三方对用户数据的收集、分析、或共享是在未经用户的同意或察觉的情况下执行的。在其他情况下，数据由用户自愿地发布至特定分析者，以便获得服务作为回报，例如，发布产品评价以获得推荐。这种服务、或用户从允许访问用户数据中得到的其他好处可以被称为效用。在上述两种情况中的任意一种情况下，隐私风险出现，这是由于一些收集的数据可能被用户认为是敏感的（例如，政治观点、健康状况、收入水平），或可能乍看之下似乎无恶意(例如，产品评价)但是导致推断出与其相关的更敏感的数据。后者的威胁指代推断攻击，推断攻击是一种通过利用隐私数据与公开发布的数据的关联来推断隐私数据的技术。
【附图说明】
[0007] 图1是示出协同和组合的图示示例。
[0008] 图2是描绘根据本原理的实施例的用于保护隐私的示例性方法的流程图。
[0009] 图3是描绘根据本原理的实施例的用于保护隐私的另一示例性方法的流程图。
[0010] 图4是描绘根据本原理的实施例的示例性隐私代理的框图。
[0011] 图5是描绘根据本原理的实施例的具有多个隐私代理的示例性系统的框图。

【发明内容】

[0012] 本原理提供了用于处理用户的用户数据的方法，包括以下步骤:访问用户数据，该用户数据包括私有数据、第一公共数据和第二公共数据，第一公共数据对应于第一类数据，并且第二公共数据对应于第二类数据;确定私有数据与第一发布的数据和第二发布的数据之间的第一信息泄露界限；响应于第一信息泄露界限，确定私有数据与第一发布的数据之间的第二信息泄露界限、以及私有数据与第二发布的数据之间的第三信息泄露界限；响应第二界限确定第一隐私保护映射，该第一隐私保护映射将第一类数据映射至第一发布的数据，以及响应第三界限确定第二隐私保护映射，该第二隐私保护映射将第二类数据映射至第二发布的数据;分别基于第一隐私保护映射和第二隐私保护映射来修改用户的第一公共数据和第二公共数据，从而形成第一发布的数据和第二发布的数据；以及将经修改的第一公共数据和经修改的第二公共数据发布至如下面所述的服务提供商和数据收集机构中的至少一个。本原理还提供用于执行这些步骤的装置。
[0013] 本原理还提供了用于处理用户的用户数据的方法，包括以下步骤:访问用户数据，该用户数据包括私有数据、第一公共数据和第二公共数据，第一公共数据对应于第一类数据，并且第二公共数据对应于第二类数据;确定私有数据与第一发布的数据和第二发布的数据之间的第一信息泄露界限；响应于第一信息泄露界限，确定私有数据与第一发布的数据之间的第二信息泄露界限、以及私有数据与第二发布的数据之间的第三信息泄露界限，其中第二界限和第三界限中的每一个实质上等于第一界限；响应第二界限确定第一隐私保护映射，该第一隐私保护映射将第一类数据映射至第一发布的数据，以及响应第三界限确定第二隐私保护映射，该第二隐私保护映射将第二类数据映射至第二发布的数据;分别基于第一隐私保护映射和第二隐私保护映射来修改用户的第一公共数据和第二公共数据，从而形成第一发布的数据和第二发布的数据；以及将经修改的第一公共数据和经修改的第二公共数据发布至如下面所述的服务提供商和数据收集机构中的至少一个。本原理还提供用于执行这些步骤的装置。
[0014] 本原理还提供其上存储有指令的计算机可读存储介质，所述指令用于根据上面所描述的方法处理用户的用户数据。
【具体实施方式】
[0015] 在出现差分隐私的数据库和密码学文献中，焦点是算法。具体地，研究人员已经使用差分隐私来设计用于推断算法、传输、和查询数据的隐私保护机制。最近的工作集中在差分隐私与统计推断的关系上。已经表明差分隐私不保证有限的信息泄露。存在类似于差分隐私的其他框架，例如?虹€6奸丨811框架，其可以在由0.1(丨€61'和4.]\&1(3113仙￥3」」11313在2012 年的ACM PODS中发表的题为"针对隐私的严格的和可定制的框架（A rigorous and customizable framework for privacy)"的文章中找到，然而其焦点不在于效用保护。
[0016] 许多方法依赖信息理论技术来建模和分析隐私精确度权衡。这些信息理论模型中的大部分主要集中于数据库的条目的全部或子集的共同隐私，并且对每个数据库条目的平均剩余不确定性或输出发布之后每个输入变量的疑义度提供渐进保证。相反，本申请中所研究的框架提供了关于信息泄露(分析者通过观察发布的输出获得)的界限方面的隐私。
[0017] 我们考虑Fawaz中所描述的设置，其中用户具有相互关联的两种数据:用户想要保持私有的一些数据，以及用户愿意发布至分析者的一些非私有数据（用户可以从该分析者得到一些效用，例如，向服务提供商发布媒体偏好以接收更精确的内容推荐）。
[0018] 本申请中所使用的术语分析者(例如，分析者可以是服务提供商的系统的一部分）指代发布的数据的接收者，其表面上使用数据以便向用户提供效用。通常，分析者是发布的数据的合法接收者。然而，分析者也可能非法地利用发布的数据并且推断与用户的私有数据有关的一些信息。这造成了隐私与效用要求之间的紧张关系。为了减少推断威胁同时维护效用，用户可以发布根据条件概率映射生成的数据的"失真版本"，该条件概率映射被称为"隐私保护映射"（其在效用约束下被设计）。
[0019] 在本申请中，我们将用户想要保持私有的数据称为"私有数据"，将用户愿意发布的数据称为"公共数据"，以及将用户实际发布的数据称为"发布的数据"。例如，用户可能想要保持他的政治观点私有，并且愿意在修改的情况下发布他的TV评价(例如，用户对节目的实际评价是4,但是他发布的评价是3)。在这种情况下，用户的政治观点被认为是该用户的私有数据，TV评价被认为是公共数据，并且发布的修改的TV评价被认为是发布的数据。注意，另一用户可能愿意在不做修改的情况下发布政治观点和TV评价两者，因此针对该另一用户，当仅考虑政治观点和TV评价时，私有数据、公共数据、和发布的数据之间不存在区别。如果许多人发布政治观点和TV评价，则分析者可能能够得到政治观点与TV评价之间的关联，并且因此可能能够推断想要保持政治观点私有的用户的政治观点。
[0020] 关于私有数据，其指的是用户不仅指示它不应当被公开发布而且用户不希望它从用户将发布的其他数据中被推断出来的数据。公共数据是用户将允许隐私代理发布(可能以失真的方式发布以防止对私有数据的推断）的数据。
[0021] 在一个实施例中，公共数据是服务提供商为了向用户提供服务而从用户请求的数据。然而，用户在将它发布至服务提供商之前将使它失真（即，修改）。在另一实施例中，公共数据是用户指示为"公共的"（在这意义上，只要发布采取防止推断私有数据的形式，用户将不介意发布它）的数据。
[0022] 如上面所讨论的，具体类别的数据是否被认为是私有数据或公共数据是基于具体用户的角度。为了便于表示，我们从当前用户的角

完整全部详细技术资料下载

当前第1页1 2 3 4 5