针对失配的先验信息对抗推断攻击的隐私的制作方法_2

文档序号：9713929阅读：来源：国知局

，不需要知道隐私用户的隐私数据的值S = s。方法100在步骤199结束。
[0026] 图2-4进一步详细示出了当不同的统计信息可用时，用于保护隐私的示例性方法。具体地，图2示出了当联合分布Ps,X已知时的示例性方法200,图3示出了当边缘概率测度Px 已知，但联合分布Ps,X未知时的示例性方法300, W及图4示出了当边缘概率测度Px和联合分布Ps, X都未知时的示例性方法400。方法200、300和400在W下将进一步详细讨论。
[0027] 方法200起始于205。在步骤210,基于被公布的数据估计联合分布Ps,X。在步骤220，该方法被用于规划最优化问题。在步骤230,隐私保护映射被确定为例如凸问题。在步骤 240,根据被确定的隐私保护映射，在于步骤250被公布W前，使当前用户的公开数据失真。方法200结束于步骤299。
[00%]方法300起始于305。在步骤310,该方法通过最大相关规划最优化问题。在步骤 320,例如通过利用幕迭代或兰索斯化anczos)算法，该方法确定隐私保护映射。在步骤330，根据被确定的隐私保护映射，在于步骤340被公布W前，使当前用户的公开数据失真。方法 300结束于步骤399。
[0029] 方法400起始于405。在步骤410,基于被公布的数据估计分布Px。在步骤420,通过最大相关规划最优化问题。在步骤430,例如通过使用幕迭代或兰索斯算法，确定隐私保护映射。在步骤440，在于步骤450被公布之前，根据被确定的隐私保护映射，使当前用户的公开数据失真。方法400在步骤499结束。
[0030] 隐私代理为向用户提供隐私服务的实体。隐私代理可W执行W下的任何操作：
[0031] 从用户接收哪些数据他认为隐私、哪些数据他认为公开，W及他需要哪个隐私等级；
[0032] 计算隐私保护映射；
[0033] 对用户实现该隐私保护映射(即，根据该映射使他的数据失真）；W及
[0034] 例如，向服务提供方或数据收集代理，公布失真后的数据。
[0035] 本原理能够在保护用户数据的隐私的隐私代理中应用。图5描述了示例性系统500 的框图，运里隐私代理能够被使用。公开用户510公布他们的隐私数据（S)和/或公开数据 (X)。如之前讨论的，公开用户可W公布公开数据如，即Y = X。被公开用户公布的信息成为对隐私代理有用的统计信息。
[0036] 隐私代理580包括统计信息收集模块520、隐私保护映射决定模块530和隐私保护模块540。统计信息收集模块520可W被用于收集联合分布Ps,x、边缘概率测度Px、和/或公开数据的均值和协方差。统计信息收集模块520还可W从数据整合方(例如bluekai.com)接收统计信息。取决于可用的统计信息，隐私保护映射决定模块530设计隐私保护映射机制Py|x。在隐私用户560的公开数据被公布之前，根据条件概率Py|x，隐私保护模块540使该公开数据失真。在一个实施例中，统计收集模块520、隐私保护映射决定模块530、和隐私保护模块540 能够被使用W分别执行方法100中的步骤110、120和130。
[0037] 注意到隐私代理仅需要该统计信息W运行，而不需了解在数据收集模块中收集的全体数据。因此，在另一实施例中，数据收集模块可W为收集数据并然后计算统计信息的独立模块，且不需为隐私代理的一部分。数据收集模块与隐私代理共享该统计信息。
[0038] 隐私代理位于用户和用户数据的接收方(例如，服务提供方)之间。例如，隐私代理可W位于用户设备，例如计算机或机顶盒(STB)。在另一示例中，隐私代理可W为单独的实体。
[0039] 隐私代理的所有模块可W位于一个设备，或可W分布于不同的设备，例如，统计信息收集模块520可W位于仅向模块530公布统计信息的数据整合方，隐私保护映射决定模块 530可W位于"隐私服务提供方"或连接至模块520的用户设备上的用户端，且隐私保护模块 540可W位于隐私服务提供方或用户设备上的用户端，该隐私服务提供方然后作为用户和用户愿意向其公布数据的服务提供方之间的中间方。
[0040] 隐私代理可W向服务提供方（例如，康卡斯特公司或奈飞公司）提供被公布的数据，W基于被公布的数据对隐私用户560改进所接收的服务，例如，基于它的被公布的电影评级，推荐系统向用户提供电影推荐。
[0041] 在图6,我们示出了在系统中存在多个隐私代理。在不同的失真中，由于隐私代理对于隐私系统工作并非必要条件，因此不需要每个地方存在隐私代理。例如，可W仅在用户设备，或服务提供方，或二者之处存在隐私代理。在图6,对奈飞公司和脸谱公司二者，我们示出了相同的隐私代理T'。在另一实施例中，位于脸谱公司和奈飞公司的隐私代理，可W 但不需要相同。
[0042] 发现隐私保护映射作为凸优化的解决方案，依赖于下列基本假设:连接隐私属性A 和数据B的先验分布Pa,b已知，并且可W作为算法的输入。在实践中，真实的先验分布可能未知，但是相反地，可W从能够被观察的一组样本数据(例如，从不关屯、隐私且公开地公布他们的属性A和他们的原始数据B的一组用户观察到的一组样本数据)估计。基于来自于非隐私用户的运组样本而估计的先验信息然后被用于设计将被用于关屯、他们的隐私的新用户的隐私保护机制。在实践中，由于例如小数量的观察样本或者由于观察数据的不完整，可能存在被估计的先验信息和真实的先验信息之间的失配。
[0043] 现在转到图7,根据大数据的隐私保护的方法700。当例如由于大量的可用公开数据项而导致用户数据的基础字母表的尺寸非常大时，扩展性的问题将会发生。为处理运一问题，限制该问题的维度的量化方法被示出。为解决运一限制，通过优化一个小得多的变量集，该方法教导解决运一问题。该方法包括=个步骤。首先，将字母表B降低为C代表性示例，或簇。其次，使用运些簇生成隐私保护映射。最后，输入字母表B中的所有示例b基于对b的代表性示例C的被学习的映射而变成~C。
[0044] 首先，方法700起始于步骤705。然后，从所有可用的源，所有可用的公开数据被收集和聚集(710)。然后，原始数据被特征化(715)，且分簇到限定数目的变量(720)，或簇。数据可W根据数据的特征被分簇，为了隐私映射的目的，运些数据的特征可W统计上类似。例如，可W指示政治立场的电影可W被分簇在一起W降低变量的数目。对每一个簇的分析可 W被执行W提供权重值等W便于W后计算性分析。运一量化方案的优势为，通过将优化后变量的数目从基础特征字母表的大小的平方降低为簇的数目的平方，计算上变得高效，并且因此使该优化与观察的数据样本的数目无关。对一些现实生活中的示例，运能够引起维度上的数量级降低。
[0045] 该方法然后被用于确定如何在被簇定义的空间中使数据失真。通过在公布前改变一个或多个簇的值或删除簇的值，可W使数据失真。使用经历失真约束而最小化隐私泄露的凸解算器Convex SO1 ver )，隐私保护映射被计算(725)。任何因量化引起的另外失真，可 W随着样本数据点和最接近的簇中屯、之间的最大距离线性地增加。
[0046] 数据的失真可W被重复地执行，直到隐私数据点不能被推断超过某个阔值的概率。例如，可能统计上不期望对人的政治立场仅有70%的确信度。因此，可W使簇或数据点失真，直到推断政治立场的能力低于70%的确定性。运些簇可W与先验数据相比较，W确定推断的概率。
[0047] 根据隐私映射的数据然后被公布为公开数据或被保护的数据(730)。方法700结束于735。用户可W被通知隐私映射的结果，且然后可W被给出使用隐私映射或公布未失真的数据的选项。
[0048] 现在转到图8,示出了根据失配的先验信息用于确定隐私映射的方法800。首要的问题为运一方法依赖于了解隐私数据和公开数据之间的联合概率分布(被称为先验）。通常，真实的先验分布不可用，且相反地，仅隐私数据和公开数据的样本的限定集合

完整全部详细技术资料下载

当前第2页1 2 3