用于鉴于协同和组合的效用感知隐私保护映射的方法和装置的制造方法_2

文档序号:9848281阅读:来源:国知局
度将具体类别的数据称为私有数据或公 共数据。例如,当尝试为想要保持他的政治观点私有的当前用户设计隐私保护映射时,我们 针对当前用户和愿意发布他的政治观点的另一用户两者将政治观点称为私有数据。
[0023] 在本原理中,我们使用发布的数据与公共数据之间的失真作为效用的度量。当失 真较大时,发布的数据更不同于公共数据,并且更多的隐私被保护,用户从失真的数据中得 到的效用可能更少。另一方面,当失真较小时,发布的数据是公共数据的更加精确的表示, 并且用户可以接收更多的效用,例如,接收更精确的内容推荐。
[0024]在一个实施例中,为了针对统计推断保护隐私,我们对隐私效用权衡进行建模并 且通过解决最小化信息泄露的优化问题来设计隐私保护映射,信息泄露被定义为私有数据 与发布的数据之间的交互信息,服从失真约束。
[0025] 在Fawaz中,找到隐私保护映射依赖基本假设(链接私有数据和发布的数据的先验 联合分布是已知的并且可以被提供为对优化问题的输入)。在实践中,真正的先验分布可能 不是已知的,而是可以从可以被观测到的一组样本数据中估计某些先验统计。例如,可以从 不关心隐私并且公开地发布不同类别的数据(可能被关心他们的隐私的用户认为是私有数 据或公共数据)的一组用户中估计先验联合分布。可替代地,当不能观测到私有数据时,可 以从仅发布他们的公共数据的一组用户中估计将要发布的公共数据的边缘分布或仅仅它 的二阶统计。基于这组样本估计的统计然后被用来设计将被应用至关心其隐私的新用户的 隐私保护映射机制。在实践中,估计的先验统计与真正的先验统计之间也可能存在不匹配, 例如,由于可观测的样本的数量过小,或可观测的数据不完全。
[0026] 为了用公式表示问题,公共数据由具有概率分布Ρχ的随机变量Xex表示。X与私有 数据相关,私有数据由随机变量ses表示。S和X的关联由联合分布Ps,x定义。由随机变量Y e y表示的发布的数据是X的失真版本。Y经由将X传递通过核PY|x被获得。在本申请中,术语 "核"指概率性地将数据X映射数据Υ的条件概率。也就是说,核 Ργ|χ是我们希望设计的隐私保 护映射。由于Υ是只有X的概率函数,在本申请中,我们假定S-X-Y形成马尔可夫(Markov) 链。因此,一旦我们定义ΡΥ|Χ,我们就具有联合分布?5丄¥ = ?¥必,1以及具体的联合分布?5,¥。
[0027] 下面,我们首先定义隐私概念,然后定义精确度概念。
[0028] 定义1 .假定S-X-Y。如果从联合分布?5,1,¥ = ?¥成5,1导出的分布?5,¥满足以下式 子,则核Ργ|χ被称为e散度私有。
[0029]
(1)
[0030] 其中D(.)是K-L散度,?(.)随机变量的期望,H(.)是熵,ee[0,l]被称为泄露因 子,并且交互信息I (S; Y)表示信息泄露。
[0031] 我们假设如果e=〇则机制具有完全的隐私。在极端情况下,e=〇意味着发布的 随机变量Y独立于私有随机变量S,并且e = 1意味着S完全可从Y恢复(S是Y的确定性函数)。 注意,可以假定Y完全独立于S以具有完全的隐私(e=0),但是这可能导致不良的精确度水 平。我们定义精确度如下。
[0032] 定义2.令
为失真度量。如果
则核Py|x被称为D精确 度。
[0033] 应当注意的是,可以使用任意失真度量,例如,汉明(Hamming)距离(如果X和Υ是二 进制向量)、或欧几里得范数(如果X和Y是实向量)、或对用户将从Y而不是X的发布中导出的 效用中的变化进行建模的更复杂的度量。后者例如可以表示基于用户的失真媒体偏好Y的 发布而不是他的真实偏好X的发布来推荐给用户的内容的质量中的差异。
[0034] 隐私保护映射的泄露因子e与失真水平D之间存在权衡。在一个实施例中,在给定 效用约束的情况下,我们的目标是限制可以被推断的私有信息的数量。当推断由私有数据 与发布的数据之间的信息泄露测量并且效用由公共数据与发布的数据之间的失真指示时, 目标可以在数学上用公式表示为找到在给定失真约束的情况下最小化最大信息泄露I(S; Y)的概率映射PY|X,其中最大值通过与隐私代理处可用的分布PS,X有关的统计知识中的不确 定性取得:
[0035] _
^ …
[0036] 概率分布Ps, Y可以从联合分布?5丄¥ = ?¥成5,1=?¥成5成1中获取。
[0037] 在下文中,我们提出了基于统计推断中的一些技术(被称为极大相关)的实现服从 失真约束的隐私(即,以最小化信息泄露)的方案。我们示出了我们如何能够使用这种理论 在不完全知道联合概率度量Ps,x的情况下设计隐私保护映射。具体地,我们证明了信息泄露 上的分离性结果:更具体地,我们基于I(S;X)乘以极大相关因子(其由核Ργ|χ确定)提供了信 息泄露的上界。这允许在不完全知道联合概率度量Ps,x的情况下用公式表示最优映射。 [0038]接下来,我们提供了在规定解耦结果中使用的定义。
[0039]定义3.针对给定联合分布Ρχ,γ,令巧"的⑶.???,其中r(y)是对Y上的p (y | x)r(x)的边缘度量。
[0040] 注意,因为针对散度的数据处理不等式,所以S*(X;YH1。下面是V.Anantharam、 A.Gohari、S.Kamath、和C.Nair的题为"关于Erkip和Cover研究的最大关联、超压缩性、以及 数据处理不等式(On maximal correlation,hypercontractivity,and the data processing inequality studied by Erkip and Cover)',arXiv预印本arXiv: 1304.6133, 2013的文章的结果。
[0041] 定理1.如果S-X-Y形成马尔可夫链,则下面的界限成立:
[0042] I(S;Y) <S*(X;Y)I(S;X), (6)
[0043] 并且随着我们改变S,界限是紧的。换句话说,我们有
[0044]
(7)
[0045] 假定I(S;X)关0。
[0046] 定理1将Y和S的依赖关系解耦为两项,一项涉及S和X,一项涉及X和Y。因此,即使不 知道Ps,x,可以通过最小化涉及X和Y的项来得到信息泄露的上界。这样的应用使得我们的问 题变为如下:
[0047] 假定我们处于Ps,x未知并且针对某些Λ e[0,H(S)]的I(S;X)< Δ的规定下。I(S; X)是嵌入在关于S的X中的内在信息,我们无法控制它。△的值不影响我们将找到的映射,但 是A的值影响我们认为是从该映射产生的隐私保证(术语上称为泄露因子)。如果△界限是 紧的,则隐私保证将是紧的。如果A界限不紧,则我们可能付出比目标泄露因子的实际需要 的失真更多的失真,但是这不影响隐私保证。
[0048]使用定理1,我们得到
[0049]
[0050] 因此,优化问题变为找到Ργ|χ,最小化下面的目标函数:
[0051]
[0052] 满
[0053]为了更加详细地研究这个优化问题,我们回顾了极大相关文献中的一些结果。极 大相关(或R6nyi相关)是两个随机变量之间的关联的度量(其在信息理论和计算机科学中 都具有应用)。在下文中,我们定义极大相关并且提供它与#(X;Y)的关系。
[0054]定义4.给定两个随机变量X和Υ,(X,Υ)的极大相关是
[0055]
(Θ)
[0056] 其中;Γ是实值随机变量f(X)和g(Y)对的集合,从而使得
并且
[0057] 这个度量最先由Hirschfeld(H.O.Hirschfeld在剑桥哲学学会论文集第31卷中发 表的"关联和偶然性之间的连接(A connection between correl ation and contingency)'')和Gebelein(H.Gebelein在Zeitschrift fur angew.Math.und Mech.21, pp.364_379(1941)中发表的"Das statistische Problem der Korrelation als Variations-und Eigenwert-prob1em und sein Zusammenhang mit der Ausgleichungsrechrumg")弓丨人,然后由;renyi(A.;renyi在Acta Mathematica Hungarica白勺 第10卷第3号中发表的"对依赖性的测量(On measures of dependence)")进行研究。最近, Anantharam 等和 Kamath等(S · Kamath和V · Anantharam 在2012第50 届Al 1 erton 会议上在通 信、控制、和计算(Allerton)中发表的"联合分布的非交互模拟:hirschfeld-gebelein-r6 nyi极大相关和超压缩性带(Non-interactive simulation of j oint distributions: The hirschfeld-gebelein-renyi maximal correlation and the hypercontractivity ribbon)",以下称为"Kamath")研究了极大相关并且提供了这个量的几何解释。下面是
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1