基于本地化差分隐私的高维数据发布方法及相关设备

文档序号:25780585发布日期:2021-07-09 09:21阅读:391来源:国知局
基于本地化差分隐私的高维数据发布方法及相关设备

1.本公开涉及隐私保护领域领域,尤其涉及一种基于本地化差分隐私的高维数据发布方法及相关设备。


背景技术:

2.第三方服务器在用户数据的收集和使用过程中存在隐私泄漏。例如最近的facebook约5000万用户数据泄漏事件。差分隐私作为一种隐私保护的技术手段,能够保证任意一条记录的添加或删除,都不会影响最终的查询结果。传统的差分隐私研究集中在中心化差分隐私技术,即存在一个可信的服务器,可以搜集用户的数据并添加扰动。而实际应用中第三方数据收集者可能会窃取或泄漏用户的敏感信息,想要找到一个可信的第三方服务器较困难,本地化差分隐私技术应运而生。它将数据扰动从服务器移动到用户端,故不需要可信的第三方,可被应用于主流系统中来收集统计数据。
3.目前,本地化差分隐私下,隐私数据发布的研究主要在于低维数据类型,现有大多数方法均可取得较好的统计结果。高维数据是关系数据的扩展,在数据分析中有广泛应用,如个人购物数据,医院诊疗数据等。高维数据的发布也可以实现丰富的数据挖掘任务。由于高维数据蕴含大量的个人敏感信息,直接发布会泄漏用户的隐私,故需要在高维数据中得到统计结果的同时保护数据中的敏感信息。但当高维数据集包括d个属性时,关联性存在种,需要将隐私预算进行次划分,会带来很大的噪声,使得推理结果准确性降低。


技术实现要素:

4.有鉴于此,本公开的目的在于提出一种基于本地化差分隐私的高维数据发布方法及相关设备。
5.基于上述目的,本公开提供了一种基于本地化差分隐私的高维数据发布方法,包括:
6.接收待处理数据;其中,所述待处理数据是由用户端对高维数据进行扰动后得到的,所述高维数据和所述待处理数据均包括多种属性;
7.分别计算所述待处理数据中不同所述属性的边缘概率和联合概率;
8.根据所述边缘概率和所述联合概率计算不同所述属性间的互信息,根据所述互信息构建马尔可夫网,并根据所述马尔可夫网构建包括多个团的联合树;
9.分别计算每个所述团的分布,对所有所述团和对应的联合分布进行连接操作,以合成高维数据集。
10.基于同一发明目的,本公开还提供了一种基于本地化差分隐私的高维数据发布装置,包括:
11.数据接收模块,接收待处理数据;其中,所述待处理数据是由用户端对高维数据进行扰动后得到的,所述高维数据和所述待处理数据均包括多种属性;
12.概率计算模块,分别计算所述待处理数据中不同所述属性的边缘概率和联合概
率;
13.联合树构建模块,根据所述边缘概率和所述联合概率计算不同所述属性间的互信息,根据所述互信息构建马尔可夫网,并根据所述马尔可夫网构建包括多个团的联合树;
14.结果输出模块,分别计算每个所述团的分布,对所有所述团和对应的联合分布进行连接操作,以合成高维数据集。
15.基于同一发明目的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现基于本地化差分隐私的高维数据发布方法。
16.从上面所述可以看出,本公开提供的基于本地化差分隐私的高维数据发布方法及相关设备,在保留不同属性间的关联性的同时,解决了相关技术中存在的本地化差分隐私下高维数据的发布出现的通信量大,精度低的问题;同时也给出了基于变分自编码器的分布统计算法用来最小化边缘分布到联合分布的近似误差,从而缓解属性对增加对选择精度的影响,提高数据的可用性。
附图说明
17.为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1为本公开实施例提供的基于本地化差分隐私的高维数据发布方法的示意图;
19.图2为本公开实施例提供的对高维数据进行扰动的步骤示意图;
20.图3为本公开实施例提供的计算边缘概率和联合概率的步骤示意图;
21.图4a为本公开实施例提供的马尔可夫网的示意图;
22.图4b为本公开实施例提供的对马尔可夫网进行三角化操作的示意图;
23.图4c为本公开实施例提供的联合树的示意图;
24.图5为本公开实施例提供的基于本地化差分隐私的高维数据发布装置的示意图;
25.图6为本公开实施例提供的电子设备的示意图。
具体实施方式
26.为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
27.需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
28.差分隐私下高维数据发布首先需要克服维度增加带来的高维诅咒问题,要解决这个问题,重要手段是降维。当属性个数较多时,即维度较高,目前主要是将高维数据分解为多个低维数据来处理,以多个边缘概率通过推理机制来近似估计联合概率分布,其中主要是对属性之间的关联性进行判断。我们可知要在本地化差分隐私的条件下对高维数据进行
发布,首先降维方法应该在保留属性间的关系来克服选择精度随着属性对增多而线性地降低的缺陷,从而提高精度。
29.联合树是一种新的基于采样的方案,用于高维数据的发布,其中测试框架是通过通用阈值机制实现的,该机制是稀疏向量技术和阈值查询技术的扩展。通过马尔可夫网络来降维,然而经证明,联合树方法中稀疏向量技术不满足差分隐私,进而使整个高维数据发布方法不满足差分隐私。
30.本地化差分隐私在传统的中心化差分隐私定义的基础上,将数据的隐私化处理转移到每个用户上,进行更彻底的隐私保护。在本地化差分隐私模型中,每个用户对数据进行隐私保护,将处理后的数据发送给服务器,服务器再对收集到的数据进行统计。本地化差分隐私下数据分析模型如下:每个用户在本地将自己的数据v
i
用随机预言机进行扰动,得到报告z1…
z
n
,服务器在将其统计得到s,最后发送给数据分析者。
31.当用户端收集多个属性的高维数据记录后,将这些数据发送到服务器。攻击者可以攻击用户和服务器,轻松地访问在服务器上收集的用户数据,即高维数据中若有多个相关的属性,会易受到攻击,且服务器诚实且好奇;数据的发布也会使用户的数据受到威胁,这都使隐私容易被泄漏。所以需要服务器向第三方发布具有隐私保护的数据集,从而进行数据分析。
32.假设用户敏感数据包含d维属性,根据本地化差分隐私的性质,并行组合性可知,相互独立的数据集满足本地化差分隐私的并行组合性质。所以我们的目标是在满足本地化差分隐私下,中央服务器发布新的合成数据集,其中新的合成数据集与原有数据集同分布。即我们的问题可以简洁的表述为:p
d
*(a1…
a
d
)≈p
d
(a1…
a
d
)。
33.因此,如何在本地化差分隐私下保留属性之间的关联性并解决目前高维数据发布精度低、通信代价大的问题,便成为亟待解决的技术问题。
34.为解决上述问题,本公开提供了一种基于本地化差分隐私的高维数据发布方法及相关设备,服务器接收到经用户端扰动得到的待处理数据后,根据待处理数据中的不同属性分别计算边缘概率、联合概率和不同属性间的互信息,根据互信息构建马尔可夫网并对其处理得到联合树,根据联合树计算每个团的联合分布,对所有团和对应的联合分布采用迭代操作合成高维数据集输出,上述技术方案,解决了相关技术中存在的本地化差分隐私下高维数据的发布出现的通信量大,精度低的问题。
35.作为一个可选的实施例,参照图1,本公开提供的基于本地化差分隐私的高维数据发布方法,包括:
36.步骤s101,接收待处理数据;其中,所述待处理数据是由用户端对高维数据进行扰动后得到的,所述高维数据和所述待处理数据均包括多种属性。
37.本步骤中,本地差分隐私保护为了防止不可信的第三方服务器的隐私攻击,不允许服务器收集用户数据,而是用户和第三方服务器相互通信,在用户端对真实数据扰动后,发送给服务器,服务器聚合所有用户的加噪数据,来进行频数和均值统计,获得的统计数据即为本地化差分隐私保护模型的输出结果。
38.利用随机采样技术令每个用户端只发送高维数据的其中的一个数据项,然后利用本地化转换方法来进行数据扰动,将其发送给服务器,具体步骤如图2所示:
39.步骤s201,采用布隆过滤器将属性映射为字符串。
40.本步骤中,布隆过滤器中的哈希函数将属性(i为用户数,j为属性数)映射为字符串,即当对连续型数据进行处理时,需首先随机从[1,|ω
j
|]选择j,对每一项使用归一化到[

1,1],得到标准属性值nor[a
j
],再对得到的结果进行映射。
[0041]
其中,归一化方法为:找到原始数据的最小值min和最大值max;计算归一化系数:k=(1

(

1))/max

min;归一化到[

1,1]时得到的数据即为nor[a
j
]=

1+k(a
j

min)或nor[a
j
]=1+k(a
j

max)。
[0042]
步骤s202,采用布隆过滤器对字符串进行扰动。
[0043]
本步骤中,按下式对字符串进行随机扰动:
[0044][0045]
式中的f为关于隐私水平的可调参数,f∈(0,1)。
[0046]
步骤s203,将扰动后的字符串聚合并发送给服务器。
[0047]
本步骤中,扰动后的布隆过滤器的字符串聚合,连接所有属性的字符串可得到(d*m
j
)

bit的向量:在本地化差分隐私保证下,将其发送给服务器。
[0048]
步骤s102,分别计算所述待处理数据中不同所述属性的边缘概率和联合概率。
[0049]
本步骤中,利用基于变分自编码器的分布统计算法,从而最小化边缘分布到联合分布的近似误差,参照图3,具体步骤包括:
[0050]
步骤s301,计算先验概率。
[0051]
本步骤中,假设w
j
~n(0,i),即标准的正态分布,总的运算过程开始时根据w
j
计算初始概率后续的迭代过程中先验概率根据前一轮运算中的后验概率计算得到,其中ω
j
为属性a
j
的值域。
[0052]
步骤s302,计算每个属性的条件概率。
[0053]
本步骤中,根据其中为同样表示布隆过滤中的字符串,w
j
为具体候选属性值;可据此计算每个属性的条件概率
[0054]
步骤s303,计算不同属性的联合概率。
[0055]
本步骤中,联合概率可通过组合独立的属性来计算我们一般枚举属性之间的组合并计算联合概率。
[0056]
步骤s304,计算对应的后验概率。
[0057]
本步骤中,通过贝叶斯定理计算相应的后验概率。
[0058]
步骤s305,判断相对熵是否为0。
[0059]
本步骤中,相对熵即为kl散度,是用来度量同一个属性的先验概率p(x)和后验概率q(x)间的差异,计算式为:
[0060]
kl(p(x)||q(x))=∫p(x)ln p(x)q(x)dx=e
x~p(x)
[ln p(x)q(x)],
[0061]
相对熵为0即kl散度满足收敛条件,执行继续步骤s306,否则,由后验概率的平均值来更新得到新的先验概率并进行新一轮的条件概率、联合概率、后验概率和相对熵的运算,直到满足收敛条件,迭代结束。
[0062]
步骤s306,输出属性的边缘概率和联合概率。
[0063]
本步骤中,输出相对熵为0时对应的边缘概率和联合概率。
[0064]
步骤s103,根据所述边缘概率和所述联合概率计算不同所述属性间的互信息,根据所述互信息构建马尔可夫网,并根据所述马尔可夫网构建包括多个团的联合树。
[0065]
本步骤中,根据属性的互信息构建马尔可夫网,属性a
m
,a
n
之间的互信息计算式为:
[0066]
其中i∈dom(a
m
),j∈dom(a
n
),dom(a
m
),dom(a
n
)分别表示属性a
m
,a
n
的值域,pr(a
m
=i,a
n
=j)表示属性的联合分布概率,与表示a
m
和a
n
的所述边缘概率。
[0067]
构建好如图4a的马尔可夫网后,参照图4b对其进行三角化操作,得到完全团图和如图4c的联合树。其中,马尔可夫网g=(v,e)(v是顶点集,e是边的集合),根据团的定义,其中任意两个顶点之间都有边连接,三角化是对所有长度大于3的环引入弦的过程,之后依照属性下标顺序进行顶点消除,得到联合树。
[0068]
本公开的实施例中,将a4和a5连接,完成对图4a中的马尔可夫网的三角化。
[0069]
步骤s104,分别计算每个所述团的分布,对所有所述团和对应的联合分布进行连接操作,以合成高维数据集。
[0070]
本步骤中,采用计算边缘概率和联合概率的方法计算得到每个团、所述团之间的分割顶点的边缘分布和每个团的联合分布,还可以根据根据团和分割顶点边缘分布计算出某个属性的联合分布,假设属性a的联合分布为pr(a),其计算式为:
[0071]
其中,s
i,j
表示团c
i
和团c
j
的分割顶点,pr(c
i
)为团c
i
的边缘分布,pr(s
i,j
)为s
i,j
的边缘分布。
[0072]
从团集中随机抽样获得团和对应的联合分布,利用merge

join对所有团和其联合分布进行迭代操作,得到并输出高维数据集。
[0073]
本公开提供的基于本地化差分隐私的高维数据发布方法,在保留不同属性间的关
联性的同时,解决了现有技术存在的本地化差分隐私下高维数据的发布出现的通信量大,精度低的问题;同时也给出了基于变分自编码器的分布统计算法用来最小化边缘分布到联合分布的近似误差,从而缓解属性对增加对选择精度的影响,提高数据的可用性。
[0074]
需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
[0075]
需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0076]
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种基于本地化差分隐私的高维数据发布装置。
[0077]
参考图5,所述基于本地化差分隐私的高维数据发布装置,包括:
[0078]
数据接收模块501,接收待处理数据;其中,所述待处理数据是由用户端对高维数据进行扰动后得到的,所述高维数据和所述待处理数据均包括多种属性。
[0079]
概率计算模块502,分别计算所述待处理数据中不同所述属性的边缘概率和联合概率。
[0080]
联合树构建模块503,根据所述边缘概率和所述联合概率计算不同所述属性间的互信息,根据所述互信息构建马尔可夫网,并根据所述马尔可夫网构建包括多个团的联合树.
[0081]
结果输出模块504,分别计算每个所述团的分布,对所有所述团和对应的联合分布进行连接操作,以合成高维数据集。
[0082]
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
[0083]
上述实施例的装置用于实现前述任一实施例中相应的基于本地化差分隐私的高维数据发布方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0084]
基于同一发明构思,与上述任意实施例方法相对应的,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的基于本地化差分隐私的高维数据发布方法。
[0085]
图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
[0086]
处理器1010可以采用通用的cpu(central processing unit,中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
[0087]
存储器1020可以采用rom(read only memory,只读存储器)、ram(random access memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
[0088]
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0089]
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0090]
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
[0091]
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
[0092]
上述实施例的电子设备用于实现前述任一实施例中相应的基于本地化差分隐私的高维数据发布方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0093]
需要说明的是,本公开的实施例还可以以下方式进一步描述:
[0094]
一种基于本地化差分隐私的高维数据发布方法,包括:
[0095]
接收待处理数据;其中,所述待处理数据是由用户端对高维数据进行扰动后得到的,所述高维数据和所述待处理数据均包括多种属性;
[0096]
分别计算所述待处理数据中不同所述属性的边缘概率和联合概率;
[0097]
根据所述边缘概率和所述联合概率计算不同所述属性间的互信息,根据所述互信息构建马尔可夫网,并根据所述马尔可夫网构建包括多个团的联合树;
[0098]
分别计算每个所述团的分布,对所有所述团和对应的联合分布进行连接操作,以合成高维数据集。
[0099]
可选的,所述待处理数据是将采用随机响应技术扰动所有字符串的结果聚合得到的;
[0100]
所述字符串是所述用户端对所述高维数据的每个所述属性采用布隆过滤器转化得到的。
[0101]
可选的,若所述高维数据是连续型数据,所述待处理数据是通过将所述高维数据归一化到到[

1,1]区间,再对其进行扰动得到的;
[0102]
所述接收待处理数据,具体包括:对所述待处理数据进行均值统计,以对其归一化还原。
[0103]
可选的,所述分别计算所述待处理数据中不同所述属性的边缘概率和联合概率,包括:
[0104]
分别计算不同所述属性的初始概率作为先验概率,
[0105]
根据分别计算不同所述属性的条件概率其中,ω
j
为属性a
j
的值域,为所述字符串,i为用户数,j为属性数,w
j
为所述候选值,w
j
~n(0,i);
[0106]
枚举不同所述属性的组合并分别采用对应的所述条件概率计算所述联合概率;
[0107]
根据贝叶斯定理计算出与所述先验概率对应的后验概率;
[0108]
响应于确定根据所述先验概率和对应的所述后验概率计算得到的相对熵为0,所述后验概率即为不同所述属性的边缘概率。
[0109]
可选的,所述分别计算所述待处理数据中不同所述属性的边缘概率和联合概率,还包括:
[0110]
响应于确定所述相对熵不为0,根据所述后验概率的均值计算得到新的先验概率;
[0111]
采用新的先验概率进行所述条件概率、所述联合概率和新的所述后验概率的计算,并根据新的所述先验概率和新的所述后验概率计算新的所述相对熵;
[0112]
重复上述过程直到所述相对熵为0,并输出这一轮计算中对应的所述边缘概率和所述联合概率。
[0113]
可选的,所述根据所述边缘概率和所述联合概率计算不同属性的互信息,根据所述互信息构建马尔可夫网,并根据所述马尔可夫网构建包括多个团的联合树,包括:
[0114]
分别计算两个不同所述属性间的互信息,
[0115][0116]
其中,i∈dom(a
m
),j∈dom(a
n
),dom(a
m
),dom(a
n
)分别表示所述属性a
m
和a
n
的值域,pr(a
m
=i,a
n
=j)表示a
m
和a
n
的所述联合概率,与表示a
m
和a
n
的所述边缘概率。
[0117]
可选的,所述根据所述边缘概率和所述联合概率计算不同属性的互信息,根据所述互信息构建马尔可夫网,并根据所述马尔可夫网构建包括多个团的联合树,还包括:
[0118]
对所述马尔可夫网进行三角化,即对所述马尔可夫网内所有长度大于3的环引入弦得到包含有多个所述团的完全团图;
[0119]
对所述完全团图按照所述属性的下标顺序进行顶点消除,得到所述联合树;其中,所有所述团被包括在团集中。
[0120]
可选的,所述分别计算每个所述团的分布,对所有所述团和对应的联合分布进行连接操作,以合成高维数据集,包括:
[0121]
采用计算所述边缘概率和所述联合概率的方法计算得到每个所述团、所述团之间的分割顶点的边缘分布和每个所述团的联合分布;
[0122]
从所述团集随机抽样获得所述团和对应的所述联合分布,利用merge

join对所有所述团进行所述迭代操作,得到所述高维数据集。
[0123]
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
[0124]
另外,为简化说明和讨论,并且为了不会使本公开实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本公开实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此,这些描述应被认为是说明性的而不是限制性的。
[0125]
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的实施例。
[0126]
本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本公开实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1