1.一种基于互信息相关技术的差分隐私动态数据发布方法,其特征在于,包括以下步骤:
11)动态数据流的获取:获取待处理的动态数据流;
12)动态数据流的分割:利用滑动窗口技术对动态数据流进行分割,使数据以静态方式展示在滑动窗口中;
13)初始聚类处理:随机抽取滑动窗口内的数据,对其进行初始聚类,计算初始聚类中每个簇的分形维数;
14)待发布分组的形成:对滑动窗口内的剩余数据进行分形维数聚类,利用互信息计算每个聚类成员的权值,选择符合条件的聚类成员,对每个聚类成员的聚类结果进行按类统计,形成待发布分组;
15)分组数据的发布:对待发布分组的数据进行拉普拉斯加噪,发布加噪后的分组数据;
对每个聚类成员的每个簇的统计分组结果进行拉普拉斯加噪,
16)差分隐私动态数据的发布:当某个聚类成员的分组数据的数量达到滑动窗口大小时,滑动窗口向前平移,重复初始聚类处理、待发布分组的形成和分组数据的发布步骤,完成差分隐私动态数据的发布。
2.根据权利要求1所述的一种基于互信息相关技术的差分隐私动态数据发布方法,其特征在于,所述初始聚类处理包括以下步骤:
21)抽取滑动窗口内70%-90%的数据量,对其进行初始聚类:
将从第d个数据集xd抽取出的部分数据组成数据集xd',对其进行h次初始聚类,得到h个初始聚类结果,组成聚类结果集λ={λ1,λ2,...,λi,...,λh},λi表示第i次聚类结果;
22)若将初始聚类的簇数设置为k个,则第i次聚类结果λi中每个簇分别记为
其中,计算每个簇的分形维数的公式为:
式中,r表示覆盖数据空间所用的盒子边长,r1表示最小边长,r2表示最大边长;q表示阶数,取值可以不同,当q=0时,表示该维数是豪斯道夫维数,当q=1时,表示该维数是信息维数,当q=2时,表示该维数是关联维数;
3.根据权利要求1所述的一种基于互信息相关技术的差分隐私动态数据发布方法,其特征在于,所述待发布分组的形成包括以下步骤:
31)对滑动窗口内的剩余数据,抽取其中的每一个数据点e,将它加入到每一个初始聚类的簇中,得到
其中
32)分别计算加入新的数据点e后组成新的簇的分形维数;
33)计算加入数据点前后的分形影响度vi,其计算公式如下:
式中,
34)找到每一个数据点e加入后分形影响度最小的簇,若其对应的分形影响度小于给定阈值δ,则认为数据点e属于该簇,加入该簇中;若数据点e未找到任何符合的簇,则将其判定为离群点;
35)利用互信息计算每个聚类成员的权值;
36)当聚类成员的权值小于给定阈值μ时,舍弃,留下权值大于μ的聚类成员,得到部分聚类成员λ'={λ′1,λ′2,...,λ′i,...,λ'h}。
4.根据权利要求3所述的一种基于互信息相关技术的差分隐私动态数据发布方法,其特征在于,所述利用互信息计算每个聚类成员的权值为:
设定计算互信息的公式为:
式中,λp和λq表示聚类成员,p,q为整数,且1≤p,q≤h,n表示数据集大小,k表示聚类的簇数,ni表示聚类成员λp中属于第i个簇的数据点的数量,nj表示聚类成员λq中属于第j个簇的数据点的数量,nij表示聚类成员λp中第i个簇和聚类成员λq中第j个簇之间所含有的相同数据点的数量;
计算平均互信息的公式为:
式中,αi表示第i个聚类成员的平均互信息;
计算聚类成员的权值的公式为:
式中,