1.一种基于k-means++结合肘部法自主聚类技术的动态数据差分隐私直方图发布方法,其特征在于,包括以下步骤:
11)动态数据的获取:获取待进行差分隐私直方图处理的动态数据流;
12)利用滑动窗口进行数据流的分割:将一个长度为t的动态数据流分割成t个时间戳上的数据点,即d={x1,x2,…xt},将数据流以静态方式展示在窗口中,随着数据的流入,数据量达到窗口大小时,窗口向前平移进行分割,形成窗口数据;
13)初始待发布分组的形成:通过肘部法利用相邻斜率比自动获取最优k值的k-means++聚类方法对初始窗口数据进行聚类,形成初始待发布分组h={c1,c2,…,ck};
14)通过分形维数和分组融合获取待发布分组:对k-means++聚类后形成的初始待发布分组进行分形维数计算,通过分形影响度对新数据分类,再通过分组融合获得待发布分组hd={c’1,c’2,…,c’p};
15)通过差分隐私完成直方图发布:对待发布分组添加laplace噪声,发布动态数据差分隐私直方图hl={c’l1,c’l2,…,c’ln}。
2.根据权利要求1所述的一种基于k-means++结合肘部法自主聚类技术的动态数据差分隐私直方图发布方法,其特征在于,所述初始待发布分组的形成包括以下步骤:
21)依次设置聚类个数即k值,k=1,2,3…n;
22)从窗口内数据中随机选取一个点作为初始聚类的中心c1;
23)计算每个样本xi与已有聚类中心点的距离d(x);
根据d(x)计算每个样本点被选取作为下一个聚类中心的概率,用轮盘法选出下一个聚类中心;
直到选择出k个聚类中心点;
24)通过k-means++迭代输出每个k的聚类结果;
25)对每一个k值聚类记下对应的误差平方和sse,并画出k和sse的关系图;
26)记录各点的坐标(xi,yi),计算k和sse的关系图中各点间的斜率;
设k=1的点和k=2的点之间的斜率
若出现斜率比ri小于阈值d,则k停止迭代,选择其图形肘部点作为最优k值;
27)通过获取的最优k值选择对应的聚类结果,形成初始待发布分组h={c1,c2,…,ck}。
3.根据权利要求1所述的一种基于k-means++结合肘部法自主聚类技术的动态数据差分隐私直方图发布方法,其特征在于,所述通过分形维数和分组融合获取待发布分组包括以下步骤:
31)计算初始待发布分组h={c1,c2,…,ck}中每个桶ci的分形维数di,ci包含若干个数据点,桶数即肘部法自动获取的最优聚类个数k;
32)将新流入的数据点e加入到初始发布分组中的每个桶中,计算加入数据点后每个桶的分形维数d’i;
并计算其分形影响度vi=|d’i-di|;
若加入e后分形影响度vi最小,则e属于该桶,并从其余桶中删除数据点e;
33)采用相似桶融合并求均值,以融合桶的均值作为新的统计结果:c’=(ci+ci+1)/2;获得待发布分组hd={c’1,c’2,…,c’p}。