一种基于K-means++结合肘部法自主聚类技术的动态数据差分隐私直方图发布方法与流程

文档序号：23419233发布日期：2020-12-25 11:41阅读：来源：国知局

技术特征：

1.一种基于k-means++结合肘部法自主聚类技术的动态数据差分隐私直方图发布方法，其特征在于，包括以下步骤：

11)动态数据的获取：获取待进行差分隐私直方图处理的动态数据流；

12)利用滑动窗口进行数据流的分割：将一个长度为t的动态数据流分割成t个时间戳上的数据点，即d＝{x1,x2,…xt}，将数据流以静态方式展示在窗口中，随着数据的流入，数据量达到窗口大小时，窗口向前平移进行分割，形成窗口数据；

13)初始待发布分组的形成：通过肘部法利用相邻斜率比自动获取最优k值的k-means++聚类方法对初始窗口数据进行聚类，形成初始待发布分组h＝{c1,c2,…,ck}；

14)通过分形维数和分组融合获取待发布分组：对k-means++聚类后形成的初始待发布分组进行分形维数计算，通过分形影响度对新数据分类，再通过分组融合获得待发布分组hd＝{c’1,c’2,…,c’p}；

15)通过差分隐私完成直方图发布：对待发布分组添加laplace噪声，发布动态数据差分隐私直方图hl＝{c’l1,c’l2,…,c’ln}。

2.根据权利要求1所述的一种基于k-means++结合肘部法自主聚类技术的动态数据差分隐私直方图发布方法，其特征在于，所述初始待发布分组的形成包括以下步骤：

21)依次设置聚类个数即k值，k＝1,2,3…n；

22)从窗口内数据中随机选取一个点作为初始聚类的中心c1；

23)计算每个样本xi与已有聚类中心点的距离d(x)；

根据d(x)计算每个样本点被选取作为下一个聚类中心的概率，用轮盘法选出下一个聚类中心；

直到选择出k个聚类中心点；

24)通过k-means++迭代输出每个k的聚类结果；

25)对每一个k值聚类记下对应的误差平方和sse，并画出k和sse的关系图；

26)记录各点的坐标(xi,yi),计算k和sse的关系图中各点间的斜率；

设k＝1的点和k＝2的点之间的斜率并从k＝2开始比较每个点与前后相邻点斜率之比其中为最大值时(xi,yi)为图形肘部点；

若出现斜率比ri小于阈值d，则k停止迭代，选择其图形肘部点作为最优k值；

27)通过获取的最优k值选择对应的聚类结果，形成初始待发布分组h＝{c1,c2,…,ck}。

3.根据权利要求1所述的一种基于k-means++结合肘部法自主聚类技术的动态数据差分隐私直方图发布方法，其特征在于，所述通过分形维数和分组融合获取待发布分组包括以下步骤：

31)计算初始待发布分组h＝{c1,c2,…,ck}中每个桶ci的分形维数di，ci包含若干个数据点，桶数即肘部法自动获取的最优聚类个数k；

32)将新流入的数据点e加入到初始发布分组中的每个桶中，计算加入数据点后每个桶的分形维数d’i；

并计算其分形影响度vi＝|d’i-di|；

若加入e后分形影响度vi最小，则e属于该桶，并从其余桶中删除数据点e；

33)采用相似桶融合并求均值，以融合桶的均值作为新的统计结果：c’＝(ci+ci+1)/2；获得待发布分组hd＝{c’1,c’2,…,c’p}。

技术总结
本发明涉及一种基于K‑means++结合肘部法自主聚类技术的动态数据差分隐私直方图发布方法，与现有技术相比解决了无法启发式地发布直方图、隐私数据可用性低、发布效率低的缺陷。本发明包括以下步骤：动态数据的获取；利用滑动窗口进行数据流的分割；初始待发布分组的形成；通过分形维数和分组融合获取待发布分组；通过差分隐私完成直方图发布。本发明解决了启发式发布直方图的缺陷，优化了分组结果，提高了发布效率，可保证动态数据隐私安全同时降低发布误差，改善数据可用性；使得动态数据的差分隐私直方图发布更加安全、可用、高效且智能。

技术研发人员：刘胜军;陈千;倪志伟;谢飞;周芳;朱旭辉;倪丽萍
受保护的技术使用者：合肥城市云数据中心股份有限公司
技术研发日：2020.09.24
技术公布日：2020.12.25

完整全部详细技术资料下载

当前第2页1 2