一种多元数据微融合的方法与流程

文档序号：12272099阅读：662来源：国知局

本发明涉及数据挖掘领域，具体地，涉及一种数据匿名保护的方法。

背景技术：

现实生活中，有很多数据需要公开作为人们的参考，常见的有医疗数据，人们的部分日常健康数据，地理位置数据等等，而这些数据本身可能与用户的信息相关，比如有研究表明人们日常活动的地理信息直接与其身份相关。不加保护的直接公布用户的信息会导致严重的隐私泄露，危害用户的隐私安全。

基于用户隐私的考虑，Latanya Sweeney在2002年International Journal of Uncertainty,Fuzziness and Knowledge-Based Systems上发表了k-ANONYMITY:A MODEL FOR PROTECTING PRIVACY(k匿名：保护数据隐私的一个模型)提出了k匿名的概念。k匿名要求将用户的某种数据与其他至少k-1个人的数据组合在一起发表，这样恶意用户就不能分别其中一个数据和剩余的k-1个数据的区别，实现了用户隐私数据的保护。然而，在隐私保护的同时，会带来数据信息损失，以地理位置的隐私保护来说，关于地理位置的k匿名保护包含位置隐藏，提交噪声，信息存储等等，这些在LBS系统中和群智系统中都有研究。为了保护用户的地理位置隐私，地理位置常常会被过度处理，使得处理后的位置与原本的位置相差很大，处理后的位置保护的隐私但是不能传递该有的信息。因此，在保护数据k匿名隐私的同时减少处理带来的信息损失是非常必要的。

对现有技术进行检索发现，Josep Domingo-Ferrer等在2002年IEEE Transactions on Knowledge and Data Engineering上发表的Practical data-oriented microaggregation for statistical disclosure control(实际数据导向的微融合以控制统计泄露)中提出了一种保护k匿名的微融合技术，并表明多元数据的微融合是NP-hard，最优的结果中每个分组的大小在k与2k-1之间，基于该文的结果，文章作者在后续的研究中提出了MDAV方法微融合多元数据，该方法因为固定的分组大小和简单的分组机制，使得分组带来的信息损失仍然较大。Agusti Solanas等在2006年COMPSTAT Symposium of the IASC上发表的V-MDAV:a multivariate microaggregation with variable group size(V-MDAV：一种多元变量的微融合并允许可变组大小)中基于MDAV提出了可变分组的思想，但是该分组方式较为简单只能一定程度上减少信息损失。George Kokolakis等在2009年在Computational Statistics Data Analysis中发表的Importance partitioning in microaggregation中提出了IP方法以分组中心决定加入的下一个数据，但是仍然是固定的分组大小，只能在一定程度上降低信息损失。

技术实现要素：

针对现有技术中的缺陷，本发明的目的是提出一种多元数据微融合方法，通过可变分组大小与比较数据与分组中心距离，实现信息损失的降低。

为达到上述目的，本发明所采用的技术方案如下：

一种多元数据微融合的方法，多元数据X＝{x₁,x₂,...,x_N}，每一个数据元素可以表示为x_i＝{y_i1,y_i2,...,y_in}：包括如下步骤：

步骤一，为了匿名保护，需要将数据集X分组，每一组的数据数量不小于k，在完成分组的同时需要尽量减少因为分组带来的信息损失：

步骤二，计算数据集的全局中心以及各个数据之间的欧式距离；

步骤三，判断数据集中剩余数据的数量，如果小于k，转到步骤六，否则计算距离全局中心最远的数据，并生成一个新的分组；

步骤四，依次选择距离分组数据中心最近的数据加入到分组，新的数据加入后重新计算分组中心，直至分组数据数量为k；

第五步，对分组进行扩展，使用分组的中心判断新的数据是否加入，并保证每每一个分组的数量不超过2k-1，转至步骤二；

步骤六，将剩余的数据分别添加到信息损失增加最小的分组，并输出分组结果。

步骤一包括：

步骤1.1，数据集大小N远大于k,分组的目的为了保护匿名隐私，信息损失衡量分组带来的数据信息丢失程度，信息损失越小数据的保真度越高；

步骤1.2，假设得到N_k个分组对于分组g_i，其组内平方和为：

其中n_i为数据数量，T是转置，x_ij与分别为g_i中第j个元素和中心。所有的组内平方和为：

SSE描述了数据分组后的一致性。

步骤1.3，数据集X的所有平方和为：

其中为数据集的全局中心，可以知道SST与数据的分组无关，当数据集给定后SST也就确定了；

步骤1.4，分组的信息损失定义为SSE与SST的比值：

可以知道IL仅与SSE相关，最小化IL只需要最小SSE。

步骤二包括：

步骤2.1，对于数据集X，其全局中心为：

即：

步骤2.2，对于数据集X中的任意两个元素x_i,x_j其欧式距离定义为：

步骤三，计算数据集中剩余的数据数量，如果数量小于k则转到步骤六，否则选取距离最远的数据x_i，并生成新的分组。

步骤四包括：

步骤4.1，对于分组g_i，假设已经有n_i个数据，则该分组的中心为：

选择选择距离最近的数据加入到分组g_i中，并跟新直至g_i的数据数量为k；

步骤4.2,对于分组g_i，其中心的更新按照如下方式：

其中x′是新加入的数据；

步骤4.3，选择距离分组中心最近的数据元素加入是为了减少信息损失的增加量，假设x′需要加入到分组g_i中，原组内平方和sse_i为：

当x′加入时，组内平方和变为：

这里将x′看做是第(n_i+1)个元素，那么组内平方和的增加为：

这就是说选择距离分组中心最近的数据加入可以减少组内平方和的增加，也就是减少信息损失的增加。

步骤五包括：

步骤5.1，在每个分组数据数量不小k时，最优分组大小应该在k与2k-1之间，因此在扩展分组的大小不能超过2k-1；

步骤5.2，假设距离g_i中心最近的数据为x_out，其距离为在没有被加入分组的数据集中，距离x_out最近距离为d_out，如果满足：

则将x_out加入到g_i；

步骤5.3，当上式不满足或者分组大小到达2k-1则终止。

步骤六包括：

步骤6.1，对于剩余的数据，比较其距离已有的分组的中心，选择最小的分组加入；

步骤6.2，其中是数据加入分组时组内平方和增加的系数，加入后更新该分组的中心。

与现有技术相比，本发明具有如下有益效果：

第一，每一个分组的数据数量不小于k保证了数据匿名的需求，同时可以在多项式时间内得到结果；

第二，相比较已有方法，本发明可以进一步减少因数据保护带来的信息损失。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的工作流程图；

图2为本发明的微融合地理位置的实例；

图3是本发明的伪码；

图4是本发明的部分结果演示。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明利用可变分组大小和以分组中心为参考点选择新的加入数据实现了数据匿名保护的同时尽量降低信息损失租车的智能调度。

参见图1，图2，和图3，下面更详细地将本发明的实施过程进行阐述。

第一步，为了匿名保护，需要将数据集X分组，每一组的数据数量不小于k，在完成分组的同时需要尽量减少因为分组带来的信息损失，对于分组g_i，其组内平方和为：

其中n_i为数据数量，T是转置，x_ij与分别为g_i中第j个元素和中心。所有的组内平方和为：

第二步，计算数据集的全局中心与以及任意两个元素x_i,x_j其欧式距离

第三步，判断数据集中剩余数据的数量，如果小于k，转到第六步，否则计算距离全局中心最远的数据，并生成一个新的分组；计算数据集中剩余的数据数量，如果数量小于k则转到步骤六，否则选取距离最远的数据x_i，并生成新的分组。

第四步，依次选择距离分组数据中心最近的数据加入到分组，新的数据加入后重新计算分组中心，直至分组数据数量为k；对于分组g_i，假设已经有n_i个数据，则该分组的中心为假设x′需要加入到分组g_i中，原组内平方和sse_i为：

当x′加入时，组内平方和变为：

这里将x′看做是第(n_i+1)个元素，那么组内平方和的增加为：

这就是说选择距离分组中心最近的数据加入可以减少组内平方和的增加，也就是减少信息损失的增加。

第五步，对分组进行扩展，使用分组的中心判断新的数据是否加入，并保证每每一个分组的数量不超过2k-1，转至第二步；假设距离g_i中心最近的数据为x_out，其距离为在没有被加入分组的数据集中，距离x_out最近距离为d_out，如果满足：

则将x_out加入到g_i；当上式不满足或者分组大小到达2k-1则终止。

步骤六，将剩余的数据分别添加到信息损失增加最小的分组，并输出分组结果，选择最小的分组加入。

图4所示，本发明一个实施例具体地展示系统的工作流程和实际效果。本实施例采用http://crawdad.org/cmu/supermarket/20140527中的数据集，该数据集包含有室内定位的两个坐标，为了保留大量重复的数据，对原有数据添加小的噪声。此外合成一个在50*50范围内的地理位置数据集，并对数据实现k＝3,4,5的匿名保护，计算匿名保护后的组内平方和，并与MDAV，V-MMAD以及IP做对比。该数据的结果是在一天配置32G内存i7处理器的Windows电脑上得到的。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王雄;刘哲;田晓华;甘小莺;王新兵;
技术所有人：上海交通大学;
我是此专利的发明人

上一篇：一种数据库内容加密方法及系统与流程
上一篇：一种信息处理方法及电子设备与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。