1.一种多元数据微融合的方法,其特征在于,包括如下步骤:
步骤一,多元变量数据集X={x1,x2,...,xN},其中每一个数据元素xi是一个n元变量xi={yi1,yi2,...,yin},为了匿名保护,将数据集X分组,每一组的数据数量不小于k;
步骤二,计算数据集的全局中心以及各个数据之间的欧式距离;
步骤三,判断数据集中剩余数据的数量,如果小于k,转到步骤六,否则计算距离全局中心最远的数据,并生成一个新的分组;
步骤四,依次选择距离分组数据中心最近的数据加入到分组,新的数据加入后重新计算分组中心,直至分组数据数量为k;
步骤五,对分组进行扩展,使用分组的中心判断新的数据是否加入,并保证每一个分组的数量不超过2k-1,转至步骤二;
步骤六,将剩余的数据分别添加到信息损失增加最小的分组,并输出分组结果。
2.根据权利要求1所述的多元数据微融合的方法,其特征在于,所述步骤一包括如下步骤:
步骤1.1,数据集大小N远大于k,分组的目的为了保护匿名隐私,信息损失衡量分组带来的数据信息丢失程度,信息损失越小数据的保真度越高;
步骤1.2,假设得到Nk个分组G={g1,g2,...,gNk},对于分组gi,其组内平方和为:
其中ni为数据数量,T是转置,xij与分别为gi中第j个元素和中心,所有的组内平方和为:
SSE描述了数据分组后的一致性;
步骤1.3,数据集X的所有平方和为:
其中为数据集的全局中心,可以知道SST与数据的分组无关,当数据集给定后SST也就确定了;
步骤1.4,分组的信息损失定义为SSE与SST的比值:
可以知道IL仅与SSE相关,最小化IL只需要最小SSE。
3.根据权利要求1所述的多元数据微融合的方法,其特征在于,所述步骤二包括如下步骤:
步骤2.1,对于数据集X,其全局中心为:
即:
步骤2.2,对于数据集X中的任意两个元素xi,xj其欧式距离定义为:
4.根据权利要求1所述的多元数据微融合的方法,其特征在于,所述步骤四包括如下步骤:
步骤4.1,对于分组gi,假设已经有ni个数据,则该分组的中心为:
选择距离最近的数据加入到分组gi中,并更新直至gi的数据数量为k;
步骤4.2,对于分组gi,其中心的更新按照如下方式:
其中x′是新加入的数据;
步骤4.3,选择距离分组中心最近的数据元素加入是为了减少信息损失的增加量,假设x′需要加入到分组gi中,原组内平方和ssei为:
当x′加入时,组内平方和变为:
这里将x′看做是第(ni+1)个元素,那么组内平方和的增加为:
即,选择距离分组中心最近的数据加入能够减少组内平方和的增加,也就减少信息损失的增加。
5.根据权利要求1所述的多元数据微融合的方法,其特征在于,所述步骤五包括如下步骤:
步骤5.1,在每个分组数据数量不小k时,最优分组大小应该在k与2k-1之间,因此,在扩展分组的大小时不能超过2k-1;
步骤5.2,假设距离gi中心最近的数据为xout,其距离为在没有被加入分组的数据集中,距离xout最近距离为dout,如果满足:
则将xout加入到gi;
步骤5.3,当上式不满足或者分组大小到达2k-1则终止。
6.根据权利要求1所述的多元数据微融合的方法,其特征在于,所述步骤六包括如下步骤:
步骤6.1,对于剩余的数据,比较其距离已有的分组的中心,选择最小的分组加入;
步骤6.2,其中是数据加入分组时组内平方和增加的系数,加入后更新该分组的中心。