1.一种大数据轮廓类的挖掘方法,其特征在于,首先给出了轮廓类以及k路轮廓层次树的表示方法,然后在处理轮廓查询的过程中,将获得的各轮廓对象的位置信息组织成一棵k路轮廓层次树,从而在基于密度聚类轮廓对象集的过程中,使用k路轮廓层次树的多个有效剪枝性质来快速产生所有的轮廓类。
2.如权利要求1所述的方法,其特征在于,包括如下步骤:
步骤1、轮廓类表示
为了直观表示现实应用中大数据的集聚特征,给出轮廓类的表示方法,如定义1所示;
所述定义1(轮廓类).假定R是k维对象全集,如果对象集SC满足如下4个条件,那么称SC为一个轮廓类:
1)
2)
3)
4)
在定义1的轮廓类表示方法中,条件1)的为R的轮廓对象集合,条件2)和4)中的
表示p密度可达r,而条件3)中
表示p不密度可达r;密度可达见定义2所示;
所述定义2(密度可达).假定R是k维对象全集,给定用户距离参数d,如果存在一个核心轮廓对象链p1,p2,…,pn,p1=q,pn=p,对于i∈[1,n],pi+1与pi间是直接密度可达的,那么称q与p是密度可达的;把p密度可达r,记为
同时,将p没有密度可达r,记为
在定义2中,直接密度可达见定义3所示;
所述定义3(核心轮廓对象及直接密度可达).假定R是k维对象全集,给定相似度阈值参数w以及数量阈值u,如果对象p满足如下条件,那么我们称p(a1,…,ak)为核心轮廓对象:
1)
2)与r的相似度sim(p,r)超过给定的相似度阈值w;
3)条件2)中r的数量超过给定的数量阈值u;
如果p为核心轮廓对象,那么我们称p直接密度可达r;
步骤2、k路轮廓层次树表示
为了在大数据环境下快速产生所有的轮廓类,给出k路轮廓层次树表示方法,如定义4所示;
所述定义4(k路轮廓层次树).树结构T(ND,ED)是一棵k路轮廓层次树,如果它满足如下4个性质(其中ND为树节点的集合,而ED为边的集合):
1)T是一棵k叉树;
2)
3)
4)
在定义4的k路轮廓层次树表示方法中,表示多维坐标系原点,Anc(q)为q的祖先节点集合,Desc(p)为p的子孙节点集合,Cht(p,γ)表示p的的γ叉子树,sim为相似度函数;
3、构造k路轮廓层次树
从k维大数据对象集合R={o1,…,on}中,构造并生成k路轮廓层次树实例SLT-k;
4、产生轮廓类
基于步骤3生成的k路轮廓层次树实例SLT-k,利用k路轮廓层次树的4个性质快速产生所有的轮廓类。
3.如权利要求2所述的方法,其特征在于,步骤2中,所述四个性质:
性质1)要求k路轮廓层次树的每个节点至多含有k棵子树;性质2)要求如果q在p的第γ叉子树上,那么,所有不在q第γ叉子树上的(q的)子孙节点r与p间的相似度应大于q与p间的相似度,反之,所有在q第γ叉子树上的(q的)子孙节点r与p间的相似度应小于q与p间的相似度;性质3)要求如果q和r处于p的不同分支子树上,那么q与r间的相似度应小于q与p以及r与p间的相似度;性质4)要求节点p到多维空间原点的相似度应大于所有p的子孙节点q到坐标原点
的相似度。