大数据轮廓类的挖掘方法与流程

文档序号:12786488阅读:来源:国知局

技术特征:

1.一种大数据轮廓类的挖掘方法,其特征在于,首先给出了轮廓类以及k路轮廓层次树的表示方法,然后在处理轮廓查询的过程中,将获得的各轮廓对象的位置信息组织成一棵k路轮廓层次树,从而在基于密度聚类轮廓对象集的过程中,使用k路轮廓层次树的多个有效剪枝性质来快速产生所有的轮廓类。

2.如权利要求1所述的方法,其特征在于,包括如下步骤:

步骤1、轮廓类表示

为了直观表示现实应用中大数据的集聚特征,给出轮廓类的表示方法,如定义1所示;

所述定义1(轮廓类).假定R是k维对象全集,如果对象集SC满足如下4个条件,那么称SC为一个轮廓类:

1)

2)

3)

4)

在定义1的轮廓类表示方法中,条件1)的为R的轮廓对象集合,条件2)和4)中的表示p密度可达r,而条件3)中表示p不密度可达r;密度可达见定义2所示;

所述定义2(密度可达).假定R是k维对象全集,给定用户距离参数d,如果存在一个核心轮廓对象链p1,p2,…,pn,p1=q,pn=p,对于i∈[1,n],pi+1与pi间是直接密度可达的,那么称q与p是密度可达的;把p密度可达r,记为同时,将p没有密度可达r,记为

在定义2中,直接密度可达见定义3所示;

所述定义3(核心轮廓对象及直接密度可达).假定R是k维对象全集,给定相似度阈值参数w以及数量阈值u,如果对象p满足如下条件,那么我们称p(a1,…,ak)为核心轮廓对象:

1)

2)与r的相似度sim(p,r)超过给定的相似度阈值w;

3)条件2)中r的数量超过给定的数量阈值u;

如果p为核心轮廓对象,那么我们称p直接密度可达r;

步骤2、k路轮廓层次树表示

为了在大数据环境下快速产生所有的轮廓类,给出k路轮廓层次树表示方法,如定义4所示;

所述定义4(k路轮廓层次树).树结构T(ND,ED)是一棵k路轮廓层次树,如果它满足如下4个性质(其中ND为树节点的集合,而ED为边的集合):

1)T是一棵k叉树;

2)

3)

4)

在定义4的k路轮廓层次树表示方法中,表示多维坐标系原点,Anc(q)为q的祖先节点集合,Desc(p)为p的子孙节点集合,Cht(p,γ)表示p的的γ叉子树,sim为相似度函数;

3、构造k路轮廓层次树

从k维大数据对象集合R={o1,…,on}中,构造并生成k路轮廓层次树实例SLT-k;

4、产生轮廓类

基于步骤3生成的k路轮廓层次树实例SLT-k,利用k路轮廓层次树的4个性质快速产生所有的轮廓类。

3.如权利要求2所述的方法,其特征在于,步骤2中,所述四个性质:

性质1)要求k路轮廓层次树的每个节点至多含有k棵子树;性质2)要求如果q在p的第γ叉子树上,那么,所有不在q第γ叉子树上的(q的)子孙节点r与p间的相似度应大于q与p间的相似度,反之,所有在q第γ叉子树上的(q的)子孙节点r与p间的相似度应小于q与p间的相似度;性质3)要求如果q和r处于p的不同分支子树上,那么q与r间的相似度应小于q与p以及r与p间的相似度;性质4)要求节点p到多维空间原点的相似度应大于所有p的子孙节点q到坐标原点的相似度。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1