大数据轮廓类的挖掘方法与流程

文档序号：12786488阅读：来源：国知局

技术特征：

1.一种大数据轮廓类的挖掘方法，其特征在于，首先给出了轮廓类以及k路轮廓层次树的表示方法，然后在处理轮廓查询的过程中，将获得的各轮廓对象的位置信息组织成一棵k路轮廓层次树，从而在基于密度聚类轮廓对象集的过程中，使用k路轮廓层次树的多个有效剪枝性质来快速产生所有的轮廓类。

2.如权利要求1所述的方法，其特征在于，包括如下步骤：

步骤1、轮廓类表示

为了直观表示现实应用中大数据的集聚特征，给出轮廓类的表示方法，如定义1所示；

所述定义1(轮廓类).假定R是k维对象全集，如果对象集SC满足如下4个条件,那么称SC为一个轮廓类:

在定义1的轮廓类表示方法中，条件1)的为R的轮廓对象集合，条件2)和4)中的表示p密度可达r，而条件3)中表示p不密度可达r；密度可达见定义2所示；

所述定义2(密度可达).假定R是k维对象全集，给定用户距离参数d，如果存在一个核心轮廓对象链p₁,p₂,…,p_n,p₁＝q,p_n＝p,对于i∈[1,n],p_i+1与p_i间是直接密度可达的，那么称q与p是密度可达的；把p密度可达r，记为同时,将p没有密度可达r，记为

在定义2中，直接密度可达见定义3所示；

所述定义3(核心轮廓对象及直接密度可达).假定R是k维对象全集，给定相似度阈值参数w以及数量阈值u，如果对象p满足如下条件,那么我们称p(a₁,…,a_k)为核心轮廓对象:

2)与r的相似度sim(p,r)超过给定的相似度阈值w；

3)条件2)中r的数量超过给定的数量阈值u；

如果p为核心轮廓对象，那么我们称p直接密度可达r；

步骤2、k路轮廓层次树表示

为了在大数据环境下快速产生所有的轮廓类，给出k路轮廓层次树表示方法，如定义4所示；

所述定义4(k路轮廓层次树).树结构T(ND,ED)是一棵k路轮廓层次树,如果它满足如下4个性质(其中ND为树节点的集合,而ED为边的集合):

1)T是一棵k叉树；

在定义4的k路轮廓层次树表示方法中，表示多维坐标系原点，Anc(q)为q的祖先节点集合，Desc(p)为p的子孙节点集合，Cht(p,γ)表示p的的γ叉子树，sim为相似度函数；

3、构造k路轮廓层次树

从k维大数据对象集合R＝{o₁,…,o_n}中，构造并生成k路轮廓层次树实例SLT-k；

4、产生轮廓类

基于步骤3生成的k路轮廓层次树实例SLT-k，利用k路轮廓层次树的4个性质快速产生所有的轮廓类。

3.如权利要求2所述的方法，其特征在于，步骤2中，所述四个性质:

性质1)要求k路轮廓层次树的每个节点至多含有k棵子树；性质2)要求如果q在p的第γ叉子树上，那么，所有不在q第γ叉子树上的(q的)子孙节点r与p间的相似度应大于q与p间的相似度,反之,所有在q第γ叉子树上的(q的)子孙节点r与p间的相似度应小于q与p间的相似度；性质3)要求如果q和r处于p的不同分支子树上,那么q与r间的相似度应小于q与p以及r与p间的相似度；性质4)要求节点p到多维空间原点的相似度应大于所有p的子孙节点q到坐标原点的相似度。

完整全部详细技术资料下载

当前第2页1 2 3