一种大数据分析提取方法

文档序号:8445646阅读:479来源:国知局
一种大数据分析提取方法
【技术领域】
[0001]本发明涉及大数据分析,特别涉及一种大数据分析提取方法。
【背景技术】
[0002]利用大数据处理实现大型企业的运营数据在线挖掘具有广泛的应用前景。对于大数据环境下,包含不同媒体格式的数据集。通过对挖掘规则生成索引,可以提升规则计算的判别速度,大大提高数据集在线挖掘的效率。数据集包含文本、图片、音视频等不同属性的元信息,属性间存在较大的差异。然而在实际的挖掘过程中,由于挖掘规则集规模大、关联维度高,使得大规模数据集上的挖掘计算量大,效率低下。而且现有技术大多是针对单一类型的数据集进行优化索引,而且规则集的数量也相对较少,没有充分利用多种类型数据集中不同属性之间的关系,因而很难直接应用到多种类型的数据挖掘中,直接影响了挖掘性會K。

【发明内容】

[0003]为解决上述现有技术所存在的问题,本发明提出了一种大数据分析提取方法,包括:
[0004]根据数据集中的数据类型本身的特性,将数据集包含的属性划分为非连续型和连续型,在多维索引的基础上建立两级索引,利用该分级索引对数据集进行实时挖掘和匹配。
[0005]优选地,所述分级索引包括二叉搜索树分级索引、多维矢量分级索引,以及挖掘规则和运算符的关联表,所述挖掘规则与运算符的关联表完成两层索引挖掘规则结果的组合,其中,根据非连续型属性上的运算符生成二叉搜索树作为底层索引;在底层之上,将所有连续型属性映射为多维空间,根据连续性属性相关的运算符生成多维索引,并将属性相同的属性运算符按照维度划分生成索引,对分级索引的操作包括:搜索、插入和删除;
[0006]所述分级索引中的节点可以分为3类:首层节点top,第二层的中间节点mid和叶子节点leaf ;其中在首层节点top中包含以下元素:attr,为首层二叉搜索树节点对应的非连续型属性;value,为该二叉搜索树节点对应的非连续值;weight,为该节点代表的运算符的优先级,left,right,为该节点的左右孩子节点;在中间节点中包含以下元素:branch,代表第二层索引对应的多维空间树结构的中间节点指针,在叶节点中包含以下元素:mbr,为第二层叶子节点对应的多维矢量。
[0007]优选地,所述利用该分级索引对数据集进行实时挖掘和匹配,进一步包括:
[0008]针对每个数据元组挖掘面向数据挖掘上的规则集的特征,首先扫描第一层的二叉搜索树索引来计算满足条件的非连续运算符集合,然后根据第一层索引命中的有效节点,搜索运算符关联表,找到第二层索引的节点指针,进入第二层多维索引中继续查找,最后,组合第一层和第二层命中的结果,将最终命中的规则集进行快速组合计算;
[0009]其中,对于任意的数据集元组,首先把非连续型属性值在多属性二叉搜索树索引中扫描,仅当有非连续型运算符命中时才进行第二层索引的挖掘规则过程,否则直接返回;对于第一层中的每一个多维索引依次进行属性值键值对的挖掘规则,并将挖掘规则结果存入缓存中,根据获得的缓存运行规则聚合算法,最终获得命中的挖掘规则结果集。
[0010]本发明相比现有技术,具有以下优点:
[0011]本发明提出了一种数据分析提取方法,根据所建立的分级索引,数据匹配方法在不降低挖掘准确率的情况下,大幅度提升了性能。
【附图说明】
[0012]图1是根据本发明实施例的大数据分析提取方法的流程图。
【具体实施方式】
[0013]下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
[0014]本发明的一方面提供了一种大数据分析提取方法。图1是根据本发明实施例的大数据分析提取方法流程图。
[0015]本发明在多维索引的基础上,引入了分级索引的思想。考虑不同类型数据集本身的特性,将数据集包含的属性划分为非连续型属性和连续型属性。考虑到非连续型属性上的运算符共享度高的特性,提出了一种两层的分级索引,给出了索引生成和挖掘和匹配方法。
[0016]本发明提出了面向不同类型数据集上大规模挖掘规则计算的动态索引,支持挖掘规则的实时更新,其主体流程包括索引生成和实时匹配计算。生成索引时,首先对不同类型数据集的属性集进行分类:连续型属性和非连续型属性。然后,根据属性类型将输入的挖掘规则集划分为不同的运算符集合,基于不同的运算符集合生成分级索引:根据非连续型属性上的运算符生成二叉搜索树作为第一层索引;在第二层,将所有连续型属性映射为多维空间,根据连续性属性相关的运算符生成多维索引。由于非连续型属性上的运算符都是非连续值,所以生成的第一层索引可以快速定位到挖掘规则上,而且空间开销也比较小。在本发明的分级索引的第二层,本发明将属性相同的属性运算符按照维度划分生成索引,尽可能的提升挖掘规则处理速度。对实时到达的数据集元组t进行挖掘计算时,首先对t进行矢量提取和剪裁计算;量化后的矢量经过运算符属性分类处理后得到不同的运算符矢量;运用本发明的分级索引的挖掘规则方法通过两级索引过滤得到满足条件的挖掘规则集。
[0017]从结构上来讲,本发明的分级索引包括3个重要组成部分以及3个重要操作。其中,3个组成部分分别是:(I)第一层的二叉搜索树分级索引;(2)第二层的多维矢量分级索引;(3)挖掘规则和运算符的关联表。基于本发明的分级索引的3个主要操作分别是:(I)搜索;(2)插入;(3)删除。
[0018]本发明的分级索引总体上是I个两层的分级索引。第一层是由非连续型运算符生成的二叉搜索树索引;第二层是根据连续型运算符对应的多维矢量生成的多维空间树;另外I个很重要的组成部分是挖掘规则与运算符的关联表,用来完成两层索引挖掘规则结果的快速组合。
[0019]本发明的分级索引中的节点可以分为3类:首层节点top,第二层的中间节点mid和叶子节点leaf。
[0020]在首层节点中包含以下元素:attr为首层二叉搜索树节点对应的非连续型属性,value为该二叉搜索树节点对应的非连续值,weight为该节点代表的运算符的优先级,left,right为该节点的左右孩子节点。在中间节点中:branch代表着第二层索引对应的多维空间树结构的中间节点指针。在叶节点中:mbr为第二层叶子节点对应的多维矢量。
[0021]基于本发明的分级索引,提出一种可行的索引生成方法,共分为3个步骤:规则预处理、运算符集合和划分和分级索引生成。先对预处理后的规则集按照属性分类进行一定的划分,在此基础上再对划分后的数据集分层生成索引。
[0022]规则集划分时,对于预处理后的η条规则,按照属性类别和值域划分了非连续型运算符集合A和连续型运算符集合B。其中:
[0023]Σ||α||+||β||= Σ qeep((1),Q为已注册的挖掘规则集,q为单个挖掘规则,P为运算符。假设将第
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1