一种高效的数据分析处理方法

文档序号:8457358阅读:482来源:国知局
一种高效的数据分析处理方法
【技术领域】
[0001]本发明涉及大数据分析,特别涉及一种高效的数据分析处理方法。
【背景技术】
[0002]利用大数据处理实现大型企业的运营数据在线挖掘具有广泛的应用前景。对于大数据环境下,包含不同媒体格式的数据集。通过对挖掘规则生成索引,可以提升规则计算的判别速度,大大提高数据集在线挖掘的效率。数据集包含文本、图片、音视频等不同属性的元信息,属性间存在较大的差异。然而在实际的挖掘过程中,由于挖掘规则集规模大、关联维度高,使得大规模数据集上的挖掘计算量大,效率低下。而且现有技术大多是针对单一类型的数据集进行优化索引,而且规则集的数量也相对较少,没有充分利用多种类型数据集中不同属性之间的关系,因而很难直接应用到多种类型的数据挖掘中,直接影响了挖掘性會K。

【发明内容】

[0003]为解决上述现有技术所存在的问题,本发明提出了一种高效的数据分析处理方法,包括:
[0004]建立面向不同类型数据集上的挖掘规则计算的动态索引,支持挖掘规则的实时更新,首先对不同类型数据集的属性集进行分类,然后根据数据集的属性类型将输入的挖掘规则集划分为不同的运算符集合,基于不同的运算符集合生成分级索引;
[0005]对实时到达的数据集元组进行挖掘计算时,首先对元组进行矢量提取和剪裁计算;将量化后的矢量经过运算符属性分类处理后得到不同的运算符矢量;利用已建立的分级索引的挖掘规则,通过两级索引进行过滤得到满足条件的挖掘规则集。
[0006]优选地,所述分级索引包括第一层的二叉搜索树分级索引、第二层的多维矢量分级索引,以及挖掘规则和运算符的关联表,对分级索引的3个操作分别是:搜索、插入和删除;
[0007]其中所述二叉搜索树分级索引是由非连续型运算符生成;所述多维矢量分级索引是根据连续型运算符对应的多维矢量生成的多维空间树;所述挖掘规则与运算符的关联表完成两层索引挖掘规则结果的组合。
[0008]优选地,所述建立面向不同类型数据集上的挖掘规则计算的动态索引进一步包括规则预处理、运算符集合划分和分级索引生成,
[0009]首先对预处理后的规则集按照属性分类进行一定的划分,再对划分后的数据集分层生成索引,规则集划分时,对于预处理后的η条规则,按照属性类别和值域划分了非连续型运算符集合A和连续型运算符集合B;其中:Σ I |Α| +I |B I = XqeQp(q),Q为已注册的挖掘规则集,q为单个挖掘规则,P为运算符,将第一维上的运算符集合分为了 s个区间I1,I2,…,Is,其中每个区间只有非连续型运算符或者连续型运算符,经过了预处理的维度转换后,Ii,I2,…,Is的区间内含有的运算符属性相似,便于分层次索引的生成;同时,将优先级信息应用于不同类型数据集注册的规则集,规则的优先级表示其被挖掘计算的需求,当一个新的挖掘规则注册到系统中,首先通过预处理模块将挖掘规则按照属性类型划分为非连续型运算符Pd和连续型运算符P。,然后将非连续型运算符Pd插入到分级索引的第一层索引中,即插入到非连续型属性对应的二叉搜索树索引中;最后将连续型运算符P。插入到分级索引的第二层索引中;
[0010]当将非连续型运算符Pd插入到第一层的二叉搜索树的时候,首先按照排序二叉树的标准插入方式进行插入,因此需要自底向上进行旋转,直到满足堆特性,在删除过程中,先把优先级设置为最低,自上而下转移到叶子,然后删除;
[0011 ] 当将连续型运算符P。插入到分级索引的第二层索引时,首先定位到要插入的目标叶子节点,第二层索引插入连续型运算符P。的过程从第二层的根节点开始,顺次按照广度优先搜索,按照多维空间的包含关系进行搜索,当找到一个叶子节点以后,检查该叶子节点的分支数;如果发现已经超过预设分支阈值,则直接进行节点分裂,产生新节点,并将该叶子节点已有的节点和P。的矢量利用启发式策略平均分配到两个节点中,最后依次更新父节点信息,如果叶子节点的分支数没有超过预设分支阈值,则直接通过更新父节点来完成插入操作。
[0012]本发明相比现有技术,具有以下优点:
[0013]本发明提出了一种数据分析提取方法,根据所建立的分级索引,数据匹配方法在不降低挖掘准确率的情况下,大幅度提升了性能。
【附图说明】
[0014]图1是根据本发明实施例的高效的数据分析处理方法的流程图。
【具体实施方式】
[0015]下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
[0016]本发明的一方面提供了一种高效的数据分析处理方法。图1是根据本发明实施例的高效的数据分析处理方法流程图。
[0017]本发明在多维索引的基础上,引入了分级索引的思想。考虑不同类型数据集本身的特性,将数据集包含的属性划分为非连续型属性和连续型属性。考虑到非连续型属性上的运算符共享度高的特性,提出了一种两层的分级索引,给出了索引生成和挖掘和匹配方法。
[0018]本发明提出了面向不同类型数据集上大规模挖掘规则计算的动态索引,支持挖掘规则的实时更新,其主体流程包括索引生成和实时匹配计算。生成索引时,首先对不同类型数据集的属性集进行分类:连续型属性和非连续型属性。然后,根据属性类型将输入的挖掘规则集划分为不同的运算符集合,基于不同的运算符集合生成分级索引:根据非连续型属性上的运算符生成二叉搜索树作为第一层索引;在第二层,将所有连续型属性映射为多维空间,根据连续性属性相关的运算符生成多维索引。由于非连续型属性上的运算符都是非连续值,所以生成的第一层索引可以快速定位到挖掘规则上,而且空间开销也比较小。在本发明的分级索引的第二层,本发明将属性相同的属性运算符按照维度划分生成索引,尽可能的提升挖掘规则处理速度。对实时到达的数据集元组t进行挖掘计算时,首先对t进行矢量提取和剪裁计算;量化后的矢量经过运算符属性分类处理后得到不同的运算符矢量;运用本发明的分级索引的挖掘规则方法通过两级索引过滤得到满足条件的挖掘规则集。
[0019]从结构上来讲,本发明的分级索引包括3个重要组成部分以及3个重要操作。其中,3个组成部分分别是:(I)第一层的二叉搜索树分级索引;(2)第二层的多维矢量分级索引;(3)挖掘规则和运算符的关联表。基于本发明的分级索引的3个主要操作分别是:(I)搜索;(2)插入;(3)删除。
[0020]本发明的分级索引总体上是I个两层的分级索引。第一层是由非连续型运算符生成的二叉搜索树索引;第二层是根据连续型运算符对应的多维矢量生成的多维空间树;另外I个很重要的组成部分是挖掘规则与运算符的关联表,用来完成两层索引挖掘规则结果的快速组合。
[0021]本发明的分级索引中的节点可以分为3类:首层节点top,第二层的中间节点mid和叶子节点leaf。
[0022]在首层节点中包含以下元素:attr为首层二叉搜索树节点对应的非连续型属性,value为该二叉搜索树节点对应的非连续值,weight为该节点代表的运算符的优先级,left,right为该节点的左右孩子节点。在中间节点中:branch代表着第二层索引对应的多维空间树结构的中间节点指针。在叶节点中:mbr为第二层叶子节点对应的多维矢量。
[0023]基于本发明的分级索引,提出一种可行的索引生成方法,共分为3个步骤:规则预处理、运算符集合和划分和分级索引生成。先对预处理后的规则集按照属性分类进行一定的划分,在此基础上再对划分后的数据集分层生成索引。
[0024]规则集划分时,对于预处理后的η条规则,按照属性类别和值域划分了非连续型运算符集合A和连续型运算符集合B。其中:
[002
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1