一种针对增量数据对频繁项进行更新数据挖掘方法

文档序号:6546612阅读:220来源:国知局
一种针对增量数据对频繁项进行更新数据挖掘方法
【专利摘要】本发明公开了一种针对增量数据对频繁项进行更新数据挖掘方法,不仅创新地同时解决了阈值变化以及数据库数据增加两种问题,并且引用了阈值加权系数和对原频繁项的局部处理的来进行频繁项更新的方法,大大降低了处理数据的复杂度,从而大大提高了算法的效率。
【专利说明】一种针对增量数据对频繁项进行更新数据挖掘方法
【技术领域】
[0001]本发明涉及数据挖掘【技术领域】,尤其是涉及一种结合增量数据对频繁项进行更新数据挖掘方法。
【背景技术】
[0002]数据挖掘是指从大量数据中寻找出隐含的、有潜在价值的信息的过程。随着信息技术的飞速发展,医疗、互联网等各个领域产生的数据量不断增加。海量数据下隐藏的高价值知识使得数据分析的重要性日益突显。然而,由于数据量过大,使用传统的数据挖掘方法已经无法满足海量级别信息的分析处理需求,给有效利用这些数据带来了困难。关联规则挖掘是近年来数据挖掘领域中,最活跃且最为广泛应用的研究方向之一。关联规则挖掘的最初目的是,商家从大量的消费记录中,寻找顾客所购商品的相关性,从而更好地指导销售策略的制定。
[0003]目前,传统关联规则挖掘算法分为三大类,分别是Apriori算法、闭合频繁项挖掘和频繁模式增长算法。就算法的原理来看,Apriori算法需要重复多次扫描外存中的数据以获取频繁项集,因此I/O负载高、算法的执行性能差。闭合频繁项挖掘是对Apriori算法的改进,只有在处理特定类型数据时能减少扫描次数,效率依旧不高。
[0004]增量式频繁模式增长算法仅通过2次扫描就能将所需的数据信息收集并压缩至特殊的数据结构一一频繁模式树,减少了在输入输出上花费的时间,使得算法效率得到很大提升。面向海量数据的数据挖掘一般有三种思路:抽样、集成及MapReduce。从海量数据中抽样,能够迅速构建数据挖掘模型,但抽样可能导致结果出现偏差;集成方法将整个数据划分为多个子集,分别运算,最后合并;MapReduce基于云计算平台,用于海量级别数据的并行处理。目前,基于增量式频繁模式增长数据挖掘方法仅能解决单一问题,如最小支持度阈值发生改变或数据库内容更新问题。

【发明内容】

[0005]发明目的:为了克服上述现有技术存在的缺陷,给出了一种针对增量数据对频繁项进行更新数据挖掘方法,用于在动态数据库及动态阈值下对数据进行快速挖掘。
[0006]技术方案:一种增量式频繁模式增长数据挖掘方法,包括以下步骤:
[0007](I)将原数据库分成多个数据集,对每个数据集中各项的支持度计数进行并行计算,去除支持度低于阈值的非频繁项,并对频繁项按支持度降序排序,依据排序后的频繁项列表对数据进行分组;
[0008](2)将各组频繁项集进行整合,得到原数据库的完整的频繁项集;
[0009](3)将新增数据库中各项的支持度进行并行计算,删除支持度低于系数加权后的阈值的项,获得新数据准频繁项列表,并按照支持度降序排序;所述加权系数为小于等于I的任意正数;
[0010](4)基于步骤(3)获得的准频繁项列表,对步骤(2)得到的频繁项集进行更新。[0011]进一步的,所述步骤(4)对于频繁项集的更新具体为对原频繁项集中尾部数据进行更新;其中,所述频繁项集的更新包括对原频繁项集中频繁项的支持度的更新和新的频繁项的增加;所述对原频繁项集中频繁项的支持度的更新具体为,更新频繁项支持度为原数据频繁项集中支持度与新数据准频繁项集中该项支持度之和;所述新的频繁项的增加具体为,将新增数据中支持度大于阈值并且在原频繁数据集中不存在的频繁项,增加到原频繁数据集中。
[0012]一种配置新阈值和新数据的频繁项更新处理方法,包括如下具体步骤:
[0013](31)针对新的数据,基于阈值和选定的加权系数,获得新数据准频繁项;
[0014](32)基于所述新数据准频繁项和新阈值对原频繁数据集进行更新。
[0015]进一步的,所述步骤(31)针对新的数据选用原阈值和加权系数,对新数据进行处理获取准频繁项数据。
[0016]进一步的,所述步骤(31)针对新的数据选用新阈值和加权系数,对新数据进行处理获取准频繁项数据,如果没有新的数据则仅对原频繁项数据集针对新的阈值进行更新,删除频繁集中支持度低于新阈值的频繁项。
[0017]进一步的,所述步骤(32)基于新数据准频繁项对原数据频繁项的处理中,选择原数据频繁项集中尾部数据的后半部分数据进行频繁项支持度更新。
[0018]进一步的,所述步骤(32)基于新数据准频繁项对原数据频繁项的处理中,选择原数据频繁项集中支持度小于新阈值的频繁项进行支持度更新,将更新支持度后期支持度仍然低于新的阈值的频繁项从频繁项集中删除,更新频繁项支持度为原数据频繁项集中支持度与准频繁项集中该项支持度之和。
[0019]进一步的,所述步骤(32)原频繁数据集的更新包括对原频繁项集中频繁项的支持度的更新,和/或低支持度频繁项的删除,和/或新的频繁项的增加。
[0020]进一步的,所述步骤(32)基于新数据准频繁项对原数据频繁项的处理中,将新增数据中支持度大于阈值的频繁项并且在原频繁数据集中不存在的频繁项,增加到频繁数据集中。
[0021]有益效果:与现有技术相比,本发明不仅创新地同时解决了阈值变化以及数据库数据增加两种问题,并且引用了阈值加权系数和对原频繁项的局部处理的来进行频繁项更新的方法,大大降低了处理数据的复杂度,从而大大提高了算法的效率。
【专利附图】

【附图说明】
[0022]图1为实施例1中方法流程图;
[0023]图2为实施例1中方法流程图。
【具体实施方式】
[0024]下面结合附图对本发明做更进一步的解释。
[0025]一种增量式频繁模式增长数据挖掘方法,包括以下步骤:
[0026](I)将原数据库分成多个数据集,对每个数据集中各项的支持度计数进行并行计算,去除支持度低于阈值的非频繁项,并对频繁项按支持度降序排序,依据排序后的频繁项列表对数据进行分组;[0027](2)将各组频繁项集进行整合,得到原数据库的完整的频繁项集;
[0028](3)将新增数据库中各项的支持度进行并行计算,删除支持度低于系数加权后的阈值的项,获得新数据准频繁项列表,并按照支持度降序排序;该加权系数为小于等于I的任意正数;
[0029](4)基于步骤(3)获得的准频繁项列表,对步骤(2)得到的频繁项集进行更新。
[0030]其中,步骤(4)对于频繁项集的更新具体为对原频繁项集中尾部数据进行更新,即原频繁项集中排序靠后,支持度较低的部分进行更新。其中,尾部数据可选按支持度降序排序后频繁项集中后三分之一或四分之一的数据。该频繁项集的更新包括对原频繁项集中频繁项的支持度的更新和新的频繁项的增加。其中,对原频繁项集中频繁项的支持度的更新具体为,更新频繁项支持度为原数据频繁项集中支持度与新数据准频繁项集中该项支持度之和;新的频繁项的增加具体为,将新增数据中支持度大于阈值并且在原频繁数据集中不存在的频繁项,增加到原频繁数据集中。
[0031]一种配置新阈值和新数据的频繁项更新处理方法,包括如下具体步骤:
[0032](61)针对新的数据,基于阈值和选定的加权系数,获得新数据准频繁项;
[0033](62)基于所述新数据准频繁项和新阈值对原频繁数据集进行更新。
[0034]其中,步骤(61)针对新的数据选用原阈值和加权系数,对新数据进行处理获取准频繁项数据;步骤出1)针对新的数据还可以选用新阈值和加权系数,对新数据进行处理获取准频繁项数据。如果 没有新的数据则仅对原频繁项数据集针对新的阈值进行更新,删除频繁集中支持度低于新阈值的频繁项。步骤(62)基于新数据准频繁项对原数据频繁项的处理中,选择原数据频繁项集中尾部数据即支持度较低的后半部分数据进行频繁项支持度更新。进一步的,步骤(62)基于新数据准频繁项对原数据频繁项的处理中,选择原数据频繁项集中支持度小于新阈值的频繁项进行支持度更新。
[0035]步骤(62)原频繁数据集的更新包括对原频繁项集中频繁项的支持度的更新,和/或低支持度频繁项的删除,和/或新的频繁项的增加。其中,步骤(62)基于新数据准频繁项对原数据频繁项的处理中,将新增数据中支持度大于阈值的频繁项并且在原频繁数据集中不存在的频繁项,增加到频繁数据集中;或将更新支持度后期支持度仍然低于新的阈值的频繁项从频繁项集中删除;或更新频繁项支持度为原数据频繁项集中支持度与准频繁项集中该项支持度之和。
[0036]实施例1:如图1所示,针对增量数据对频繁项进行更新的方法包括如下步骤:
[0037]步骤(1)将原始数据D进行分组,对每个数据集中各项的支持度计数进行并行计算,去除支持度低于阈值Vl的非频繁项,并对频繁项按支持度降序排序,依据排序后的频繁项列表对数据进行分组;
[0038]步骤(2)将各组的频繁数据项进行整合,获取频繁数据项集Pl。
[0039]步骤(3)针对新增数据Da进行支持度计算,并去除支持度低于加权系数b*阈值Vl的数据项,获取新数据D2的准频繁项P2d,并按照支持度降序排序。
[0040]步骤(4)利用准频繁项更新频繁项集P1,针对Pl中已经存在的数据项更新支持度为原数据支持度与新数据支持度之和。针对未在Pi中出现的数据项,将支持度大于阈值Vl的数据项增加到Pl中。最终获得新的频繁项集P2。
[0041]实施例2:如图2所示,针对增加了新数据Da和更新阈值V2的进行频繁项更新的数据挖掘方法包括如下步骤:
[0042]步骤(I)将原始数据D进行分组,对每个数据集中各项的支持度计数进行并行计算,去除支持度低于阈值Vl的非频繁项,并对频繁项按支持度降序排序,依据排序后的频繁项列表对数据进行分组;
[0043]步骤(2)将各组的频繁数据项进行整合,获取频繁数据项集Pl。
[0044]步骤(3)针对新增数据D2进行支持度计算,并去除支持度低于加权系数b*阈值V2的数据项;获取新数据D2的准频繁项P2d,并按照支持度降序排序。
[0045]步骤(4)利用准频繁项更新频繁项集P1,针对Pl中已经存在的数据项更新支持度为原数据支持度与新数据支持度之和,并将更新支持度后其支持度小于新的阈值V2的数据项删除。针对未在Pl中出现的数据项,将支持度大于阈值Vl的数据项增加到Pl中。最终获得新的频繁项集P2。
[0046]以上所述仅是本发明的优选实施方式,应当指出,对于本【技术领域】的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
【权利要求】
1.一种增量式频繁模式增长数据挖掘方法,其特征在于,包括以下步骤: (1)将原数据库分成多个数据集,对每个数据集中各项的支持度计数进行并行计算,去除支持度低于阈值的非频繁项,并对频繁项按支持度降序排序,依据排序后的频繁项列表对数据进行分组; (2)将各组频繁项集进行整合,得到原数据库的完整的频繁项集; (3)将新增数据库中各项的支持度进行并行计算,删除支持度低于系数加权后的阈值的项,获得新 数据准频繁项列表,并按照支持度降序排序;所述加权系数为小于等于I的任意正数; (4)基于步骤(3)获得的准频繁项列表,对步骤(2)得到的频繁项集进行更新。
2.根据权利要求1所述的一种增量式频繁模式增长数据挖掘方法,其特征在于,所述步骤(4)对于频繁项集的更新具体为对原频繁项集中尾部数据进行更新;其中,所述频繁项集的更新包括对原频繁项集中频繁项的支持度的更新和新的频繁项的增加;所述对原频繁项集中频繁项的支持度的更新具体为,更新频繁项支持度为原数据频繁项集中支持度与新数据准频繁项集中该项支持度之和;所述新的频繁项的增加具体为,将新增数据中支持度大于阈值并且在原频繁数据集中不存在的频繁项,增加到原频繁数据集中。
3.一种配置新阈值和新数据的频繁项更新处理方法,其特征在于,包括如下具体步骤: (31)针对新的数据,基于阈值和选定的加权系数,获得新数据准频繁项; (32)基于所述新数据准频繁项和新阈值对原频繁数据集进行更新。
4.根据权利要求3所述的一种配置新阈值和新数据的频繁项更新处理方法,其特征在于,所述步骤(31)针对新的数据选用原阈值和加权系数,对新数据进行处理获取准频繁项数据。
5.根据权利要求3所述的一种配置新阈值和新数据的频繁项更新处理方法,其特征在于,所述步骤(31)针对新的数据选用新阈值和加权系数,对新数据进行处理获取准频繁项数据,如果没有新的数据则仅对原频繁项数据集针对新的阈值进行更新,删除频繁集中支持度低于新阈值的频繁项。
6.根据权利要求3所述的一种配置新阈值和新数据的频繁项更新处理方法,其特征在于,所述步骤(32)基于新数据准频繁项对原数据频繁项的处理中,选择原数据频繁项集中尾部数据的后半部分数据进行频繁项支持度更新。
7.根据权利要求3所述的一种配置了新阈值和新数据的频繁项更新处理方法,其特征在于,所述步骤(32)基于新数据准频繁项对原数据频繁项的处理中,选择原数据频繁项集中支持度小于新阈值的频繁项进行支持度更新,将更新支持度后期支持度仍然低于新的阈值的频繁项从频繁项集中删除,更新频繁项支持度为原数据频繁项集中支持度与准频繁项集中该项支持度之和。
8.根据权利要求3所述的一种配置了新阈值和新数据的频繁项更新处理方法,其特征在于,所述步骤(32)原频繁数据集的更新包括对原频繁项集中频繁项的支持度的更新,和/或低支持度频繁项的删除,和/或新的频繁项的增加。
9.据权利要求3所述的一种配置了新阈值和新数据的频繁项更新处理方法,其特征在于,所述步骤(32)基于新数据准频繁项对原数据频繁项的处理中,将新增数据中支持度大于阈值的频繁项并 且在原频繁数据集中不存在的频繁项,增加到频繁数据集中。
【文档编号】G06F17/30GK103984723SQ201410205412
【公开日】2014年8月13日 申请日期:2014年5月15日 优先权日:2014年5月15日
【发明者】杨茂龙, 周小贞, 杨帆 申请人:江苏易酒在线电子商务有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1