一种减少候选项集的数据流高效用项集挖掘算法的制作方法

文档序号:12465796阅读:265来源:国知局

本发明属于数据挖掘技术领域,更具体地说,尤其涉及一种减少候选项集的数据流高效用项集挖掘算法。



背景技术:

随着云计算,大数据和互联网的迅猛发展,我们生活中的各方各面都离不开计算机技术来存储、挖掘和分析数据。我们接收的不仅仅是本体系内部的规模较小的数据,而是各行业间交叉互联广阔无垠的信息知识海洋,如何从产生的大规模数据中获取知识和信息是一个巨大的挑战。传统的信息系统中对数据进行增删查改和统计等操作在当下这个日新月异的社会己经趋于过时老套了,通过什么样的技术对存储量巨大的数据进行挖掘分析,快速有效的发现数据之间存在的潜在信息,并通过这些己经挖掘到的信息为管理者或决策者提供知识的预测,有效提高资源的利用率,这才是符合时代要求的技术研究。由此,从数据库中发现知识和主导技术支持数据挖掘的研究开始出现,并快速的得以发展。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但的确是潜在有用的信息和知识的过程。现在己经有许多现实领域在应用DM技术,包括制造业、零售业、金融、医疗保健、工程和科学等。同时在行为推荐、网络舆情监控系统等方面得到很广泛的应用。

关联规则挖掘作为数据挖掘技术中一个举足轻重的研究分支,得到了学者的广泛研究,它主要挖掘项集之间的相关联程度,其中它的核心是频繁项集挖掘。1993年Agrawal等人通过对Wal-Mart的超市购物篮数据信息充分研究首次提出了关联规则的概念,之后在很多行业得到应用。如网上购物平台(天猫、当当等),通过挖掘得到的关联规则可以预测顾客的购买方式和喜好,然后就可以为每位顾客提供个性化的购买体验。但是关联规则挖掘只分析了商品之间的关联度大小而没有其他因素的考虑,如物品的数量和利润等,这就会使出现次数少但是效用高的项集被忽略。为了解决这个问题,学者首次提出了高效用项集(high utility itemsets)挖掘,它将物品的数量和利润值增加到关联规则模型中,当项集的总效用值比预先给定的效用阈值大时,就将它称为高效用项集。

但是,随着数据库和网络技术的快速发展,数据存储量的大幅度提升,导致数据不再是静止的,而是逐渐累积、变化的。如网上平台的销售数据,中国联通移动的通话记录,交通的实时监控数据等。不同于传统的关联规则挖掘,事务集里的数据会随着时间而改变,更新后的数据相比之前的更加重要,如何正确的考虑这些变化的因素并快速有效地挖掘出真实有价值的知识和信息,对关联规则挖掘提出了更严格的要求和挑战。传统的分批式频繁项集挖掘算法只能通过重新扫描更新后的数据库产生新关联项集,现有技术中提出了FUP算法,算法解决了新增事务集比原始事务集规模小时需要频繁扫描更新后数据库的问题。将次频繁集的概念和FP-tree结合设计出了prelarge-tree结构有效进行增量挖掘。随后又提出减量挖掘和变化挖掘的概念。之后在关联规则增量挖掘的基础上又将效用值考虑在内,利用事务加权效用(TWU)的向下封闭性,在FUP算法和次频繁项集概念的基础上不断改进,如Lin et al基于FUP算法提出了FUP-HU工算法进行效用增量挖掘,但是当一个项集在原数据集上是低频效用项而在更新后的数据集上是高频效用项时仍然需要重新扫描更新后的数据库。鉴于此Pre-HU工算法提出将Two-Phase算法和Pre-large概念整合到效用挖掘中,利用事务向下封闭性减少了扫描数据库的时间。

虽然这些效用增量算法提高了更新效率,有效减少了扫描原始数据库的次数,但仍需产生大量无用候选频项,且只适合处理事务数据库的增加,当原数据库事务中项集改变(减少,修改等)时仍需重新扫描更新后的数据库,通过本发明能够达到有效减少候选频项数的目的,不仅能处理事务集的增加,又能处理事务集的改变,同时也能高效的完成动态效用挖掘任务,这也适应了现阶段对效用挖掘的新要求。



技术实现要素:

本发明的目的是为了解决现有技术中存在的缺点,而提出的一种减少候选项集的数据流高效用项集挖掘算法。

为实现上述目的,本发明提供如下技术方案:

一种减少候选项集的数据流高效用项集挖掘算法,包括如下步骤:

S1、首先,通过数据流中当前窗口的一次扫描建立一个全局树,并降低全局树中头表入口与节点的冗余效用值;

S2、然后,基于全局树生成候选模式,基于增长算法降低局部树的候选项集效用;

S3、在候选项集效用中,按照事务集的顺序,依次将第 k 个事务中的ij项的事务加权效用相加,作为节点ij项的事物加权效用总和,同时,将项ij的前缀项加入到节点 ij的前缀项集链表中, 处理次频效用项集,将次频效用项加入到树中;

S4、然后通过引入高事务效用阈值与低事务效用阈值,将事务加权效用率划分为三层,在原始事务集和新增事务集中分层对应处理,利用HTWUD存放数据集中的高频效用项集,PTUVD存放数据集中的次频效用项集;

S5、最后计算实际效用来确定最终的高效用项集。

优选的,所述全局树的建立方法如下:

a、首先计算变化事务中每个项集的事务加权效用变化量;

b、然后将它们依照原始数据库的项频度分为高频效用项,次频效用项和低频效用项来构造PreHU-tree;

c、最后通过搜索PreHU-tree各节点的事务加权效用和前缀项集链表直接确定n一频项;

d、结合前缀项集链表中的项集支持度和项的外部效用挖掘变化式高效用项集。

优选的,述冗余效用降低算法如下:

A、在一个全局HUS 树的头表中为每项建立一个条件模式基,每个划分的搜索空间头表中并未包含各项信息,因此从条件模式基产生候选模式时,无须包含后面项目的效用信息;

B、假设S={i1<i2<...<im}是当前的排序,其中i1im分别是全局树头表的顶部与底部项,假设挖掘程序从头表选择一项ip建立一个条件模式基,条件模式基中仅包含序列中前几项{i1,i2,...,ip-1},所以无须添加后面若干项的效用至高效用项中。

本发明的技术效果和优点:本发明提供的一种减少候选项集的数据流高效用项集挖掘算法,首先,通过数据流中当前窗口的一次扫描建立一个全局树,并降低全局树中头表入口与节点的冗余效用值;然后,基于全局树生成候选模式,基于增长算法降低局部树的候选项集效用;最终,从候选模式中选出高效用模式。基于真实数据流的实验结果表明,本发明的时空效率与内存占用比均优于其他数据流的高效用模式挖掘算法。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

一种减少候选项集的数据流高效用项集挖掘算法,包括如下步骤:

S1、首先,通过数据流中当前窗口的一次扫描建立一个全局树,并降低全局树中头表入口与节点的冗余效用值;

S2、然后,基于全局树生成候选模式,基于增长算法降低局部树的候选项集效用;

S3、在候选项集效用中,按照事务集的顺序,依次将第 k 个事务中的ij项的事务加权效用相加,作为节点ij项的事物加权效用总和,同时,将项ij的前缀项加入到节点 ij的前缀项集链表中, 处理次频效用项集,将次频效用项加入到树中;

S4、然后通过引入高事务效用阈值与低事务效用阈值,将事务加权效用率划分为三层,在原始事务集和新增事务集中分层对应处理,利用HTWUD存放数据集中的高频效用项集,PTUVD存放数据集中的次频效用项集;

S5、最后计算实际效用来确定最终的高效用项集。

具体地,所述全局树的建立方法如下:

a、首先计算变化事务中每个项集的事务加权效用变化量;

b、然后将它们依照原始数据库的项频度分为高频效用项,次频效用项和低频效用项来构造PreHU-tree;

c、最后通过搜索PreHU-tree各节点的事务加权效用和前缀项集链表直接确定n一频项;

d、结合前缀项集链表中的项集支持度和项的外部效用挖掘变化式高效用项集。

具体地,述冗余效用降低算法如下:

A、在一个全局HUS 树的头表中为每项建立一个条件模式基,每个划分的搜索空间头表中并未包含各项信息,因此从条件模式基产生候选模式时,无须包含后面项目的效用信息;

B、假设S={i1<i2<...<im}是当前的排序,其中i1im分别是全局树头表的顶部与底部项,假设挖掘程序从头表选择一项ip建立一个条件模式基,条件模式基中仅包含序列中前几项{i1,i2,...,ip-1},所以无须添加后面若干项的效用至高效用项中。

综上所述:本发明提供的一种减少候选项集的数据流高效用项集挖掘算法,首先,通过数据流中当前窗口的一次扫描建立一个全局树,并降低全局树中头表入口与节点的冗余效用值;然后,基于全局树生成候选模式,基于增长算法降低局部树的候选项集效用;最终,从候选模式中选出高效用模式。基于真实数据流的实验结果表明,本发明的时空效率与内存占用比均优于其他数据流的高效用模式挖掘算法。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1