一种基于最短板原则的频繁项集数据挖掘方法与流程

文档序号:15204821发布日期:2018-08-21 07:29阅读:400来源:国知局
本发明涉及数据挖掘方法
技术领域
,特别涉及一种基于最短板原则的频繁项集数据挖掘方法。
背景技术
:apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。apriori算法将发现关联规则的过程分为两个步骤,第一步是通过迭代检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集,第二步是利用频繁项集构造出满足用户最小置信度的规则,其中,挖掘和识别所有频繁项集是该算法的核心,占据了整个计算量的大部分。apriori算法运用频繁项集的子集必然是频繁项集的思想,通过已知的频繁项集构造更大的项集,并将其称为候选频繁项集,以后只计算候选项集的支持度。apriori算法采用人为设定域值的方式,这样就存在根据人的经验设定域值与实际的数据挖掘是否匹配的问题,近些年研究的重点是如何使得人为设定域值与实际的数据挖掘匹配,然而,对于apriori算法不能很好的兼顾局部样本数据的问题研究甚少,然而在实际的应用中,apriori算法能够发现全局频繁项集,但是局部样本的频繁项集却不能够很好的体现,这样的应用越来越多。技术实现要素:为了解决
背景技术
中所述问题,本发明根据最短板原则提供一种基于最短板原则的频繁项集数据挖掘方法-tls-apriori算法(thelowestsupportapriori)。此算法应用apriori算法的基本思想,根据最小支持度所在的样本不能成为频繁样本的性质进行数据挖掘,解决了经典apriori算法全局寻优的同时不能很好的兼顾局部的不足。为了达到上述目的,本发明采用以下技术方案实现:一种基于最短板原则的频繁项集数据挖掘方法,将总体数据样本按照支持度从高到低依次排列,最低支持度项集所在的样本为最短板样本,最短板数据样本只进行频繁一项集的数据挖掘,不进行二项集及以后的数据挖掘;所述的数据挖掘方法包括以下步骤:步骤一、总体数据样本频繁一项集生成;重新组合数据样本,根据总体数据样本计算候选一项集c1的支持度及平均支持度zs1确定频繁一项集l1,l1数量计作m1。步骤二、记录候选一项集c1中支持度最小的项集所在的样本s1为最短板样本。步骤三、局部数据样本一项集平均域值计算;根据局部数据样本计算一项集平均支持度js1;对于如果js1>=zs1,按照竞争原则,重新确定频繁项集;js1<=zs1,按照总数原则,重新确定频繁项集,总数按照m1/2进行处理。所述的竞争原则具体为:按照支持度从高到低依次排列,依据截取的数量进行取舍。所述的总数原则具体为:按照百分比的形式进行对各样本项集的取舍。步骤四、总体数据样本频繁k项集生成;重新组合数据样本,剔除最短板数据样本中的频繁项集,第k步,根据k-1步频繁的k-1项集lk-1按照apriori_gen产生后选的k项集ck集,根据总体数据样本,计算候选k项集ck的支持度及平均支持度zsk确定频繁k项集lk,lk数量计作mk。步骤五、局部数据样本k项集平均域值计算;根据局部数据样本计算k项集平均支持度jsk;对于如果jsk>=zsk,按照竞争原则,重新确定频繁k项集;jsk<=zsk,按照总数原则,重新确定频繁k项集,总数按照mk/2进行处理。与现有技术相比,本发明的有益效果是:本发明的一种基于最短板原则的频繁项集数据挖掘方法,应用apriori算法的基本思想,根据局部样本的平均支持度与总体样本的平均支持度大小以及最短板原则,分别采用竞争原则和总数原则寻找频繁项集,解决了经典apriori算法不能很好的兼顾局部最优的不足,实例验证证明了算法的有效性。附图说明图1为本发明的一种基于最短板原则的频繁项集数据挖掘方法的流程图;图2为本发明的一种基于最短板原则的频繁项集数据挖掘方法的实施例图。具体实施方式以下结合附图对本发明提供的具体实施方式进行详细说明。如图1所示,一种基于最短板原则的频繁项集数据挖掘方法,将总体数据样本按照支持度从高到低依次排列,最低支持度项集所在的样本为最短板样本,最短板数据样本只进行频繁一项集的数据挖掘,不进行二项集及以后的数据挖掘;所述的数据挖掘方法包括以下步骤:步骤一、总体数据样本频繁一项集生成;重新组合数据样本,根据总体数据样本计算候选一项集c1的支持度及平均支持度zs1确定频繁一项集l1,l1数量计作m1。步骤二、记录候选一项集c1中支持度最小的项集所在的样本s1为最短板样本。步骤三、局部数据样本一项集平均域值计算;根据局部数据样本计算一项集平均支持度js1;对于如果js1>=zs1,按照竞争原则,重新确定频繁项集;js1<=zs1,按照总数原则,重新确定频繁项集,总数按照m1/2进行处理。所述的竞争原则具体为:按照支持度从高到低依次排列,依据截取的数量进行取舍。所述的总数原则具体为:按照百分比的形式进行对各样本项集的取舍。步骤四、总体数据样本频繁k项集生成;重新组合数据样本,剔除最短板数据样本中的频繁项集,第k步,根据k-1步频繁的k-1项集lk-1按照apriori_gen产生后选的k项集ck集,根据总体数据样本,计算候选k项集ck的支持度及平均支持度zsk确定频繁k项集lk,lk数量计作mk。步骤五、局部数据样本k项集平均域值计算;根据局部数据样本计算k项集平均支持度jsk;对于如果jsk>=zsk,按照竞争原则,重新确定频繁k项集;jsk<=zsk,按照总数原则,重新确定频繁k项集,总数按照mk/2进行处理。【具体实施例】为了说明tls-ariori算法的有效性,本实施例选取了apriori算法发现频繁项集的一个经典的例子,事务数据库如表1~4:tidt100t200t300t400t500t600t700t800t900项id列表i1,i2,i5i2,i4i2,i3,i4i1,i2,i4i1,i3,i4i2,i3i1,i3i1,i2,i3,i5i1,i2,i3表1样本1项集tidt100t200t300t400t500t600t700t800t900项id列表i2,i5i1,i4i1,i3,i5i1,i2,i5i2,i3,i5i1,i3i2,i4i1,i3,i4i1,i2,i4表2样本2项集tidt100t200t300t400t500t600t700t800t900项id列表i1,i5i2,i5i2,i3,i5i1,i3,i4i1,i2,i5i4,i5i2,i3i1,i2,i3,i4i1,i2表3样本3项集tidt100t200t300t400t500t600t700t800t900项id列表i2,i3,i4i2,i5i2,i3,i4,i5i1,i3,i5i1,i2,i4i3,i5i2,i4i1,i2,i3,i5i1,i5表4样本4项集表1-4中,每个样本数据库中有9个事务t100-t900。表1中的支持度计数为支持度与总的事物数的乘积。利用本发明的基于最短板原则的频繁项集数据挖掘方法即tls-apriori算法,对表1~4的数据进行频繁相集的发现。如图2所示,图2为tls-apriori算法发现频繁项集过程,每个样本中候选一项集共有5项,根据tls-apriori算法性质,样本s1、s4平均支持数大于总体样本s的平均支持数,选取原则采用竞争原则。样本s2、s3平均支持数小于总体样本s的平均支持数,选取原则采用总数原则。正常采用平均域值apriori算法发现频繁项集11项,为了能够取整,所以最后确定一项集,采用竞争发现6项,采用总数发现6项,合计12项,由于正常采用平均域值apriori算法时,只有s2少了一项,所以增加的1项给了样本s2。由于最小支持数计数是样本s1中的i5,根据最短板原则,确定样本s1为最短板样本,只进行频繁一项集发现。候选二项集共有9项,局部样本和总体样本平均支持数计算结果如附图1,最后确定样本s3、s4采用竞争选取原则,样本s2采用总数选取原则,正常采用平均域值apriori算法发现频繁项集6项,样本s2、s3采用总数原则,得到3个名额,样本s4采用竞争原则,得到3个名额,发现的频繁二项集如附图2。以上实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于上述的实施例。上述实施例中所用方法如无特别说明均为常规方法。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1