基于项目子集事例树的极小非约简关联规则挖掘方法

文档序号:10655383阅读:272来源:国知局
基于项目子集事例树的极小非约简关联规则挖掘方法
【专利摘要】本发明公开了一种基于项目子集事例树的极小非约简关联规则挖掘方法,包括以下步骤,在事例项目数据库中,利用单个项目生成的闭项目集和集合的并运算,生成项目子集合,该集合是项目集的幂集的一个真子集;利用生成的项目子集合,构造事例项目数据库的项目子集事例树结构;在项目子集事例树中挖掘闭频繁项目集及其极小生成元,根据挖掘出的闭频繁项目集及其极小生成元,快速生成极小非约简关联规则。本发明利用单个项目生成的闭项目集,获得若干项目子集并构造项目子集事例树刻画项目子集的层次关系及其对应的支持度,有效地减少了事例和项目之间的检索次数;同时有效地减少存储空间,提高了极小非约简关联规则的挖掘速度和效率。
【专利说明】
基于项目子集事例树的极小非约简关联规则挖掘方法
技术领域
[0001] 本发明设及数据挖掘和知识获取领域,提出了一种基于项目子集事例树快速从大 型事例项目数据库中挖掘极小非约简关联规则,从而获取该大型事例项目数据库的一种非 冗余知识库。
【背景技术】
[0002] 在大型事例项目数据库中,关联规则刻画了项目之间的一种同时发生关系,即在 大型事例项目数据库中若干事例同时满足某些项目,其中,部分项目作为前件,剩余项目作 为后件构成项目之间的关联规则。例如在大型超市的交易数据库中,每次交易作为一个事 例,交易中设及到的商品作为项目,挖掘出的关联规则刻画了商品在交易中同时发生的情 况,运种知识可用于超市中商品位置摆放、商品进货数量等超市商品管理中。理论上,若满 足某一项目子集的事例集不为空集,则该项目子集就可用于挖掘关联规则。因此,一方面, 挖掘关联规则是在项目集的幕集中完成的,运样的问题在计算机科学中是一个NP-难问题。 另一方面,由于关联规则刻画了大型事例项目数据库中一种合理、科学及有用的知识,关联 规则挖掘已广泛应用于计算机科学、管理科学、经济学、社会科学等领域,用于获取相应数 据库的合理、科学及有用的知识。
[0003] 通常挖掘出的关联规则非常多,完全超出了人们所能理解的范围,因此,结合实际 应用,人们提出了各种扩展或改进的关联规则挖掘方法,总体来看,运些关联规则挖掘方法 包含如下两个主要内容:
[0004] 1、生成频繁项目集或闭频繁项目集。
[0005] 2、从频繁项目集或闭频繁项目集中挖掘各种关联规则。
[0006] 在实际应用中,一方面,生成的频繁项目集或闭频繁项目集很多,因此,人们又提 出如极大频繁项目集、广义项目集、自由项目集、析取自由项目集等,限制生成关联规则的 项目集个数或生成特殊需求的关联规则;另一方面,从频繁项目集或闭频繁项目集中挖掘 出的关联规则有冗余信息,因此,人们又提出如极小-极大关联规则、不可约关联规则、极小 非约简关联规则、带权重关联规则等,限制关联规则的形式,减少冗余关联规则的生成。从 生成关联规则的方法来看,已有方法可分为两大类,第一大类为源于Apriori方法的关联规 则挖掘方法,Apriori方法是最早提出的关联规则挖掘方法,其核屯、思想是构造 Apriori生 成函数并按每个项目的支持度大小逐次添加项目生成项目子集,生成的项目子集存储在 hash-树结构中,通过hash-树结构快速挖掘关联项目子集作为关联规则的前后件,从而快 速生成关联规则。随后,人们对Apriori方法进行了很多扩展或改进研究。第二大类为源于 FP-树(frequent-pattern (FP) tree)的方法,与 Apriori 方法的hash-树结构不同,FP-树是 一种相关频繁项目子集表示方式,FP-树的每一枝存储一族按降序排列的频繁项目子集,要 构造 FP-树,首先将每个项目按其支持度从大到小排列,然后分别遍历事例集与项目集,可 逐层构造出支持度从大到小的频繁项目子集,利用FP-树可快速生成关联规则。随后,人们 对FP-树方法进行了很多扩展或改进研究。
[0007] 可W看出,已有关联规则挖掘方法的共同特点是由单个项目通过逐次增加的方式 生成频繁项目子集,在生成过程中,每个项目按其支持度从大到小排列,从而频繁项目子集 按支持度从大到小的顺序生成。在hash-树的存储结构中,由单个项目开始逐次增加,需要 遍历事例集与项目集多次才可生成频繁项目子集,在大型事例项目数据库中,其计算次数 及存储空间将呈现为指数增长。在FP-树的存储结构中,利用项目按其支持度从大到小排列 表,经事例集与项目集两次遍历就可构造出频繁项目子集按支持度从大到小在FP树中的分 支图,由于频繁项目子集仍是按每个项目逐次增加的方式生成,因此,在大型事例项目数据 库中,源于FP-树的方法在生成频繁项目子集及其相应的关联规则过程中仍设及计算次数 及存储空间的问题。总体来看,通过单个项目的支持度大小W及逐次添加项目的方式生成 频繁项目子集具有如下不足:
[0008] 1、逐个添加项目本质上是在项目集中对单个项目进行遍历捜索,导致生成的频繁 项目子集数量庞大,特别在大型事例项目数据库中频繁项目子集数量呈现指数增长,不利 于快速挖掘如极小-极大关联规则、极小非约简关联规则等。事实上,在大型事例项目数据 库中,各项目之间是存在一种相关关系的,某一个项目的出现必然会导致另一个项目的出 现,逐个添加项目的方式没有用到运种项目之间的相关关系。
[0009] 2、逐个添加项目方法在生成频繁项目子集的过程中计算量大,生成了很多冗余的 频繁项目子集,导致捜索闭频繁项目集、项目子集的生成元等信息的范围扩大,带来了运算 和存储两方面的问题,不利于关联规则的快速挖掘。事实上,利用大型事例项目数据库中各 项目之间的相关关系可有效约简冗余频繁项目子集的生成个数。

【发明内容】

[0010] 针对逐次添加项目方法在关联规则挖掘过程中的不足,本发明利用大型事例项目 数据库中各项目之间的一种相关关系生成频繁项目子集,提供项目子集事例树的构造方 法,提供在项目子集事例树中快速挖掘闭频繁项目集、极小生成元和极小非约简关联规则 的方法。
[0011 ]为了实现上述发明目的,本发明采用的技术方案是:
[0012] -种基于项目子集事例树的极小非约简关联规则挖掘方法包括W下步骤:在事例 项目数据库中,根据事例与项目之间的闭包运算,生成每个项目对应的闭项目集,该闭项目 集满足其支持度与对应项目的支持度相同;
[0013] 对生成的闭项目集按集合中元素个数从大到小排序,通过集合的并运算,生成各 项目子集。通过集合的交运算,生成各项目子集满足的事例集(项目子集的支持度),并按生 成顺序,构建项目子集事例树结构;
[0014] 在项目子集事例树中,挖掘闭频繁项目集及其极小生成元,进一步,生成极小非约 简关联规则。
[001引具体的,令事例项目数据库为D= (U,A),其中,U= {山,112, . . .,Un}为事例集,A = (曰1,曰2,. . .,am}为项目集,每一事例Ui(i = l,2,. . .,n)是一个项目子集,例如山={曰1,曰2,曰3} 是A的一个子集,表示事例Ul满足项目曰1,曰2和曰3。本发明采用如下两个映射描述事例与项目 之间的两种运算:对任意SjGAJ = 1,2,...,m,
[0016]
[0017]直观地,T咕)表示所有满足项目a撕事例构成的事例子集,因此,在事例项目数据库 中,项目aj的支持度为T(aj)的元素个数,即sup(aj)=|T(aj)|。自然地,对任意项目子集A口!, [001 引
[0019] 直观地,T(Ak)表示同时满足A冲每一个项目的事例构成的事例子集,因此,项目子 集Ak的支持度为T(Ak)的元素个数,即I T(Ak) I。
[0020] 对任意事例子集K 化所满足的项目子集为
[0021]
[0022] 基于上述映射表示,本发明所述基于项目子集事例树的极小非约简关联规则挖掘 方法具体描述如下:
[0023] 1、生成每个项目对应的闭项目集
[0024] 对任意项目ajGA,使用上述两个映射T和丫,由项目aj生成的闭项目集为
[0025]
[0026] 根据映射T和丫的表示,T(aj)是所有满足项目aj的事例子集,T(aj)所满足的项目 子集为丫(T(aj)),因此,项目子集C(aj)满足的事例子集与项目aj满足的事例子集相同,即C (aj)的支持度就是项目^的支持度。人们已得到很多关于映射T和丫的良好性质,根据已有 的性质,容易证明C佔)是一个闭项目集。形式上,闭项目集C佔)刻画了与项目a洞时发生 运样一种相关关系,即项目W满足的事例同时也被C佔)中任一项目满足,若项目a础现,贝U C(W)中其它项目也必然出现。
[0027] 2、构建项目子集事例树
[0028] 与逐次添加单个项目生成频繁项目集不同,本发明采用单个项目的闭项目集C (aj)生成项目子集,即将8={"曰1),(:(曰2),...,"曰。)}理解为生成基,项目子集由8中若干 元素利用集合的并运算生成,例如C(al)UC(a2)UC(am)生成一个项目子集,形式地,令A/为 生成的一个项目子集,贝U
[0029]
[0030] 人们已得到很多关于闭项目集C(aj)的良好性质,根据已有的性质,容易证明事例 项目数据库的所有闭项目集一定包含在由生成基B= {C(ai),C(a2),. . .,C(am)}生成的所 有项目子集中。根据运一结论,我们可由生成基B首先生成所有的项目子集,然后在生成的 项目子集中挖掘所需的闭频繁项目集。由于每个C(aj)本身是一个闭项目集,一方面,由生 成基B生成的项目子集与逐次添加单个项目生成的项目子集不同,另一方面,由生成基B生 成的项目子集是项目集幕集的一个真子集,数量上比逐次添加单个项目生成的项目子集 少,运意味着挖掘闭频繁项目集的范围要小。形式地,满足由生成基B生成的项目子集y的 事例集可表示为
[0031]
[0032] 如下过程用于构建项目子集事例树,并快速生成上述所有项目子集及其满足的事 例集:
[0033] (I)项目子集事例树的每一个节点表示为
[0034] A' X T (A')
[003引其中,为由生成基B生成的一个项目子集,)是满足的事例集。
[0036] (2)项目子集事例树的根节点表示为
[0037] 0乂 U
[0038] (3)根节点的每一个子节点表示为
[0039] C(aj)XT(C(aj))
[0040] 其中,子节点从左到右按C(aj)中包含项目的个数从大到小排列,即从左到右,第 一个子节点是C(aj)中包含项目的个数最多,最后一个子节点是C(aj)中包含项目的个数最 少,个数相同时按序号排列。
[0041] (4)每一个子节点C(aj)XT(C(aj))的子节点按如下方式生成:令C(ai)XT(C (ai) ),C(a2)XT(C(a2)),...,C(am)XT(C(am))是按(3)要求的排序结果,对任一子节点 C (aj) Xi(C(aj)),其第一个子节点为
[0042] (C(aj) UC(aj+i))X(T(C(aj))nT(C(aj+i)))
[00创若C(aj)UC(aj+l)声A且^?)^aa?)且r(パa,))nr(C(aJ)娩5,其它节点可分别 按(C(aj)UC(aj+2))X(T(C(aj))nT(C(aj+2))),...,(C(aj)UC(am))X(T(C(aj))nT(C (am)))依次生成。
[0044] (5)对任一节点XtW ),假设=A" UC佔),则XtW )的第一个子节点为
[0045] (A' UC(aj+i))X(T(A')nT(C(aj+i)))
[0046] 若A' UC(aw)声A且巧如!)心'且r (/IOnr(广(如))韵,其它节点可分别按(C (A^ ) UC(aj+2)) X (x(C(A^ )) n T(C(aj+2))), . . . ,(C(A^ ) UC(am)) X (t(C(A〇 ) n T(C(am))) 依次生成。
[0047] (6)如需生成频繁项目子集,只需要在每个节点生成过程中增加大于等于最小支 持度a运一限制条件,即对任一节点Xt(A/ ),增加限制条件
[004引 |T(A')|>a
[0049] 3、挖掘闭频繁项目集及其极小生成元并生成极小非约简关联规则
[0050] 在项目子集事例树,每一个节点均由项目子集及其满足的事例集构成,根据事例 集,可在项目子集事例树的节点上定义如下等价关系>:
[0051 ]对任意两个节点A' X t(A')和A" X t(A"),
[0052] A' XT(A')>A"XT(A")当且仅当T(A') = T(A")
[0053] 根据等价关系>,可将节点合并为
[0054] [A']Xt(A')
[0055] 其中,[y]是由项目子集事例树中所有与节点X T(y)等价的节点的项目子集 构成的集合,即[A^ ]中的项目子集满足的事例集为T(y)。为便于描述,本发明给出如下约 定:
[0056] (l)max[A/]为[A/]中按包含关系确定的最大元。
[0057] (2)min[A/]为[A/]中最大元的生成元集合
[005引基于上述约定,闭频繁项目集及其极小生成元如下生成:
[0059] . max[A/]是支持度为I ) I的闭频繁项目集
[0060] ?令A" Gmin[A/],若存在A"的子集满足该子集的事例集就是T(A/ )且没有比该 子集更小的子集其事例集也是T(y ),则该子集为闭频繁项目集max[A/ ]的一个极小生成 元,记Gmin[A/ ]为所有从min[A/ ]中获得的max[A/ ]的极小生成元。
[0061] 根据闭频繁项目集及其极小生成元,极小非约简关联规则如下生成:
[0062] ?可信度为1的极小非约简关联规则
[0063] 对任一等价类[A'],令AiGGminU'],则
[0064] Al一(max[A' ]-Ai)
[0065] 为极小非约简关联规则,其支持度为S叫(Al一(max[A' ]-Ai))= |t(A' ) I,可信度 conf(Ai一(max[A' ]-Ai))= I t(A' ) 1/1 T(Ai) I =1。
[0066] ?可信度为e的极小非约简关联规则
[0067] 对任一等价类[y]及其父节点等价类[A"],即在项目子集事例树中,A"是y的父 节点且T (A")声 T (A'),令Al G Gmin[A"],则
[0068] Al一(max[A' ]-Ai)
[0069] 为极小非约简关联规则,其支持度为sup(Al 一 (max[A/]-Al))= I T(y ) I,可信度e = Conf (Al一(max[A' ]-Al)) = I t(A' ) I / I T(Al) I <1。
[0070] 与现有技术相比,本发明的有益效果:
[0071] 本发明是一种基于项目子集事例树的极小非约简关联规则挖掘方法,利用单个项 目的闭项目集生成项目子集事例树,与利用枚举单个项目生成项目子集的方法比较,生成 较少的项目子集,有效地避免了冗余项目子集的生成。同时,将捜索闭频繁项目集及其极小 生成元限制在项目子集事例树中,有效地减少了闭频繁项目集及其极小生成元的捜索范 围。此外,利用目子集事例树中的等价类及其层次关系,快速挖掘极小非约简关联规则,有 效地避免了在项目集与事例集之间的多次重复计算。
【附图说明】
[0072] 图1是本发明一个实施例中用来计算得到每一个项目对应的闭项目集;
[0073] 图2是本发明一个实施例中用来生成项目子集事例树;
[0074] 图3是本发明一个实施例中生成的具体项目子集事例树;
[00对图4是本发明一个实施例中CHARM-L算法中生成的IT-树;
[0076] 图5是本发明一个实施例中用来挖掘极小非约简关联规则;
[0077] 图6为本发明所提算法与Aprior算法的运行时间曲线;
[007引图7为本发明所提算法与Aprior算法的使用内存曲线;
[0079] 图8为本发明算法流程图;
[0080] 图9给出6个事例5个项目的事例项目数据库;
[0081] 图10给出闭项目集及其支持度;
[0082] 图11给出图3所示项目子集事例树经过合并后的节点、闭项目集及其极小生成元;
[0083] 图12给出可信度阔值为0.9的极小非约简关联规则;
[0084] 图13给出实施例2运行时间和占用内存。
【具体实施方式】
[0085]下面结合【具体实施方式】对本发明作进一步的详细描述。但不应将此理解为本发明 上述主题的范围仅限于W下的实施例,凡基于本
【发明内容】
所实现的技术均属于本发明的范 围。
[00化]实施例1
[0087] 图1所示是本发明的一个实施例示出的一种基于项目子集事例树的极小非约简关 联规则挖掘方法,其目的是计算得到每一个项目对应的闭项目集,包括W下步骤:
[0088] 提供一个6个事例5个项目的事例项目数据库D=化,A)实例及其表格,给出该实例 的满足每一个项目的事例集及被事例集所满足的项目集,用于计算得到每一个项目对应的 闭项目集;
[0089] 具体的,图9描述了给出的6个事例5个项目的事例项目数据库D=化,A),结合图9, 满足每一个项目的事例集及被事例集所满足的项目集为:
[0090]
[0091]
[0092] 其中,i = l,2,...,6,j = l,2,3,4,5。据此,每一个项目对应的闭项目集为:
[0093] C(aj)= y (x(aj))
[0094] 其支持度为
[0095] Sup(C(aj)) = I T(aj) I。
[0096] 本具体实例每一项目对应的闭项目集为B= {C(ai),C(a2),C(a3),C(a4),C(as)}。
[0097] 图2所示是本发明的一个实施例示出的一种基于项目子集事例树的极小非约简关 联规则挖掘方法,其目的是基于图1生成的每一项目对应的闭项目集生成项目子集事例树, 包括W下步骤:
[009引生成Lo层的节点,即根节点么;0X化
[0099] 生成^层的节点,即根节点的子节点,
[0100] l^i:C(ai)XT(C(ai)),C(a2)XT(C(a2)),. . .,C(as)XT(C(a已))
[0101 ]其中,C(aj)是包含项目的个数第j大的闭项目集。
[0102]假设层已经生成,则第k层的节点由层中每个节点的子节点构成,对Lr-I层 的节点A/ Xt(A/ )且满足A/ =A/ uc(ak),其子节点如下生成:
[010:3] (A/ U C(ak+i))X(T(A/ )nT(C(ak+i) )),...,(A/ U C(a己))X(t(A/ ) HT(CXas)))
[0104] 且满足A/ UC(Eii)声A且幻往.):运J/且r(4/)nr(.C(3.y))#0,i = k+l,... ,5。
[0105] 图3所示是本发明的一个实施例示出的一种基于项目子集事例树的极小非约简关 联规则挖掘方法,其目的是基于图2生成的项目子集事例树挖掘极小非约简关联规则,包括 W下步骤:
[0106] 利用如下节点上的等价关系,对项目子集事例树中节点进行合并,对任意两个节 点A' Xt(A')和A"Xt(A"),
[0107] A' XT(A')>A"XT(A")当且仅当T(A') = T(A")
[0108] 据此可将事例集相同的节点合并为
[0109] [A']Xt(A')
[0110] 其中,项目子集等价类[A/]中的项目子集满足的事例集都为T(y),按集合包含关 系,[A^]中的最大元和生成元记为
[0111] max[A^ ]
[0…]min[A']
[011:3] max[y]是由生成的闭项目集,max[y]的极小生成元在min[y忡捜索,即对任 一 A" Gmin[y],若存在A"的子集满足该子集的事例集就是T(A/ )且没有比该子集更小的子 集其事例集也是T(y ),则该子集为闭项目集max[y ]的一个极小生成元,记Gmin[y ]为所 有从min[A/ ]中获得的max[A/ ]的极小生成元。
[0114] 据此,极小非约简关联规则如下生成:
[0115] 对任一等价类[A'],令AiGGminU'],则
[0116] Al一(max[A']-Ai)
[0117] 其支持度为S叫(Al一(max[A' ]-Ai))= I T(A' ) I,可信度为conf(Ai^(max[A']- Ai))= I t(A' ) I/ I T(Ai) I =1。
[0118] 对任一等价类[y]及其父节点等价类[A"L即在项目子集事例树中,A"是y的父 节点且T (A")声 T (A'),令Al G Gmin[A"],则
[0119] Al一(max[A']-Ai)
[0120] 其支持度为sup(Ai一(max[A' ]-Ai))= I T(A' ) I,可信度为0 = conf(Ai^(max[A']_ Ai))= |t(A' ) |/|t(Ai) |<1。
[0121] 实施例1:
[0122] -个事例项目数据库为D=化,4) = ({1,2,3,4,5,6},{曰1,曰2,曰3,曰4,曰日})实例如图9 所示。
[0123] 根据图9及图1所示,满足ai的事例集为
[0124]
[0125] 事例集{1,2,5}所满足的项目子集为
[0126]
[0127]因此,项目曰1对应的闭项目集为:
[012引 c(ai)= 丫(T(ai)) = {ai}
[0129] 其支持度为
[0130] Sup(C(ai))= x(ai) = {1,2,5} =3〇
[0131] 同理可得曰2,曰3,曰4和a日对应的闭项目集及其支持度,本例结果见图10
[0132] 根据图10所示,按包含项目数排序结果为:C(a4),C(a2),C(ai),C(a3),C(a5),因此, 根节点0X^的子节点构成^层,从左到右分别为
[0133] C(a4)X{5,6},C(a2)X{4,5},C(ai)X{l,2,5},C(a3)X{2,3,4,5,6},C(a5)X{l, 3,5,6} O
[0134] ^层各节点的子节点构成L2层,其中,C(a4)X{5,6}的子节点为
[0135] (C(a4)UC(a2))X({5,6} n{4,5}),(C(a4)UC(ai))X({5,6}n {1,2,5})
[0136] C(a4)UC(a3)和(C(a4) UC(as))不生成节点,因为不满足巧曲狂4/,其它子节点类 似可生成。L2层各节点的子节点构成L3层,其中,(C(a4)UC(a2))X{引的子节点为
[0137] ((C(a4)UC(a2))UC(ai))X({5} n{l,2,5})
[0138] ((C(a4)UC(a2))UC(a3))和((C(a4)UC(a2))UC(a日))不生成节点,因为不满足 八4)CX也,其它子节点类似可生成。图3给出了本例中生成的具体项目子集事例树,其中,如 曰3曰4曰康不项目子集{曰3,曰4,曰日},56表不事例子集{5,6}。图4是在本例中使用CHARM-L算法所 生成的IT-树,其中,项目子集与事例子集表示类似于图3。与图4比较,图3的项目子集事例 树的层数和节点数均少于图4的IT-树,自然地,挖掘闭频繁项目集及其极小生成元的范围 比IT-树要少,因此在项目子集事例树中可更快地生成极小非约简关联规则。
[0139] 根据图3所示的项目子集事例树,通过事例集相等,合并项目子集事例树中的节 点,例如[ala2a3]X5,其中,
[0140] [ala2a3] = {ala2a3,ala3a5,a2a3a5,ala2a3a5,ala3a4a5,a2a3a4a5, 曰1曰2曰3曰4曰5}
[0141] max[ala2a3] =ala2a3a4a5,
[0142] min[ala2a3]={ala2a3,ala3a5,a2a3a5,ala2a3a5,ala3a4a5,a2a3a4a5},
[0143] Gmin[ala2a3]={ala2,ala4,a2a4,a2a5,ala3a5}
[0144] 生成可信度为I的极小非约简关联规则如下
[0145] 曰1曰2一曰3曰4曰5,曰1曰4一曰2曰3曰5,曰2曰4一曰1曰3曰5,曰2曰已一曰化3曰4,曰化3曰已一曰2曰4
[0146] 图11给出了图3所示项目子集事例树经过合并后的节点,闭项目集及其极小生成 元,图12给出了可信度阔值为0.9的极小非约简关联规则。
[0147] 实施例2
[0148] 本实施例使用EXTEND抓BAKERY Dataset数据集,该数据集记录了购买40种面包 (编号为1至40)和10中饮料(编号为41至50)共75000条销售记录,所挖掘的属性关联规则体 现为购买面包和饮料的关联关系,使用本发明方法挖掘属性关联规则,支持度阔值设定为 0.0 l,可信度阔值设定为0,共生成112条属性关联规则,并与经典Aprior算法从属性关联规 则的数量(352条)、运行时间和占用内存方面进行比较,其中,属性关联规则的数量及规则 的前后件内容完全一致,运行时间和占用内存见图13,在比较实验中,本实施例将原始数据 75000条数据进行复制翻倍操作7次,W 2的倍数规模增长,分别得到8组数据,所得规则数量 及其支持度、可信度不变,但运行时间和占用内存有变化。图6展示了本发明所提算法与 Aprior算法的运行时间曲线。图7展示了本发明所提算法与Aprior算法的使用内存曲线。
[0149] 使用本方法生成的112条属性关联规则全部在Aprior算法生成的属性关联规则 (352条)之中,且全部规则为Min-Max规则。
[0150] W上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何 属于本技术领域的技术人员在本发明掲露的技术范围内,可轻易想到的变化或替换,都应 涵盖在本发明的保护范围之内。
【主权项】
1. 基于项目子集事例树的极小非约简关联规则挖掘方法,其特征在于,包括以下步骤: 步骤1、在事例项目数据库中,根据事例与项目之间的闭包运算,生成每个项目对应的 闭项目集,该闭项目集满足其支持度与对应项目的支持度相同; 步骤2、对生成的闭项目集按集合中元素个数从大到小排序,通过集合的并运算,生成 各项目子集; 步骤3、通过集合的交运算,生成各项目子集满足的事例集,并按生成顺序,并根据生成 的事例集构建项目子集事例树结构; 步骤4、在项目子集事例树中,挖掘闭频繁项目集及其极小生成元,再利用获得的闭频 繁项目集及其极小生成元生成极小非约简关联规则。2. 根据权利要求1所述的基于项目子集事例树的极小非约简关联规则挖掘方法,其特 征在于,所述的步骤1,包括以下步骤, 步骤1.1、满足某项目的事例与某事例所满足的项目,构成一对事例与项目之间的闭包 运算; 步骤1.2、使用该闭包运算,可以生成满足某一项目的事例共同满足的项目子集,即满 足某一项目的事例确定的闭项目集。3. 根据权利要求1所述的基于项目子集事例树的极小非约简关联规则挖掘方法,其特 征在于,所述的步骤2,包括以下步骤, 步骤2.1、对每一项目满足的事例确定的闭项目集,根据其中包含的项目个数从大到小 排序; 步骤2.2、再按排序顺序,对已生成的项目子集和选定的闭项目集,通过集合的并运算, 生成一个新的项目子集。4. 根据权利要求3所述的基于项目子集事例树的极小非约简关联规则挖掘方法,其特 征在于,所述的步骤3,通过集合的交运算,计算新项目子集满足的事例集,并按事例集生成 顺序,构建项目子集事例树结构。5. 根据权利要求1所述的基于项目子集事例树的极小非约简关联规则挖掘方法,其特 征在于,所述的步骤4,包括以下步骤, 步骤4.1、在项目子集事例树中,选择具有相同事例集的项目子集; 步骤4.2、按包含关系,相同事例集的项目子集中的最大元为闭项目集,其中的生成元 用于得到该闭项目集的极小生成元; 步骤4.3、以极小生成元为前件,该闭项目集减去极小生成元为后件,生成极小非约简 关联规则。
【文档编号】G06F17/30GK106021546SQ201610365087
【公开日】2016年10月12日
【申请日】2016年5月27日
【发明人】裴峥, 李波, 周斌, 孔明明
【申请人】西华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1