频繁项集的生成方法及装置的制造方法_4

文档序号:9750997阅读:来源:国知局
度的N元目标数据项,从而获得N元频繁项 集。可见,本实施例中使用数据库查询语句表示关联分析的规则,该种基于数据库查询的项 集生成方式,不需构建复杂的数据结构,运算量较小,项集生成效率较高。
[0102] 可选地,一元频繁项集生成模块302具体包括:一元频繁项集生成子模块;其中:
[0103] -元频繁项集生成子模块,用于若数据元个数N为1,则将原始数据表中的数据项 列作为待生成列,使用包含分组过滤规则的数据库查询语句,对若干组数据项进行分组,并 在分组结果中,查询所在组的个数满足频繁支持度的目标数据项,将包含目标数据项的数 据表确定为一元频繁项集。
[0104] 与上述频繁项集的生成方法实施例2相对应,本申请提供了一种频繁项集的生成 装置实施例2。如图4所示,本装置实施例可以具体包括:参数及原始数据表获取模块301、一 元频繁项集生成模块302、一元频繁次数获取模块304、多元频繁项集生成模块303及多元频 繁次数获取模块305。
[0105] 需要说明的是,本实施例中的模块301~模块303可以参见上述装置实施例1,此处 并不赘述,仅对模块304及模块305进行说明。
[0106] -元频繁次数获取模块304,用于若数据元个数N为1,则将目标数据项所在组的个 数作为一元频繁项集的频繁次数。
[0107] 多元频繁次数获取模块305,用于若数据元个数N大于1,则将N元目标数据项所在 组的个数作为N元频繁项集的频繁次数。
[0108] 需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重 点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0109] 还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个 实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间 存在任何这种实际的关系或者顺序。而且,术语"包括"、"包含"或者其任何其他变体意在涵 盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要 素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备 所固有的要素。在没有更多限制的情况下,由语句"包括一个……"限定的要素,并不排除在 包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0110] 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。 对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的 一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请 将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一 致的最宽的范围。
【主权项】
1. 一种频繁项集的生成方法,其特征在于,包括: 确定待生成频繁项集的数据元个数N、频繁支持度及原始数据表;其中,所述原始数据 表中包含若干组数据项; 若所述数据元个数N为1,则使用包含分组过滤规则的数据库查询语句,从所述若干组 数据项中,查询所在组的个数满足所述频繁支持度的目标数据项,将包含所述目标数据项 的数据表确定为一元频繁项集; 若所述数据元个数N大于1,则获得一个一元频繁项集、一个N-1元频繁项集及N个原始 数据表,使用包含表关联规则及分组过滤规则的数据库查询语句,对所述一元频繁项集、N-1元频繁项集及N个原始数据表进行关联及分组过滤查询,获得所在组的个数满足所述频繁 支持度的N元目标数据项,将包含所述N元目标数据项的数据表确定为N元频繁项集。2. 根据权利要求1所述的频繁项集的生成方法,其特征在于,所述若所述数据元个数N 为1,则使用包含分组过滤规则的数据库查询语句,从所述若干组数据项中,查询所在组的 个数满足所述频繁支持度的目标数据项,包括: 若所述数据元个数N为1,则将所述原始数据表中的数据项列作为待生成列,使用包含 分组过滤规则的数据库查询语句,对所述若干组数据项进行分组,并在分组结果中,查询所 在组的个数满足所述频繁支持度的目标数据项。3. 根据权利要求1所述的频繁项集的生成方法,其特征在于,还包括: 若所述数据元个数N为1,则将所述目标数据项所在组的个数作为所述一元频繁项集的 频繁次数。4. 根据权利要求1或3所述的频繁项集的生成方法,其特征在于,还包括: 若所述数据元个数N大于1,则将所述N元目标数据项所在组的个数作为所述N元频繁项 集的频繁次数。5. -种频繁项集的生成装置,其特征在于,包括: 参数及原始数据表获取模块,用于确定待生成频繁项集的数据元个数N、频繁支持度及 原始数据表;其中,所述原始数据表中包含若干组数据项; 一元频繁项集生成模块,用于若所述数据元个数N为1,则使用包含分组过滤规则的数 据库查询语句,从所述若干组数据项中,查询所在组的个数满足所述频繁支持度的目标数 据项,将包含所述目标数据项的数据表确定为一元频繁项集; 多元频繁项集生成模块,用于若所述数据元个数N大于1,则获得一个一元频繁项集、一 个N-1元频繁项集及N个原始数据表,使用包含表关联规则及分组过滤规则的数据库查询语 句,对所述一元频繁项集、N-1元频繁项集及N个原始数据表进行关联及分组过滤查询,获得 所在组的个数满足所述频繁支持度的N元目标数据项,将包含所述N元目标数据项的数据表 确定为N元频繁项集。6. 根据权利要求5所述的频繁项集的生成装置,其特征在于,所述一元频繁项集生成模 块包括: 一元频繁项集生成子模块,用于若所述数据元个数N为1,则将所述原始数据表中的数 据项列作为待生成列,使用包含分组过滤规则的数据库查询语句,对所述若干组数据项进 行分组,并在分组结果中,查询所在组的个数满足所述频繁支持度的目标数据项,将包含所 述目标数据项的数据表确定为一元频繁项集。7. 根据权利要求5所述的频繁项集的生成装置,其特征在于,还包括: 一元频繁次数获取模块,用于若所述数据元个数N为1,则将所述目标数据项所在组的 个数作为所述一元频繁项集的频繁次数。8. 根据权利要求5或7所述的频繁项集的生成装置,其特征在于,还包括: 多元频繁次数获取模块,用于若所述数据元个数N大于1,则将所述N元目标数据项所在 组的个数作为所述N元频繁项集的频繁次数。
【专利摘要】本申请提供了一种频繁项集的生成方法实施例,本实施例首先确定数据元个数N、频繁支持度及原始数据集,若数据元个数为1,则使用包含分组过滤规则的数据库查询语句,从数据项中,查询个数满足频繁支持度的数据项,生成一元频繁项集,若数据元个数大于1,获得一个一元频繁项集、N-1元频繁项集及N个原始数据表,使用包含分组过滤规则及关联规则的数据库查询语句,对多个数据表进行关联及分组过滤,获得满足频繁支持度的N元目标数据项,生成N元频繁项集。可见,本实施例中使用数据库查询语句表示关联分析的规则,该种基于数据库查询的方式,不需构建复杂的数据结构,运算量较小,生成效率较高。本申请还提供了一种频繁项集的生成装置。
【IPC分类】G06F17/30
【公开号】CN105512322
【申请号】CN201510960773
【发明人】高尚, 王宁, 崔大凯, 刘安, 周灵艳, 李莉
【申请人】中国农业银行股份有限公司
【公开日】2016年4月20日
【申请日】2015年12月18日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1