一种关联规则的挖掘方法和关联规则的挖掘装置的制造方法

文档序号:9911203阅读:508来源:国知局
一种关联规则的挖掘方法和关联规则的挖掘装置的制造方法
【技术领域】
[0001] 本发明涉及遥感影像领域,尤其涉及一种关联规则的挖掘方法和关联规则的挖掘 装置。
【背景技术】
[0002] 关联规则挖掘是数据挖掘领域中一个非常重要的分支,主要用于从大数据量的事 务集中找出满足用户最小支持度的频繁项目集。对遥感影像数据挖掘而言,其过程可以理 解为从遥感影像中抽取不同层次的知识,分析知识之间的关系,从而挖掘出遥感影像中隐 含的潜在的规律性知识。
[0003] 现有的Sampling算法、Part it ion算法、DIC算法等都试图减少軒交易数据集合的 搜索次数,但仍有很多缺点。Sampling算法从原数据集合中随机抽样出一部分样本,利用样 本来挖掘关联规则以减少算法的搜索次数,但是由于数据集合中经常存在数据分布不均匀 的情况,所以随机抽样根本就无法保证能够抽取到有代表性的样本;Partition算法虽然通 过对数据集合分区分别挖掘,最后进行汇总的方法来减轻I/O的负担,事实上它是增加了 CPU的负担;DIC算法采用动态计算的策略来减少搜索次数以提高算法的效率,但与Apriori 算法在思想上没有根本不同之处,它也还是一个多趟搜索算法。这些算法在读入交易数据 时生成候选项目集,产生许多不必要的候选项目集,计算量大。尤其对海量数据集合来说, 以上算法只有在较高的最小支持度和最小可信度下或增加其它约束后才有一定的挖掘效 率,否则将会产生频繁项目集的组合爆炸,而变得效率低下甚至超过机器的存储和计算能 力。因为任何算法都必须计算项目集及其支持度,所以真正影响算法效率的是对项目集及 其支持度的计算问题。每一次的计算不仅花费大量CPU时间,而且还牵涉I/O的请求。
[0004] 也就说,现有关联规则挖掘算法由于需要多次遍历事务数据库,导致挖掘效率低 下,需要花费大量CPU时间。另外现有的Apriori、FP-Growth及其改进算法对数据有一定的 要求,即同一个事务中,项的取值不能相同,否则挖掘算法将不能运行。

【发明内容】

[0005] 本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此本发明的第 一个目的在于提出一种关联规则的挖掘方法。
[0006] 本发明的第二个目的在于提出关联规则的挖掘装置。
[0007] 为了实现上述目的,本发明第一方面实施例的关联规则的挖掘方法,所述挖掘方 法包括以下步骤:
[0008] 获取和扫描事务集,将所述事务集转化为多维数据立方体,并记录下整个事务集 的长度;
[0009] 根据所述多维数据立方体得到1-项集和1-项频繁集;
[0010] 根据1-项频繁集得到k-项集和k-项频繁集,以及根据k-项集得到k+i-项集和k+i-项频繁集,其中k为大于且等于2的正整数;
[0011] 根据1-项频繁集和k-项频繁集,产生1-项频繁集的所有子集和k-项频繁集的所有 子集以生成所述事务集的关联规则。
[0012] 本发明实施例的关联规则的挖掘方法,所述挖掘方法包括以下步骤:
[0013] 获取和扫描事务集,将所述事务集转化为多维数据立方体,并记录下整个事务集 的长度;
[0014] 根据所述多维数据立方体得到1-项集和1-项频繁集;
[0015] 根据1-项频繁集得到k_项集和k_项频繁集,以及根据k_项频繁集得到k+Ι-项集和 k+l_项频繁集,其中k为大于且等于2的正整数;
[0016] 根据1-项频繁集和k-项频繁集,产生1-项频繁集的所有子集和k-项频繁集的所有 子集以生成所述事务集的关联规则。
[0017] 本发明实施例的关联规则的挖掘方法,整个关联规则挖掘过程仅遍历了一遍事务 集,虽然在获取频繁项集及关联规则时需要多次遍历多维数据立方体,但遍历后者的时间 消耗要远小于遍历事务集,因此从运行速度上来说,本发明的方法要明显快于传统的挖掘 算法。
[0018] 为了实现上述目的,本发明第二方面实施例的关联规则的挖掘装置,所述挖掘装 置包括:
[0019] 转化模块,用于获取和扫描事务集,将所述事务集转化为多维数据立方体,并记录 下整个事务集的长度;
[0020] 第一生成模块,用于根据所述多维数据立方体得到1-项集和1-项频繁集;
[0021] 第二生成模块,用于根据1-项频繁集得到k_项集和k_项频繁集,以及根据k_项频 繁集得到k+Ι-项集和k+Ι-项频繁集,其中k为大于且等于2的正整数;
[0022]第三生成模块,用于根据1-项频繁集和k-项频繁集,产生1-项频繁集的所有子集 和k_项频繁集的所有子集以生成所述事务集的关联规则。
[0023] 本发明实施例的关联规则的挖掘装置,整个关联规则挖掘过程仅遍历了一遍事务 集,虽然在获取频繁项集及关联规则时需要多次遍历多维数据立方体,但遍历后者的时间 消耗要远小于遍历事务集,因此从运行速度上来说,本发明的方法要明显快于传统的挖掘 算法。
【附图说明】
[0024] 图1是本发明关联规则的挖掘方法一实施例的流程图;
[0025] 图2是本发明生成k_项集的方法第一实施例的流程图;
[0026] 图3是本发明生成k_项集的方法第二实施例的流程图;
[0027]图4是本发明生成k_项集的方法第三实施例的流程图;
[0028] 图5是本发明关联规则的挖掘装置一实施例的结构示意图;
[0029] 图6是本发明关联规则的挖掘方法的运行时间示意图;
[0030] 图7是现有挖掘方法的运行时间示意图。
【具体实施方式】
[0031] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0032] 下面参考附图描述本发明实施例的关联规则的挖掘方法和关联规则的挖掘装置。
[0033] 图1是根据本发明一个实施例关联规则的挖掘方法的流程图。如图1所示,所述关 联规则的挖掘方法,包括以下步骤:
[0034] S11,获取和扫描事务集,将所述事务集转化为多维数据立方体,并记录下整个事 务集每一个项的长度。
[0035] 具体地,根据所述事务集中每个事务的项的取值,将所述事务集转化为多维数据 立方体。其中,多维数据立方体用于实现对数据仓库中多维数据的多角度多层面的分析和 处理。本实施例中,将事务集中的每一个项定义为一个维,而每一个项的取值范围定义为该 维的长度,例如,一个事务集的结构如下:
[00361
[0037]在所述事务集中,包含3个维,分别为Iteml,Item2和Item3,这3个维的长度分别为 5,4,4。由此可以将该事务集用一个三维数据立方体表示,三维数据立方体可以用如下的三 维直角坐标系表达:
[003
[0039] 具体的,事务集中的每一个事务,均可以用三维直角坐标系中的一个点来表示。在 物理存储上,该三维数据立方体可以用一个三维数组来存储,如果将三维数据立方体用C表 示,则T1事务可以用C[l] [4] [3] = 1来表示,同理可表示T2和T3事务。事务集中的所有事务 均可以用三维数组中的一个点来存储,而三维数组中不包含在事务集中的点则用〇来表示。 由此,即可将数据集转换为一个三维数据立方体。同理,包含N个项的事务集可以表示为N维 数据立方体,而在存储上,N维数据立方体可以表示为一个N维数组。
[0040] 另外,所述多维数据立方体包括单值数据立方体,多值无序数据立方体,多值有序 数据立方体和属性数据立方体。
[0041 ]其中,单值数据立方体对应于单值事务集,也称为布尔型事务集,是指在事务集 中,每个事务的项的取值仅包含0和1,表示该项在该事务中的存在性。例如: 「00421
'[0043]~上述事务集中,a~i表示每一个事务所包含的项,并不是每个事务都包含所有的, 项,因此上述事务集可以转化为如下的单值或布尔型事务集:
[0044]
[0045] 表中字母a~i表示项,而1和0表示该项在事务中的取值。在将上述事务集转换为 多维数
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1