一种关联规则的挖掘方法和关联规则的挖掘装置的制造方法

文档序号：9911203阅读：508来源：国知局

一种关联规则的挖掘方法和关联规则的挖掘装置的制造方法
【技术领域】
[0001] 本发明涉及遥感影像领域，尤其涉及一种关联规则的挖掘方法和关联规则的挖掘装置。
【背景技术】
[0002] 关联规则挖掘是数据挖掘领域中一个非常重要的分支，主要用于从大数据量的事务集中找出满足用户最小支持度的频繁项目集。对遥感影像数据挖掘而言，其过程可以理解为从遥感影像中抽取不同层次的知识，分析知识之间的关系，从而挖掘出遥感影像中隐含的潜在的规律性知识。
[0003] 现有的Sampling算法、Part it ion算法、DIC算法等都试图减少軒交易数据集合的搜索次数，但仍有很多缺点。Sampling算法从原数据集合中随机抽样出一部分样本，利用样本来挖掘关联规则以减少算法的搜索次数，但是由于数据集合中经常存在数据分布不均匀的情况，所以随机抽样根本就无法保证能够抽取到有代表性的样本;Partition算法虽然通过对数据集合分区分别挖掘，最后进行汇总的方法来减轻I/O的负担，事实上它是增加了 CPU的负担;DIC算法采用动态计算的策略来减少搜索次数以提高算法的效率，但与Apriori 算法在思想上没有根本不同之处，它也还是一个多趟搜索算法。这些算法在读入交易数据时生成候选项目集，产生许多不必要的候选项目集，计算量大。尤其对海量数据集合来说，以上算法只有在较高的最小支持度和最小可信度下或增加其它约束后才有一定的挖掘效率，否则将会产生频繁项目集的组合爆炸，而变得效率低下甚至超过机器的存储和计算能力。因为任何算法都必须计算项目集及其支持度，所以真正影响算法效率的是对项目集及其支持度的计算问题。每一次的计算不仅花费大量CPU时间，而且还牵涉I/O的请求。
[0004] 也就说，现有关联规则挖掘算法由于需要多次遍历事务数据库，导致挖掘效率低下，需要花费大量CPU时间。另外现有的Apriori、FP-Growth及其改进算法对数据有一定的要求，即同一个事务中，项的取值不能相同，否则挖掘算法将不能运行。

【发明内容】

[0005] 本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此本发明的第一个目的在于提出一种关联规则的挖掘方法。
[0006] 本发明的第二个目的在于提出关联规则的挖掘装置。
[0007] 为了实现上述目的，本发明第一方面实施例的关联规则的挖掘方法，所述挖掘方法包括以下步骤：
[0008] 获取和扫描事务集，将所述事务集转化为多维数据立方体，并记录下整个事务集的长度；
[0009] 根据所述多维数据立方体得到1-项集和1-项频繁集；
[0010] 根据1-项频繁集得到k-项集和k-项频繁集，以及根据k-项集得到k+i-项集和k+i-项频繁集，其中k为大于且等于2的正整数；
[0011] 根据1-项频繁集和k-项频繁集，产生1-项频繁集的所有子集和k-项频繁集的所有子集以生成所述事务集的关联规则。
[0012] 本发明实施例的关联规则的挖掘方法，所述挖掘方法包括以下步骤：
[0013] 获取和扫描事务集，将所述事务集转化为多维数据立方体，并记录下整个事务集的长度；
[0014] 根据所述多维数据立方体得到1-项集和1-项频繁集；
[0015] 根据1-项频繁集得到k_项集和k_项频繁集，以及根据k_项频繁集得到k+Ι-项集和 k+l_项频繁集，其中k为大于且等于2的正整数；
[0016] 根据1-项频繁集和k-项频繁集，产生1-项频繁集的所有子集和k-项频繁集的所有子集以生成所述事务集的关联规则。
[0017] 本发明实施例的关联规则的挖掘方法，整个关联规则挖掘过程仅遍历了一遍事务集，虽然在获取频繁项集及关联规则时需要多次遍历多维数据立方体，但遍历后者的时间消耗要远小于遍历事务集，因此从运行速度上来说，本发明的方法要明显快于传统的挖掘算法。
[0018] 为了实现上述目的，本发明第二方面实施例的关联规则的挖掘装置，所述挖掘装置包括：
[0019] 转化模块，用于获取和扫描事务集，将所述事务集转化为多维数据立方体，并记录下整个事务集的长度；
[0020] 第一生成模块，用于根据所述多维数据立方体得到1-项集和1-项频繁集；
[0021] 第二生成模块，用于根据1-项频繁集得到k_项集和k_项频繁集，以及根据k_项频繁集得到k+Ι-项集和k+Ι-项频繁集，其中k为大于且等于2的正整数；
[0022]第三生成模块，用于根据1-项频繁集和k-项频繁集，产生1-项频繁集的所有子集和k_项频繁集的所有子集以生成所述事务集的关联规则。
[0023] 本发明实施例的关联规则的挖掘装置，整个关联规则挖掘过程仅遍历了一遍事务集，虽然在获取频繁项集及关联规则时需要多次遍历多维数据立方体，但遍历后者的时间消耗要远小于遍历事务集，因此从运行速度上来说，本发明的方法要明显快于传统的挖掘算法。
【附图说明】
[0024] 图1是本发明关联规则的挖掘方法一实施例的流程图；
[0025] 图2是本发明生成k_项集的方法第一实施例的流程图；
[0026] 图3是本发明生成k_项集的方法第二实施例的流程图；
[0027]图4是本发明生成k_项集的方法第三实施例的流程图；
[0028] 图5是本发明关联规则的挖掘装置一实施例的结构示意图；
[0029] 图6是本发明关联规则的挖掘方法的运行时间示意图；
[0030] 图7是现有挖掘方法的运行时间示意图。
【具体实施方式】
[0031] 下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
[0032] 下面参考附图描述本发明实施例的关联规则的挖掘方法和关联规则的挖掘装置。
[0033] 图1是根据本发明一个实施例关联规则的挖掘方法的流程图。如图1所示，所述关联规则的挖掘方法，包括以下步骤：
[0034] S11，获取和扫描事务集，将所述事务集转化为多维数据立方体，并记录下整个事务集每一个项的长度。
[0035] 具体地，根据所述事务集中每个事务的项的取值，将所述事务集转化为多维数据立方体。其中，多维数据立方体用于实现对数据仓库中多维数据的多角度多层面的分析和处理。本实施例中，将事务集中的每一个项定义为一个维，而每一个项的取值范围定义为该维的长度，例如，一个事务集的结构如下：
[00361
[0037]在所述事务集中，包含3个维，分别为Iteml，Item2和Item3,这3个维的长度分别为 5,4,4。由此可以将该事务集用一个三维数据立方体表示，三维数据立方体可以用如下的三维直角坐标系表达：
[003
[0039] 具体的，事务集中的每一个事务，均可以用三维直角坐标系中的一个点来表示。在物理存储上，该三维数据立方体可以用一个三维数组来存储，如果将三维数据立方体用C表示，则T1事务可以用C[l] [4] [3] = 1来表示，同理可表示T2和T3事务。事务集中的所有事务均可以用三维数组中的一个点来存储，而三维数组中不包含在事务集中的点则用〇来表示。由此，即可将数据集转换为一个三维数据立方体。同理，包含N个项的事务集可以表示为N维数据立方体，而在存储上，N维数据立方体可以表示为一个N维数组。
[0040] 另外，所述多维数据立方体包括单值数据立方体，多值无序数据立方体，多值有序数据立方体和属性数据立方体。
[0041 ]其中，单值数据立方体对应于单值事务集，也称为布尔型事务集，是指在事务集中，每个事务的项的取值仅包含0和1，表示该项在该事务中的存在性。例如：「00421
'[0043]~上述事务集中，a~i表示每一个事务所包含的项，并不是每个事务都包含所有的, 项，因此上述事务集可以转化为如下的单值或布尔型事务集：
[0044]
[0045] 表中字母a~i表示项，而1和0表示该项在事务中的取值。在将上述事务集转换为多维数

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘军;陈凯;钱静;刘萍;
技术所有人：中国科学院深圳先进技术研究院;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。