一种处理交易事务数据库数据的方法和装置的制造方法

文档序号：9597973阅读：308来源：国知局

一种处理交易事务数据库数据的方法和装置的制造方法
【技术领域】
[0001] 本发明属于数据挖掘领域，尤其涉及一种处理交易事务数据库数据的方法和装置。
【背景技术】
[0002] 关联规则的数据挖掘是从巨大的数据集中找出感兴趣规则和相关关系，这些项集常存储在交易事务数据库中。决策制定者将这些关系应用到决策支持中，例如"Beer和 Diaper"这个数据挖掘的经典案例就是一个对关联规则的挖掘。关联规则是数据挖掘的核心技术之一，得到了广泛的商业和学术研究，尤其是在今天这种大数据时代，已显示出较大的发展前途。
[0003] 现有的关联规则算法大致可以分为广度优先算法和深度优先算法两类，其中，广度优先算法是从下到上的搜索数据集，先是找出候选集，然后从中找出频繁集，和广度优先算法比，深度优先算法不需要生成候选集，而是基于频繁模式增长的异类算法。
[0004] 在关联规则算法中，最著名的算法是由Agrawal和Srikantt于1994年提出的 Apriori算法，其是一个广度优先算法。Apriori算法采取了自底向上、分层搜索策略，这意味着要找到k-(即k阶，下文同，例如，" 1-"表示1阶，"2_"表示2阶，等等）项集，就需要做k次迭代。Apriori算法可以简单分为两步，其中，第一步为连接即类矩阵运算，第二步为剪枝即去掉那些没必要的中间结果。首先找出所有1-频繁项集的集合L1，由集合L1找出2-频繁项集的集合L2,而集合L2找出集合L3，……，如此下去，直到不能找到k_频繁项集，并利用事先设定好的最小支持度阈值进行筛选，将小于最小支持度的候选项集删除，再进行下一次的合并生成该层的频繁项集。
[0005] 然而，上述现有的Apriori算法在实际应用时存在以下缺陷：
[0006] 1)每计算一个k_项集都要扫描一次交易事务数据库，计算所有k_频繁项集则会重复扫描交易事务数据库，从而增加读取交易事务数据库的I/O次数；
[0007] 2)因计算项过多而造成执行缓慢，运算效率低下。

【发明内容】

[0008] 本发明的目的在于提供一种处理交易事务数据库数据的方法和装置，以提高关联规则数据挖掘的运算效率。
[0009] 本发明第一方面提供一种处理交易事务数据库数据的方法，所述方法包括：
[0010] 将交易事务数据库的数据分成N份以获得N个分块事务数据库，并按照每个计算节点一个分块事务数据库的方式分发至N个并行处理的计算节点，所述N为大于1的自然数；
[0011] 所述每个计算节点将各自分得的分块事务数据库转化为压缩的事务布尔矩阵；
[0012] 所述N个并行处理的计算节点通过对所述压缩的事务布尔矩阵的行向量或列向量进行相"与"计算，得到所有k_频繁项集，所述k为自然数。
[0013] 本发明第二方面提供一种处理交易事务数据库数据的装置，其特征在于，所述装置包括：
[0014] 分割模块，用于将交易事务数据库的数据分成N份以获得N个分块事务数据库，并按照每个计算节点一个分块事务数据库的方式分发至N个并行处理的计算节点，所述N为大于1的自然数；
[0015] 矩阵压缩模块，用于所述每个计算节点将各自分得的分块事务数据库转化为压缩的事务布尔矩阵；
[0016] 频繁项集获取模块，用于所述N个并行处理的计算节点通过对所述压缩的事务布尔矩阵的行向量或列向量进行相"与"计算，得到所有k_频繁项集，所述k为自然数。
[0017] 从上述本发明技术方案可知，一方面，由于每个计算节点将各自分得的分块事务数据库转化为压缩的事务布尔矩阵只需要扫描一次交易数据库，此后在计算k-频繁项集时只需要扫描一次事务布尔矩阵即可，从而减少了读取交易事务数据库的I/O次数，提高了读取交易事务数据库的效率；另一方面，在计算k-频繁项集时，是N个并行处理的计算节点通过对压缩的事务布尔矩阵的行向量或列向量进行相"与"计算，直接省去现有Apriori 算法的连接和裁剪两步，通过对压缩的事务布尔矩阵的行和列向量的裁剪，提高了 k-频繁项集的计算效率。
【附图说明】
[0018] 图1是本发明实施例一提供的处理交易事务数据库数据的方法的实现流程示意图；
[0019] 图2是本发明实施例二提供的处理交易事务数据库数据的装置的结构示意图；
[0020] 图3是本发明实施例三提供的处理交易事务数据库数据的装置的结构示意图；
[0021] 图4是本发明实施例四提供的处理交易事务数据库数据的装置的结构示意图；
[0022] 图5是本发明实施例五提供的处理交易事务数据库数据的装置的结构示意图；
[0023] 图6是本发明实施例六提供的处理交易事务数据库数据的装置的结构示意图。
【具体实施方式】
[0024] 为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0025] 本发明实施例提供一种处理交易事务数据库数据的方法，所述方法包括：将交易事务数据库的数据分成N份得到N个分块事务数据库，并按照每个计算节点一个分块事务数据库的方式分发至N个并行处理的计算节点，所述N为大于1的自然数；所述每个计算节点将各自分得的分块事务数据库转化为压缩的事务布尔矩阵；所述N个并行处理的计算节点通过对所述压缩的事务布尔矩阵的行向量或列向量进行相"与"计算，得到所有k-频繁项集，所述k为自然数。本发明实施例还提供相应的处理交易事务数据库数据的装置。以下分别进行详细说明。
[0026] 请参阅附图1，是本发明实施例一提供的处理交易事务数据库数据的方法的实现流程示意图。附图1示例的方法可用于Spark平台，主要包括以下步骤S101至步骤S103 :
[0027] S101，将交易事务数据库的数据分成N份以获得N个分块事务数据库，并按照每个计算节点一个分块事务数据库的方式分发至N个并行处理的计算节点，其中，N为大于1的自然数。
[0028] 以Spark平台为例，由于Spark平台是运行在Mesos集群上的平台，而Mesos集群能支持HDFS和S3这样的文件系统，本发明是以HDFS作为其原始数据存放的文件系统，从而实现了对交易事务数据库的事务数据集的自动划分，即，将交易事务数据库的数据分成N 份以获得N个分块事务数据库，并按照每个计算节点一个分块事务数据库的方式分发至N 个并行处理的计算节点，例如，Spark平台上N个并行处理的计算节点。
[0029] S102,每个计算节点将各自分得的分块事务数据库转化为压缩的事务布尔矩阵。
[0030] 在本发明实施例中，每个计算节点可以将经过步骤S101分得的分块事务数据库中所有相同的交易事务记录为一条交易事务Ti，然后，使用数组TS[s]中的元素 TS[i]记录交易事务Ti在分块事务数据库中的实际条数，从而实现每个计算节点将各自分得的分块事务数据库转化为压缩的事务布尔矩阵。具体地，扫描分块事务数据库的交易事务，将每一条交易事务记录转化为一条代表事务的列向量，然后，核对该列向量是否存在事务布尔矩阵中，如果存在则将对应的交易事务计数加1 ;如果不存在，将该列向量加入事务布尔矩阵，并将对应的交易事务计数设置为1。以以下的一个分块事务数据库
[0033] 为例，其转化为压缩的事务布尔矩阵如下：

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯研;
技术所有人：TCL集团股份有限公司;
我是此专利的发明人

上一篇：一种网络爬虫实现方法和网络爬虫系统的制作方法
上一篇：针对时变层次数据的时变树图布局方法和应用

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。