一种处理交易事务数据库数据的方法和装置的制造方法_4

文档序号:9597973阅读:来源:国知局
例所提供的处理交易事务数据库数据的方法和装置进行了详 细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说 明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据 本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不 应理解为对本发明的限制。
【主权项】
1. 一种处理交易事务数据库数据的方法,其特征在于,所述方法包括: 将交易事务数据库的数据分成N份以获得N个分块事务数据库,并按照每个计算节点 一个分块事务数据库的方式分发至N个并行处理的计算节点,所述N为大于1的自然数; 所述每个计算节点将各自分得的分块事务数据库转化为压缩的事务布尔矩阵; 所述N个并行处理的计算节点通过对所述压缩的事务布尔矩阵的行向量或列向量进 行相"与"计算,得到所有k-频繁项集,所述k为自然数。2. 如权利要求1所述的方法,其特征在于,所述每个计算节点将各自分得的分块事务 数据库转化为压缩的事务布尔矩阵,包括: 将所述分块事务数据库中所有相同的交易事务记录为一条交易事务Ti ; 使用数组TS[s]中的元素 TS[i]记录所述交易事务Ti在所述分块事务数据库中的实 际条数。3. 如权利要求1所述的方法,其特征在于,所述N个并行处理的计算节点包括一个主计 算节点和N-I个非主计算节点,所述事务布尔矩阵的元素为Cl1,,并且其中, 所述I1S所述分块事务数据库中的项,所述T ,为所述分块事务数据库中的交易事务; 所述N个并行处理的计算节点通过对所述压缩的事务布尔矩阵的行向量或列向量进 行相"与"计算,得到所有k-频繁项集,包括: 所述主计算节点计算k-频繁项集,并根据所述k-频繁项集生成(k+Ι)-候选集; 所述主计算节点将所述(k+l)_候选集广播至所述N-I个非主计算节点; 所述N-I个非主计算节点根据接收到的所述(k+Ι)-候选集,通过对k+Ι个项构成的项 集{Ip,Iq,…,I1, I』的各个项在各自节点上的事务布尔矩阵对应的行向量和事务计数向 量进行相"与"计算,得到项集{Ip,I q,…,I1, I卩的本地支持度计数并转发至所述主计算 节点; 所述主计算节点根据所述项集{Ip,Iq,…,I1, I,}的各个项的本地支持度计数计算得 到(k+Ι)-频繁项集; 循环上述步骤,直至被筛选后的项集为空集或者只有一个项集时得到所有k-频繁项 集。4. 如权利要求3所述的方法,其特征在于,所述主计算节点计算k-频繁项集,并根据所 述k-频繁项集生成(k+1)-候选集,包括: 所述N-I个非主计算节点计算本节点上由k个项构成的项集{Ip,Iq,…,IJ的各个项 的本地支持度计数并转发至所述主计算节点; 所述主计算节点根据所述项集{Ip,Iq,…,Ij各个项的本地支持度计数计算k-频繁 项集; 所述主计算节点根据所述k-频繁项集生成(k+Ι)-候选集。5. 如权利要求3所述的方法,其特征在于,所述主计算节点根据所述项集{I p,Iq,…, I1的各个项的本地支持度计数计算(k+l)_频繁项集,包括: 所述主计算节点根据所述项集{Ip,Iq,…,Ii,I_j}的各个项的本地支持度计数计算所 述项集{Ip,Iq,…,I1, Ij}的全局支持度计数; 若所述项集{Ip,Iq,···,I1, I』的全局支持度计数大于或等于阈值,则确定所述项集 {Ip,Iq,…,I1, I J 为(k+l)_ 频繁项集。6. -种处理交易事务数据库数据的装置,其特征在于,所述装置包括: 分割模块,用于将交易事务数据库的数据分成N份以获得N个分块事务数据库,并按照 每个计算节点一个分块事务数据库的方式分发至N个并行处理的计算节点,所述N为大于 1的自然数; 矩阵压缩模块,用于所述每个计算节点将各自分得的分块事务数据库转化为压缩的事 务布尔矩阵; 频繁项集获取模块,用于所述N个并行处理的计算节点通过对所述压缩的事务布尔矩 阵的行向量或列向量进行相"与"计算,得到所有k-频繁项集,所述k为自然数。7. 如权利要求6所述的装置,其特征在于,所述矩阵压缩模块包括: 第一记录单元,用于将所述分块事务数据库中所有相同的交易事务记录为一条交易事 务Ti ; 第二记录单元,用于使用数组TS [s]中的元素 TS [i]记录所述交易事务Ti在所述分块 事务数据库中的实际条数。8. 如权利要求6所述的装置,其特征在于,所述N个并行处理的计算节点包括一个主 计算节点和N-I个非主计算节点,所述事务布尔矩阵的元素为屯,并且所 述1为所述分块事务数据库中的项,所述T ,为所述分块事务数据库中的交易事务,所述频 繁项集获取模块包括: 候选集生成单元,用于所述主计算节点计算k-频繁项集,并根据所述k-频繁项集生成 (k+Ι)-候选集; 广播单元,用于所述主计算节点将所述(k+l)_候选集广播至所述N-I个非主计算节 占. 第一本地支持度计数单元,用于所述N-I个非主计算节点根据接收到的所述(k+l)_候 选集,通过对k+Ι个项构成的项集{Ip,Iq,…,^,^的各个项在各自节点上的事务布尔矩 阵对应的行向量和事务计数向量进行相"与"计算,得到项集{I p,Iq,…,Ii, I_j}的本地支 持度计数并转发至所述主计算节点; 第一频繁项集计算单元,用于主计算节点根据所述项集{Ip,lq,···,、,I』的各个项的 本地支持度计数计算得到(k+Ι)-频繁项集; 所述候选集生成单元、广播单元、本地支持度计数单元和第一频繁项集计算单元依次 重复执行各自功能,直至被筛选后的项集为空集或者只有一个项集时得到所有k-频繁项 集。9. 如权利要求8所述的装置,其特征在于,所述候选集生成单元包括: 第二本地支持度计数单元,用于所述N-I个非主计算节点计算本节点上由k个项构成 的项集{IP,Iq,…,IJ的各个项的本地支持度计数并转发至所述主计算节点; 第二频繁项集计算单元,用于所述主计算节点根据所述项集{Ip,Iq,…,IJ的各个项 的本地支持度计数计算k-频繁项集; k_候选集生成单元,用于所述主计算节点根据所述k-频繁项集生成(k+Ι)-候选集。10.如权利要求8所述的装置,其特征在于,所述第一频繁项集计算单元包括: 全局支持度计数计算单元,用于所述主计算节点根据所述项集{Ip,Iq,…,^,U的各 个项的本地支持度计数计算所述项集{Ip,Iq,…,I1, I,}的全局支持度计数; 判断单元,用于若所述项集{Ip,Iq,…,I1, I,}的全局支持度计数大于或等于阈值,则 确定所述项集{Ip,Iq,…,I1, 为(k+l)_频繁项集。
【专利摘要】本发明提供处理交易事务数据库数据的方法和装置,以提高关联规则数据挖掘的运算效率。所述方法包括:将交易事务数据库的数据分成N份以获得N个分块事务数据库,按照每个计算节点一个分块事务数据库的方式分发至N个并行处理的计算节点;每个计算节点将各自分得的分块事务数据库转化为压缩的事务布尔矩阵;N个并行处理的计算节点通过对压缩的事务布尔矩阵的行向量或列向量进行相“与”计算得到所有k-频繁项集。本发明提供的技术方案一方面减少了扫描交易数据库的次数,从而提高了读取交易事务数据库的效率;另一方面,省去现有Apriori算法的连接和裁剪,通过对压缩的事务布尔矩阵的行和列向量的裁剪,提高了k-频繁项集的计算效率。
【IPC分类】G06F17/30
【公开号】CN105354336
【申请号】CN201510894914
【发明人】冯研
【申请人】Tcl集团股份有限公司
【公开日】2016年2月24日
【申请日】2015年12月7日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1