应用于大数据的多计算框架处理系统及关联规则挖掘方法与流程

文档序号:11864498阅读:来源:国知局

技术特征:

1.应用于大数据的多计算框架处理系统,其特征在于,所述系统包括一个分布式计算机集群,共享该分布式计算机集群的mapreduce系统框架及spark系统框架,所述分布式计算机集群包括组成事务数据库的数据库集群、交换机、应用服务器、Hadoop集群、Spark集群。

2.如权利要求1所述的应用于大数据的多计算框架处理系统,其特征在于,所述数据库集群为OracleRAC集群。

3.如权利要求1所述的应用于大数据的多计算框架处理系统,其特征在于,所述OracleRAC集群包括多个节点计算机。

4.如权利要求1所述的应用于大数据的多计算框架处理系统,其特征在于,所述 Hadoop与Spark集群包括万兆交换机和多个节点计算机,各个节点计算机分别连接所述万兆交换机。

5.如权利要求1所述的应用于大数据的多计算框架处理系统的关联规则挖掘方法,其特征在于,包括如下步骤:

S1: MapReduce系统将整个事务数据库中的数据分成一些连续的局部数据片段,并将这些局部数据片段分发给不同的机器储存;

S2:MapReduce系统各个局部数据片段分配map任务,各个map任务以并行的方式执行一项频繁项集及其支持度计数的统计任务,并将统计结果保存到分布式缓存中;

S3:将统计的各个一项频繁项集结果映射到全局事务数据库的一项频繁项集集合,进行全局支持度计数并按降序排序,删除支持度计数小于最小支持度计数的项,剩余的项以F-List的存储结构进行存储;

S4:对频繁模式树采用剪枝策略,压缩项的规模;

S5:求解条件模式基,进行局部数据片段频繁项集的挖掘:运行Mapreduce 任务,Map任务中为每个局部数据片段构造FP树,挖掘局部频繁项集,Reducer任务中合并结果得到全局频繁项集,通过局部合并与全局频繁项集对比后剩下的集合中的元素保存到分布式文件中;

S6:运行一个MapReduce 任务,统计上一步中存放于分布式文件中的频繁项集的支持度计数,将满足最小支持度的频繁项集加入到全局频繁项集。

6.如权利要求5所述的应用于大数据的多计算框架处理系统的关联规则挖掘方法,其特征在于,所述S4中剪枝策略的具体方法为:根据由下到上、深度优先的原则,从频繁模式树中的最小子节点开始,对于每条路径中支持度小于最小支持度阈值的子节点,如果它的父节点的兄弟节点或者父节点含有和该子节点相同的模式,则合并它们并且删除该子节点,否则直接删除该节点。

7.如权利要求5所述的应用于大数据的多计算框架处理系统的关联规则挖掘方法,其特征在于,所述步骤S5中,以< key, value >键值对为数据模型通过直接扫描value 来求解条件模式基,其中key 为事务项的唯一标识, value 为事务集。

8.如权利要求7所述的应用于大数据的多计算框架处理系统的关联规则挖掘方法,其特征在于,所述步骤S5中,以< key, value >键值对通过直接扫描value来求解条件模式基的步骤包括:

步骤一:读取事务数据库,对< key, value >键值对的value值按照一项频繁项集支持度计数排序,删除支持度小于最小支持度阈值的项,得到一个新的键值对;

步骤二:从value的第二个项开始扫描直到value的最后项为止得到对应的项的前缀;

步骤三:通过扫描求得对应项的条件模式基。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1