一种基于并行化关联规则算法的教育云应用统计方法

文档序号:8258995阅读:311来源:国知局
一种基于并行化关联规则算法的教育云应用统计方法
【技术领域】
[0001] 本发明涉及一种基于并行化关联规则算法的教育云应用统计方法,属于计算机统 计的技术领域。
【背景技术】
[0002] 近年来,随着互联网和云计算技术的发展,数据产生的速度和规模大大超过以往。 海量数据中蕴含着大量的价值,如何快速有效的利用数据,这是大数据时代我们面临的一 大挑战。教育云平台是云计算技术向教育领域的迁移,包括了教育信息化所必需的一切硬 件计算资源,这些资源经过虚拟化之后,向用户提供一个平台,以云应用的形式提供教育云 服务。教育云平台通过在SaaS(Software as a service)层部署教育云应用,通过网页浏 览器或其他客户端软件来接入,远程服务器上的应用通过网络来运行。随着教育云应用的 不断丰富,远程服务器端产生的数据量也在迅速增加。
[0003] 数据挖掘方法作为处理和利用数据的有效途径,诞生于上世纪90年代,由于当时 数据量在规模和复杂度方面不大,传统的数据挖掘算法完全可以处理。但是随着大数据时 代的到来,有限的存储资源和计算资源,再加上算法本身对海量数据处理的适应性,形成了 数据挖掘的瓶颈。其中,关联规则挖掘是数据挖掘领域一项很重要的方法。关联规则挖掘 的主要思想是随着数据量的增加,数据项之间一定存在着某种关联关系,因此算法主要实 现的就是对这种关联规则的挖掘。目前,常用的关联规则挖掘相关算法有:Apri〇ri算法、 FPTree算法、Eclat算法以及决策树分类等,它们往往只面向小规模数据量的处理,而且处 理系统相对单一,并不能适应大规模集群系统的关联规则分析。由于传统数据挖掘方法本 身计算量很大,在运算过程中会产生大量中间结果,需要频繁扫描数据库,大大增加了系统 I/O消耗,随着数据量的增大,有限的内存很难进行海量数据的处理,随着数据量的爆炸式 增长,传统方法很难满足用户需求。
[0004] 现有的技术中也存在并行化关联分析方法,中国专利CN103914528A的发明专利 申请"一种关联分析算法的并行化方法",该发明申请公开了一种针对经典关联规则分析算 法Apriori的优化,但该方法主要是基于分布式系统自有的文件分发机制对原始数据进行 处理,本质上仍需频繁扫描原始数据的一部分,在性能方面并不能达到很好的效果。
[0005] 中国专利CN101799810A,该专利公开了一种关联规则挖掘方法及其系统。方法包 括:由频繁K项集生成K+1项集;执行多个并行的处理任务,其中,每个处理任务获取事务 数据集中相应部分的数据,并统计K+1项集在该部分数据中的频繁计数值;对所有处理任 务的统计结果进行汇总得到K+1项集在所述事务数据集中的频繁计数值,根据K+1项集的 频繁计数值生成满足支持度要求的频繁K+1项集,并根据所述频繁K+1项集在判断有满足 可信度要求的关联规则时输出该关联规则。该专利所述方法是关联规则算法在分布式框架 下的执行,而本发明首先基于并行化架构对原始数据进行数据建模,建模后的数据再依据 MapReduce框架进行迭代,得到频繁项集和关联规则,并针对教育云这一应用场景进行图形 化展示,运行效率更高。
[0006] 中国专利申请CN103150163A,该专利公开了一种基于MapReduce模型的并行关联 方法。该方法首先对数据进行预处理,设置最小支持度和最小置信度;然后经特殊处理1项 集,求得第1项集和第2项集;然后配置第k项集,执行后再统计出k项集的计数,通过主进 程读取第k个任务的输出,计算支持度,获得频繁k项集和k+1项候选集,并设置k = k+1, 开始循环,直至k+1项候选集为空。该专利所述方法是关联规则算法的一般步骤在分布式 框架MapReduce下的执行,而本发明创新性地对原始数据进行建模,然后对分布式框架的 输入输出进行了设置,通过迭代计算,得到关联规则,算法运行效率更高。
[0007] 现有技术中还没有一种基于MapReduce框架通过数据预处理和数据建模对数据 的关联规则进行挖掘的方法。因此,开发出一种适用于大数据信息挖掘处理的规则算法是 当前的热点和难点。

【发明内容】

[0008] 针对现有技术的不足,本发明具体提出了一种基于并行化关联规则算法的教育云 应用统计方法。
[0009] 本发明的技术方案如下:
[0010] 发明概述:
[0011] 一种基于并行化关联规则算法的教育云应用统计方法,首先获取教育云应用的访 问情况,对教育云应用访问情况进行数据建模,将源数据以布尔矩阵的形式存储在分布式 文件系统HDFS中;其次基于MapReduce框架对关联规则算法进行并行化优化,分别编写 Map函数和Reduce函数,对存储在分布式文件系统HDFS中的源数据进行挖掘分析,然后得 到访问者对教育云应用的访问情况。
[0012] 发明详述:
[0013] 一种基于并行化关联规则算法的教育云应用统计方法,具体步骤如下:
[0014] 步骤一、从教育云服务器获取日志信息数据并定时上传到集群节点的分布式文件 系统HDFS中;
[0015] 步骤二、以存储在HDFS中的日志信息数据作为源数据,进行数据库数据建模;
[0016] 步骤三、源数据经过建模之后,以数据项集文件的形式存储在HDFS中,每一行代 表一个访问者的点击流序列;在进行频繁项集和关联规则挖掘之前,采用二进制表示法,将 数据项集转换成布尔矩阵,布尔矩阵存储在分布式文件系统HDFS中;
[0017] 步骤四、关联规则挖掘:基于MapReduce对传统的挖掘方法进行并行化优化,具体 步骤为:
[0018] 10)扫描存储在分布式文件系统HDFS中的布尔矩阵,生成频繁项集;
[0019] 11)生成关联规则:由频繁项集生成关联规则;
[0020] 步骤五、根据步骤四的步骤10)生成的频繁项集,以图形化形式向访问者展示教 育云应用的使用情况。
[0021] 根据本发明优选的,所述的一种基于并行化关联规则算法的教育云应用统计方法 中,步骤一的具体步骤如下:首先编写Shell脚本,通过cp命令复制日志信息数据到备份目 录,然后使用tar命令对日志信息数据进行打包;通过修改crontab,制定计划任务,实现日 志信息数据的定期打包备份;在crontab中添加计划任务,通过scp命令将每周的打包日志 信息数据上传到集群节点的分布式文件系统HDFS中。
[0022] 根据本发明优选的,所述的一种基于并行化关联规则算法的教育云应用统计方法 中,步骤二的具体步骤如下:
[0023] 1)建立教育云应用和访问者访问路径的对应关系:建立如表1所示的应用名称与 访问路径映射表,对应关系为:{(〇1,高中教学,Amion/senior/index. html), (02,初中教 学,/union/junior/index, html),(03,小学教育,/union/primary/index. html),(04,儿 童教育,/皿;[011/(311;[1(1/;[11(16叉.111:1111),(05,网络磁盘,/1111;[011/(1181^/;[11(16叉.111:1111),(06,在 线影音,/皿;[011/1116(11&/;[11(16叉.111:1111),(07,在线编辑,/1111;[011/6(1;[1:/;[11(16叉.111:1111),(08,在 线考试,/union/test/index, html)};
[0024] 表1应用名称与访问路径映射表
[0025]
【主权项】
1. 一种基于并行化关联规则算法的教育云应用统计方法,首先获取教育云应用的访问 情况,对教育云应用访问情况进行数据建模,将源数据以布尔矩阵的形式存储在分布式文 件系统HDFS中;其次基于MapReduce框架对关联规则算法进行并行化优化,分别编写Map 函数和Reduce函数,对存储在分布式文件系统HDFS中的源数据进行挖掘分析,然后得到访 问者对教育云应用的访问情况,具体步骤如下: 步骤一、从教育云服务器获取日志信息数据并定时上传到集群节点的分布式文件系统HDFS中; 步骤二、以存储在HDFS中的日志信息数据作为源数据,进行数据库数据建模; 步骤三、源数据经过建模之后,以数据项集文件的形式存储在HDFS中,每一行代表一 个访问者的点击流序列;在进行频繁项集和关联规则挖掘之前,采用二进制表示法,将数据 项集转换成布尔矩阵,布尔矩阵存储在分布式文件系统HDFS中; 步骤四、关联规则挖掘:基于MapReduce对传统的挖掘方法进行并行化优化,具体步骤 为: 10) 扫描存储在分布式文件系统HDFS中的布尔矩阵,生成频繁项集; 11) 生成关联规则:由频繁项集生成关联规则; 步骤五、根据步骤四的步骤10)生成的频繁项集,以图形化形式向访问者展示教育云 应用的使用情况。
2. 根据权利要求1所述的一种基于并行化关联规则算法的教育云应用统计方法,其特 征在于,步骤一的具体步骤如下:首先编写shell脚本,通过cp命令复制日志信息数据到备 份目录,然后使用tar命令对日志信息数据进行打包;通过修改crontab,制定计划任务,实 现日志信息数据的定期打包备份;在crontab中添加计划任务,通过scp命令将每周的打包 日志信息数据上传到集群节点的分布式文件系统HDFS中。
3. 根据权利要求1所述的一种基于并行化关联规则算法的教育云应用统计方法,其特 征在于,步骤二的具体步骤如下: 1)建立教育云应用和访问者访问路径的对应关系:建立如表1所示的应用名称与访问 路径映射表,对应关系为:{(〇1,高中教学,Amion/senior/index.html), (02,初中教学,/ union/junior/index,html), (03,小学教育,/union/primary/index,html), (04,儿童教 育,/1111;[〇11/(311;[1(1/;[11(16叉.111:1111),(05,网络磁盘,/1111;[〇11/(1181^/;[11(16叉.111:1111),(06,在线影 音,/union/media/index.html), (07,在线编辑,/union/edit/index,html), (08,在线考 试,/union/test/index,html)}; 表1应用名称与访问路径映射表
2) 以存储在HDFS中的日志信息数据作为源数据,日志信息数据逐行存储,每一行记 录了访问者访问教育云平台的信息,每一行的格式为〈remotehost,ident,authuser,date ,request,status,bytes,referrer,agent〉,其中remotehost为访问主机地址或者已解析 的域名,ident为标示符,authuser为授权访问者,用于记录访问者进行身份验证时提供名 字,date为日期时间,request为请求
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1