基于项权值变化的教育数据关联规则挖掘方法及其系统的制作方法

文档序号:6624903阅读:146来源:国知局
基于项权值变化的教育数据关联规则挖掘方法及其系统的制作方法
【专利摘要】一种基于项权值变化的教育数据关联规则挖掘方法及其系统,利用教育数据预处理模块进行预处理,构建课程信息库和课程项目库;利用教育数据课程候选项集产生及其剪枝模块从课程信息库产生教育数据课程候选项集,采用新的项集剪枝方法进行项集剪枝;利用教育数据课程频繁项集产生模块计算候选项集的项集权值,与最小权值频繁阈值比较,得到频繁项集;利用教育数据课程关联规则及结果显示模块产生频繁项集的全部真子集,通过其项集权值的简单计算和比较挖掘课程强关联规则模式,显示给用户使用。本发明具有良好的课程项集剪枝性能,其课程候选项集和挖掘时间明显减少,挖掘效率得到极大提高,其课程关联模式可为教学改革和教务管理提供科学依据。
【专利说明】基于项权值变化的教育数据关联规则挖掘方法及其系统

【技术领域】
[0001] 本发明属于教育数据挖掘领域,具体是一种基于项权值变化的教育数据关联规则 挖掘方法及其挖掘系统,适用于教育数据课程关联模式发现,其课程关联模式可为教学改 革和教育管理、决策提供科学的依据,该发明在教育信息化数据分析以及教育数据模式挖 掘有重要的应用价值和广阔的应用前景。

【背景技术】
[0002] 现有的教育数据关联规则挖掘方法可以归纳为如下3类:教育数据关联模式挖 掘方法、教育数据加权关联规则挖掘方法和教育数据完全加权关联规则挖掘方法。教育 数据关联规则挖掘方法属于基于频度挖掘的传统关联规则挖掘方法,是传统的关联规则 挖掘方法在教育信息化领域的具体应用。该方法的特点是各个项目按平等一致的方式处 理,只考虑项目频度。当前,该方法存在的缺陷是:在挖掘时只考虑课程的选修关联,没有 考虑课程之间具有不同的重要性,更没有考虑学生选修课程后的教学效果(即课程考试成 绩)。典型的教育数据关联规则挖掘方法是Apriori方法(R.Agrawal,T.Imielinski,A. Swami.Miningassociationrulesbetweensetsofitemsinlargedatabase[C].In Proceedingof1993ACMSIGMODInternationalConferenceonManagementof Data,WashingtonD.C.,1993,(5): 207-216.)及其改进方法,例如,董辉提出基于兴趣 度的高职课程关联规则挖掘方法(董辉.基于兴趣度的高职课程关联规则挖掘[J].吉首 大学学报(自然科学版),2012, 33 (3) :41-46.),李忠哗等(李忠哗,王凤利,何丕廉.关 联规则挖掘在课程相关分析中的应用[J].河北农业大学学报,2010,33(3):116-119.)采 用一种改进的Apriori方法挖掘课程关联模式,进行课程相关性分析。
[0003] 针对传统关联规则挖掘的缺陷,教育数据加权关联规则挖掘方法不仅考虑课程的 选修关联,还给每门课程赋予一定的权值,以体现课程之间具有不同的重要性。典型的教 育数据加权关联规则挖掘方法有Cai等(C.H.Cai,A.da,W.C.Fu,etal.Mining AssociationRuleswithWeightedItems[C]//ProceedingsofIEEEInternational databaseEngineeringandApplicationSymposiums, 1998: 68-77.)提出的加权关联规 则挖掘方法(即MINWAL方法)及其改进方法,例如,刘建炜等(刘建炜,张颖.基于加权 关联规则算法的学生成绩数据挖掘研究[J].福建教育学院学报,2012 (3) : 123-125.)在 学生课程考试成绩数据中挖掘加权关联规则模式。教育数据加权关联规则挖掘方法的缺陷 是:只考虑课程之间的重要性,没有考虑课程考试成绩的影响。
[0004] 针对上述缺陷,教育数据完全加权关联规则挖掘方法引入项目权值,考虑了考虑 学生所选修课程的教学效果,即考虑课程考试成绩,其典型的完全加权关联规则挖掘方法 是谭义红等提出的向量空间模型中完全加权关联规则的挖掘方法(谭义红,林亚平.向 量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13) :208-211.)以 及面向查询扩展的矩阵加权关联规则挖掘方法MWARM(黄名选,严小卫,张师超.基于矩 阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7) : 1854-1865.)。 当前,完全加权关联规则挖掘方法在教育数据分析中的典型应用是余如等(余如,黄 丽霞,黄名选.教育信息化中课程考试成绩数据关联模式的发现.计算机与现代 化,2014(2):10-14.)提出的课程成绩数据关联模式发现方法,获得了显著的效果。现有 的教育数据完全加权关联规则挖掘方法的缺陷是:其所挖掘的关联模式数量仍然很庞大, 增加用户选择所需模式的难度,无趣的、虚假的和无效的关联模式还很多,很难将其技术上 升到应用层面。针对上述问题,本发明根据教育数据的特点,提一种新的基于项权值变化 的教育数据关联规则挖掘方法及其挖掘系统。该发明方法属于完全加权模式挖掘方法,克 服了现有完全加权模式挖掘方法的不足,能够大幅度减少无趣的和无效的课程关联模式出 现,其课程候选项集和挖掘时间明显减少,提高了挖掘效率,其课程关联规则模式更接近实 际,可为教学改革和教育管理、决策提供科学的依据,在教育信息化教务数据分析与挖掘领 域具有重要的应用价值和广阔的应用前景。


【发明内容】

[0005] 本发明所要解决的技术问题在于,针对教育数据课程关联模式挖掘进行深入探 索,提出一种基于项权值变化的教育数据关联规则挖掘方法及其挖掘系统,应用于教育数 据挖掘领域,为教育数据课程关联模式挖掘与分析提供新的挖掘方法,通过课程关联规则 模式分析发现教育领域潜在的教育、教学规律和教育发展趋势。该发明运用于高校教务管 理系统,可以扩展教务管理功能,其关联模式可以有助于教师改善和调整方法,提高教学质 量,同时,可以帮助学生提高学习效果。
[0006] 本发明解决上述技术问题所采取的技术方案是:一种基于项权值变化的教育数据 关联规则挖掘方法,包括如下步骤: (1)教育数据预处理:将待处理的教育数据进行预处理,提取学生课程信息及其成绩, 将课程当作项目,课程成绩当作项目权值,课程权值规范化为0至1之间,即如果课程成绩 采用百分制,则将课程成绩都除以1〇〇,使项目成绩权值在〇到1之间,构建课程信息库和课 程项目库。
[0007] (2)挖掘教育数据课程频繁项集,包括以下步骤2. 1和步骤2. 2: 2.1、挖掘课程候选1_项集和频繁1_项集,具体步骤按照2.I.1和2. 1. 2进行: 2.1. 1、从课程项目库中提取课程候选1_项集在课程信息库累加全部项目权值总和F,累加课程候选1_项集在课程信息库中的课程项集权值W(C1),计算课程候选1_项集的最 小频繁权值(minimumfrequentweight,mfw)阈值》/¥(1),若其项集权值W(Cr1)大于或 者等于1_项集最小频繁权值阈值?ΛΚ1),即W(C1) ,则该课程候选项集为频繁1_ 项集乙,将Z7加入到课程频繁项集集合所述的为最小支持度阈值,1_项集最小频 繁权值阈值计算公式如下: WXms 2. 1. 2、在课程信息库中累加课程候选1-项集C1的项集频度/7 (C1),提取% (C1),计算C1 的课程项集权值频繁期望(ItemsetWeightFrequentBound,IWFB 的,2)的计算公式为: IWFB(ClJ)=IXWXins - nijQ Xwp(Cl)。
[0008] %的)为在不属于C1的课程项目集合中其他课程项目的权值最大的项目权值。
[0009] 2. 2、挖掘课程候选项集和频繁项集,所述的A彡2,按照步骤2. 2. 2. 2. 8 进行操作: 2. 2. 1、对于课程候选认-1) _项集C^1,将r(C^1)〈/FM(〇_7,々)的不可能成为课程频 繁项集的^剪除,得到新的课程候选项集^集合。其中,以为^在课程信息 数据库中的权值累加总和,/FMWm,幻为包含课程候选仏-1)_项集的^_项集课程 项集权值期望。
[0010] 所述的/FM(Gh,幻计算公式如下: IVFB(^1,k)=AXWXms-n(C^1)Xwp (C^1) 其中,为课程候选项集在课程信息库中的项集频度,%(GJ为在不属于 项目集合的其他项目中权值最大的项目权值。
[0011] 2. 2. 2、将其项集频度不为0的课程候选仏-1)_项集进行Apriori连接生成 课程候选々_项集G; 2. 2. 3、如果课程候选t项集不是空集,转入2. 2. 4步,否则,退出2. 2步转入(3)步; 2. 2. 4、对于课程候选项集6;,若存在一个其认_1)_项子集的项集权值小于其 对应的项集权值期望,幻(即&,幻),则将该课程候选^_项集删除, 得到新的课程候选项集G集合。
[0012] 2. 2. 5、在课程信息库中累加课程候选项集G的项集频度/? (6;)及其项集权值 仏,求出% (G),计算G的课程项集权值期望/FM(仏^l)。所述的/FM(6;,^l)的计算公 式为: IWFB(CA,k+l) ={k+l)XWXms-n(Ca)Xwp (Ca) 2. 2. 6、删除其项集频度为0的课程候选项集6;,得到新的课程候选项集G集合。
[0013] 2. 2. 7、计算课程候选项集G的最小频繁权值阈值,若课程候选项集的 项集权值大于或者等于其最小频繁权值阈值幻,即以G) >幻,那么该课程候选 项集G是频繁的,加入到课程频繁项集集合所述的幻的计算公式为: mfw{k)=ΨΧkXms 2. 2. 8、将左的值加1,循环2. 2.f2. 2. 7步骤,直到G为空,则退出2. 2步转入如下(3) 止 /J/〇 (3)从课程频繁项集集合中挖掘课程强关联规则模式,包括以下步骤: 3. 1、对于课程频繁项集集合/^?中课程频繁i-项集Zi,求出Zi的全部真子集,所述的 i>l; 3. 2、对于课程频繁i-项集Zi的真子集集合中任意两个真子集J7和厶,并且J7Π4二0 ,/,U若(r12XA1)八W1XA12)的值大于或者等于最小置信度阈值咖,即((r12XA1)八 W1X之2))彡则挖掘出课程强关联规则J7-厶;若(r12X毛VO12Xff2)的值大于或者等 于最小置信度阈值,即(W毛V(A2Xw2))彡咖,则挖掘出课程强关联规则厶一/7,所述 的之、心和左 12分别为项集/7、心和(/,,石)的项目个数,^2和化分别为J7、4和σ7, 心)的项集权值。
[0014] 3. 3、继续3. 2步骤,直到课程频繁i-项集Zi的真子集集合中每个真子集都被取 出一次,而且仅能取出一次,则转入步骤3. 4; 3. 4,继续3. 1步骤,当中每个课程频繁i-项集Zi都被取出一次,而且仅能取出一 次,则退出(3)步。
[0015] 至此,课程强关联规则模式挖掘结束。
[0016] 一种适用于上述基于项权值变化的教育数据关联规则挖掘系统,其特征在于,包 括以下4个模块 : 教育数据预处理模块:将待处理的教育数据进行预处理,提取学生课程信息及其成绩, 将课程成绩权值规范化为〇至1之间,构建课程信息库和课程项目库。
[0017] 教育数据课程候选项集产生及其剪枝模块:该模块从课程信息库挖掘课程候选 1-项集,由课程候选(k-1)-项集(k> 2)生成课程候选k_项集,采用新的剪枝方法对课程 候选项集剪枝,得到最终的课程候选项集集合。
[0018] 教育数据课程频繁项集产生模块:该模块累加课程候选项集在课程信息库中的项 集权值,与最小频繁权值阈值比较,得出课程频繁项集模式。
[0019] 教育数据课程关联规则产生及结果显示模块:该模块生成课程频繁项集的所有真 子集,通过其项集权重的简单计算,与最小置信度阈值比较,从课程频繁项集中挖掘课程强 关联规则模式,显示给用户,供用户分析使用。
[0020]所述的教育数据预处理模块包括以下2个模块: 教育数据信息提取与处理模块:该模块从教育数据中提取学生课程信息数据,并将课 程权值规范化。
[0021] 建立课程信息库和课程项目库模块:该模块从预处理后的课程信息数据中提取相 关教育信息数据构建课程信息库和课程项目库。
[0022] 所述的教育数据课程候选项集产生及其剪枝模块包括以下2个模块: 课程候选项集产生模块:该模块从课程信息库中挖掘课程候选项集,具体过程如下: 从课程项目库中提取课程候选1-项集,在课程信息库中累加其项集权值,与1-项集的最小 频繁权值阈值,得出课程频繁1_项集;课程2-项集以后,由课程候选(k-l)_项集(k> 2) 通过Apriori连接得到课程候选k-项集。
[0023] 课程候选项集剪枝模块:该模块利用本发明的项集剪枝方法对课程候选项集进行 剪枝,剪除不可能频繁的课程候选项集,得到最终课程候选项集。
[0024] 所述的教育数据课程关联规则产生及结果显示模块包括以下3个模块: 产生课程频繁项集的子项集模块:该模块求出课程频繁项集的所有真子集及其项集权 值和维数,为挖掘课程关联规则模式做准备。
[0025] 产生课程强关联规则模块:该模块通过课程项集权值和维数的简单计算和比较, 与最小置信度比较,从课程频繁项集中挖掘课程强关联规则模式。
[0026] 课程强关联规则显示模块:该模块将挖掘出来的课程强关联规则模式按用户的需 要显示给用户,供用户分析和使用。
[0027] 所述的挖掘系统中的最小支持度阈值ffis,最小置信度阈值由用户输入。
[0028] 与现有技术相比,本发明具有以下有益效果: (1)本发明提出一种新的教育数据课程频繁项集的获取方法及其项集剪枝方法,基于 剪枝方法提出一种基于项权值变化的教育数据关联规则挖掘方法及其挖掘系统。该发明能 避免无效的课程关联模式产生,提高了挖掘效率,其课程关联模式更加接近实际情况。与现 有挖掘方法比较,本发明的课程候选数量以及挖掘时间均明显减少,其挖掘性能优于现有 矩阵加权模式挖掘方法的,在教育信息化教育数据分析与挖掘领域有较高的应用价值和广 阔的应用前景。该发明运用于高校教务管理系统,可以扩展教务管理功能,其关联模式可以 有助于教师改善和调整方法,提高教学质量,同时,可以帮助学生提高学习效果。
[0029] ( 2)以真实的教育数据一高校课程考试成绩一作为本发明实验数据测试集,将本 发明与现有的矩阵加权模式挖掘方法进行实验比较和分析,实验结果表明,无论在支持度 阈值或者置信度阈值变化的情况下,本发明的挖掘方法所挖掘的课程候选项集和挖掘时间 都比现有对比挖掘方法的少,挖掘效率得到了极大提高。

【专利附图】

【附图说明】
[0030] 图1是本发明所述的基于项权值变化的教育数据关联规则挖掘方法的框图。
[0031] 图2是本发明所述的基于项权值变化的教育数据关联规则挖掘方法的整体流程 图。
[0032] 图3是本发明所述的基于项权值变化的教育数据关联规则挖掘系统的结构框图。
[0033] 图4是本发明所述的教育数据预处理模块的结构框图。
[0034] 图5是本发明所述的教育数据课程候选项集产生及其剪枝模块的结构框图。
[0035] 图6是是本发明所述的教育数据课程关联规则产生及结果显示模块的结构框图。

【具体实施方式】
[0036] 为了更好地说明本发明的技术方案,下面将本发明涉及的教育数据模型和相关的 概念介绍如下: 一、基本概念 定义1 (教育数据模型): 教育数据模型描述如下:设5·⑶=W&d是学生课程信息数据库{StudentCourse Database,5iCZ〇,(1 兰Y兰/?)表不 中的第Y个学生记录, Cr=Ic1,Cijcj表示所选修的课程(Coar1Si?,Cr)项目集合,Cy (1写J'写》)表示第J'个 课程项目,Y兰/?,1兰表示第Y个学生记录&的第J门课程心的 课程成绩权值,如果课程&没有成绩,则#[&] [C7.] =0。
[0037] 教育数据模型可以用表1表示。
[0038] 表1 学生课程信息数据库(5·

【权利要求】
1. 一种基于项权值变化的教育数据关联规则挖掘方法,其特征在于,包括如下步骤: (1) 教育数据预处理:将待处理的教育数据进行预处理:提取学生课程信息及其成绩, 将课程当作项目,课程成绩当作项目权值,课程权值规范化为O至1之间,构建课程信息库 和课程项目库; (2) 挖掘教育数据课程频繁项集,包括以下步骤2. 1和步骤2. 2 : (2. 1)挖掘教育数据课程候选1_项集和频繁1_项集,具体步骤按照2.I. 1和2. 1. 2 进行: (2.I. 1)从课程项目库中提取课程候选1_项集,在课程信息库累加全部课程项目权值 总和,累加课程候选1_项集在课程信息库中的课程项集权值累加总和,计算课程候选1_项 集的最小权值频繁阈值,若其项集权值大于或者等于最小权值频繁阈值,则该课程候选项 集为频繁1_项集乙,将乙加入到课程频繁项集集合/ 7A?; (2. 1. 2)在课程信息库中累加课程候选1-项集的出现频度,计算课程候选1-项集的课 程项集权值期望; (2. 2)挖掘教育数据课程候选项集和频繁项集,所述的A> 2,按照步骤2. 2. 1~ 2. 2. 8进行操作: (2. 2. 1)计算课程候选认_1)_项集的课程项集权值期望,删除课程候选仏-1)_项集的 项集权值小于其项集权值期望的课程候选认_1)_项集,得到新的课程候选仏_1)_项集集 合; (2. 2.2)通过Apriori连接,课程候选认_1)_项集(其频度不为0)连接后生成课程 候选t项集; (2. 2. 3)如果课程候选t项集不是空集,转入2. 2. 4步,否则,退出2. 2步转入(3)步; (2. 2. 4)课程候选^_项集中,若存在一个其仏-1)_项子集的项集权值小于其对应的项 集权值期望,则将该课程候选项集删除,得到新的课程候选项集集合; (2. 2. 5)在课程信息库中累加课程候选项集的项集频度、项集权值及其课程项集权 值期望; (2. 2. 6)删除其项集频度为0的课程候选项集,得到新的课程候选项集集合; (2. 2. 7)计算课程候选项集的最小权值频繁阈值,若课程候选项集的项集权值大于 或者等于其最小权值频繁阈值,那么该课程候选项集是频繁的,加入到课程频繁项集集合 FIS-, (2. 2. 8)将左的值加1,循环2. 2. 1~2. 2. 7步骤,直到课程候选左_项集为空集,则退出 2. 2步转入如下(3)步; (3) 从教育数据课程频繁项集集合/^?中挖掘课程强关联规则模式,包括以下步骤: (3. 1)对于教育数据课程频繁项集集合中的课程频繁i-项集Zi,求出课程项集Zi 的全部真子集,所述的i>l; (3.2)对于课程项集Zi的真子集集合中任意两个真子集J7和厶,并且J7 /,U/#,.,若(w12XAV(KX^12)的值大于或者等于最小置信度阈值,则挖掘出课程强关 联规则A-厶;若Or12X毛V(A2Xw2)的值大于或者等于最小置信度阈值,则挖掘出课程关 联规则4 - ;所述的之、毛和A2分别为课程项集/7、4和(/7,石)的项目个数,和 ?分别为A、厶和仏,石)的项集权值; (3. 3)继续3. 2步骤,直到课程项集4的真子集集合中每个真子集都被取出一次,而且 仅能取出一次,则转入步骤3. 4 ; (3. 4)继续3. 1步骤,当中每个课程项集4都被取出一次,而且仅能取出一次,则 退出(3)步; 至此,教育数据课程强关联规则模式挖掘结束。
2. -种适用于权利要求1所述的基于项权值变化的教育数据关联规则挖掘系统,其特 征在于,包括以下4个模块 : 教育数据预处理模块:将待处理的教育数据进行预处理,提取学生课程信息及其成绩, 将课程成绩权值规范化为〇至1之间,构建课程信息库和课程项目库; 教育数据课程候选项集产生及其剪枝模块:该模块从课程信息库挖掘课程候选1-项 集,由课程候选(k-l)_项集(k> 2)生成课程候选k-项集,采用新的剪枝方法对课程候选 项集剪枝,得到最终的课程候选项集集合; 教育数据课程频繁项集产生模块:该模块负责累加课程候选项集在课程信息库中的项 集权值,与最小频繁权值阈值比较,得出课程频繁项集模式; 教育数据课程关联规则产生及结果显示模块:该模块生成课程频繁项集的所有真子 集,通过其项集权重的简单计算,与最小置信度阈值比较,从课程频繁项集中挖掘课程强关 联规则模式,将课程关联模式显示给用户,供用户分析使用。
3. 根据权利要求2所述的挖掘系统,其特征在于,所述的教育数据预处理模块包括以 下2个模块: 教育数据信息提取与处理模块:该模块负责从教育数据中提取学生课程信息数据,并 将课程项目权值规范化; 建立课程信息库和课程项目库模块:该模块主要负责从预处理后的课程信息数据中提 取相关教育信息数据构建课程信息库和课程项目库。
4. 根据权利要求2所述的挖掘系统,其特征在于,所述的教育数据课程候选项集产生 及其剪枝模块包括以下2个模块: 课程候选项集产生模块:该模块主要从课程信息库中挖掘课程候选项集,具体过程如 下:从课程项目库中提取课程候选1-项集,在课程信息库中累加其项集权值,与1-项集的 最小频繁权值阈值比较,得出课程频繁1_项集;课程2-项集以后,由课程候选(k-l)_项集 (k彡2)通过Apriori连接得到课程候选k-项集; 课程候选项集剪枝模块:该模块利用本发明的剪枝方法对课程候选项集进行剪枝,剪 除不可能频繁的课程候选项集,得到最终课程候选项集。
5. 根据权利要求2所述的挖掘系统,其特征在于,所述的教育数据课程关联规则产生 及结果显示模块包括以下3个模块: 产生课程频繁项集的子项集模块:该模块求出课程频繁项集的所有真子集及其项集权 值和维数,为挖掘课程关联规则模式做准备; 产生课程强关联规则模块:该模块通过课程项集权值和维数的简单计算和比较,与最 小置信度比较,从课程频繁项集中挖掘课程强关联规则模式; 课程强关联规则显示模块:该模块将挖掘出来的课程强关联规则模式按用户的需要显 示给用户,供用户分析和使用。
6.根据权利要求2-5中任一项所述的挖掘系统,其特征在于,所述的挖掘系统中的最 小支持度阈值as,最小置信度阈值由用户输入。
【文档编号】G06F17/30GK104239430SQ201410427495
【公开日】2014年12月24日 申请日期:2014年8月27日 优先权日:2014年8月27日
【发明者】黄名选, 韦吉锋 申请人:广西教育学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1