基于偏序模式的教育信息化课程关联模式发现方法及系统的制作方法

文档序号:6624904阅读:148来源:国知局
基于偏序模式的教育信息化课程关联模式发现方法及系统的制作方法
【专利摘要】一种基于偏序模式的教育信息化课程关联模式发现方法及系统,利用教育信息化数据预处理模块进行预处理,构建课程信息数据库和课程项目库;利用课程候选项集生成及其剪枝模块挖掘完全加权课程候选项集,求出课程候选偏序项集,采用新的剪枝方法剪除无效课程候选偏序项集,得出完全加权课程候选偏序项集;完全加权课程频繁项集生成模块采用新的课程偏序项集支持度计算方法,得出课程频繁偏序项集;利用完全加权课程关联规则模式生成及显示模块挖掘有效的完全加权课程关联规则模式,并输出给用户。本发明能大幅度减少无效课程关联模式出现,候选项集和挖掘时间减少,提高挖掘效率,其课程关联规则模式更接近实际,为教务管理和教学改革提供依据。
【专利说明】基于偏序模式的教育信息化课程关联模式发现方法及系统

【技术领域】
[0001]本发明属于教育数据挖掘领域,具体是一种基于偏序模式的教育信息化课程关联模式发现方法及其挖掘系统,适用于教育数据挖掘中课程关联模式发现,其模式可为教务管理、教育决策和教学改革提供科学的依据,该发明在教育信息化数据分析以及教育模式挖掘有重要的应用价值和广阔的应用前景。

【背景技术】
[0002]教育数据挖掘是数据挖掘一个重要应用研究分支,涉及计算机科学、教育学和统计学等多学科的研究领域,是一种从教育数据中挖掘那些事先未知的和有用的教育模式和教育知识的过程。现有的教育数据关联规则挖掘方法主要集中在教育数据关联模式挖掘方法、教育数据加权关联规则挖掘方法和教育数据完全加权关联规则挖掘方法等3个方面。
[0003]教育数据关联规则挖掘方法是传统的关联规则挖掘方法在教育信息化领域的具体应用,属于基于频度挖掘的传统关联规则挖掘方法。该方法的特点是只考虑项目在数据库中出现的频度,各个项目按平等一致的方式处理。当前,教育数据关联规则挖掘对象主要是学校的课程、学生计划、课程成绩等教学环境数据,挖掘其数据间的相关性、依存性和学生行为模式,为教务管理、课程体系设计等提供决策支持。该方法存在的缺陷是:在挖掘时只考虑课程的选修关联,没有考虑课程之间具有不同的重要性,更没有考虑学生选修课程后的教学效果(即课程考试成绩)。典型的教育数据关联规则挖掘算法是Apr1ri方法(R.Agrawal, T.1mielinski, A.Swam1.Mining associat1n rules between sets of itemsin large database[C].1n Proceeding of 1993 ACM SIGMOD Internat1nalConference on Management of Data, Washington D.C., 1993, (5): 207-216.)及其改进方法,例如,董辉提出基于兴趣度的高职课程关联规则挖掘方法(董辉.基于兴趣度的高职课程关联规则挖掘[J].吉首大学学报(自然科学版),2012,33 (3): 41-46.),李忠哗等(李忠哗,王凤利,何丕廉.关联规则挖掘在课程相关分析中的应用[J].河北农业大学学报,2010,33 (3):116-119.)采用一种改进的Apr1ri方法挖掘课程关联模式,进行课程相关性分析,Pal (S.Pal.Mining Educat1nal Data to Reduce Dropout Ratesof Engineering Students[J].1nternat1nal Journal of Informat1n Engineeringand Electronic Business, 2012 (2):1-7.Published Online April 2012 in MECS)和Baradwaj(B.K.Baradwaj , S.Pal.Mining Educat1nal Data to Analyze StudentsPerformance[J].(IJACSA) Internat1nal Journal of Advanced Computer Scienceand Applicat1ns, 2011, 2(6):63-69.)指出采用传统的关联模式挖掘技术可以对学生期末考试成绩进行分类,对学业成绩很差、很可能导致退学的一类学生给予更多的重视和学习辅导,使学生的辍学率得到控制和减少。
[0004]教育数据加权关联规则挖掘方法克服了传统关联规则挖掘的缺陷,不仅考虑课程的选修关联,还给每门课程赋予一定的权值,以体现课程之间具有不同的重要性。典型的教育数据加权关联规则挖掘方法有Cai等(C.H.Cai, A.da, ff.C.Fu, et al.MiningAssociat1n Rules with Weighted Items [C]//Proceedings of IEEE Internat1naldatabase Engineering and Applicat1n Symposiums, 1998: 68-77.)提出的力口权关联规则挖掘方法(即MINWAL算法)及其改进方法,例如,刘建炜等(刘建炜,张颖.基于加权关联规则算法的学生成绩数据挖掘研究[J].福建教育学院学报,2012 (3):123-125.)在学生课程考试成绩数据中挖掘加权关联规则模式,陈世保等(陈世保,徐峰,吴国凤.基于难度系数的加权关联规则在试卷评估中的应用[J].井冈山大学学报(自然科学版),2013,34(1):70-74.)提出了基于试题难度系数的加权关联规则挖掘方法。教育数据加权关联规则挖掘方法的缺陷是:在挖掘教育数据关联模式时,没有考虑学生所选修课程的教学效果,即只考虑课程之间的重要性,没有考虑课程考试成绩。
[0005]教育数据完全加权关联规则挖掘方法的特点是引入项目权值,考虑了考虑学生所选修课程的教学效果,即考虑课程考试成绩,其典型的完全加权关联规则挖掘方法是谭义红等[16]提出了向量空间模型中完全加权关联规则的挖掘方法(谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211.)以及面向查询扩展的矩阵加权关联规则挖掘方法MWARM(黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7): 1854-1865.)。当前,完全加权关联规则挖掘方法在教育数据分析中的典型应用是余如等(余如,黄丽霞,黄名选.教育信息化中课程考试成绩数据关联模式的发现.计算机与现代化,2014 (2):10-14.)提出的课程成绩数据关联模式发现方法,获得了显著的效果。现有的教育数据完全加权关联规则挖掘方法的缺陷是:其所挖掘的关联模式数量仍然很庞大,增加用户选择所需模式的难度,无趣的、虚假的和无效的关联模式还很多,很难将其技术上升到应用层面。针对上述问题,本发明根据教育信息化教务数据的特点,提一种新的基于偏序模式的教育信息化课程关联模式发现方法及系统。该发明采用新的课程项集支持度计算方法和剪枝技术,能够大幅度减少无趣的和无效的课程关联模式出现,其候选项集和挖掘时间明显减少,提高了挖掘效率,其课程关联规则模式更接近实际,可为教育管理、决策和教学改革提供科学的依据,在教育信息化教务数据分析与挖掘领域具有重要的应用价值和广阔的应用前景。


【发明内容】

[0006]本发明所要解决的技术问题在于,针对教育信息化课程关联模式挖掘进行深入探索,提出一种基于偏序模式的教育信息化课程关联模式发现方法及系统,应用于教育数据挖掘领域,为教育信息化课程关联模式挖掘与分析提供新的挖掘方法,通过课程关联规则模式分析发现教育领域潜在的教育、教学规律和教育发展趋势,为教务管理服务。在闻校教务管理系统中使用本发明技术,可以扩展该管理系统的功能,使得教务管理系统功能更完盡口 ο
[0007]本发明解决上述技术问题所采取的技术方案是:一种基于偏序模式的教育信息化课程关联模式发现方法,包括如下步骤:
(I)教育信息化数据预处理:将待处理的教育信息化教务数据进行预处理,即提取学生课程成绩,将课程当作项目,把课程成绩当作项目权值,将课程权值规范化,即如果课程成绩采用百分制,则将课程成绩都除以100,使项目成绩权值在O到I之间,构建课程信息数据库和课程项目库。
[0008](2)挖掘完全加权课程频繁偏序项集,包括以下步骤2.1和步骤2.2:
2.1、挖掘完全加权课程频繁1_项集Z1,具体步骤按照2.1.1和2.1.3进行:
2.1.1、从课程项目库中提取课程候选1_项集C;,将课程信息数据库中所有课程项目成绩权值累加,得到全部课程项目权值总和W,累加C1在课程信息数据库中的权值总和ff (C1),计算课程项集 Ct1 的支持度(Cource itemsets support, cisup),即 (Ct1)。cisup (C1)的公式如下:
c^i^C-) =-— ο
W
[0009]2.1.2、将课程候选1_项集C1中其支持度cisup {Q彡ms的课程频繁1_项集L1加入到课程频繁项集集合CFIS,ms为最小支持度阈值。
[0010]2.1.3、在课程信息数据库中累加课程候选1-项集C1的出现频度/7(6;),提取 L(Cr1),计算 Cr1 的课程项集权值期望(Cource Itemset Weight Bound, CIffB ),即CIWBiCl, 2) ο CIWB {C,, 2)的计算公式为:
CIWB (C1, 2) =2 X WXms — n (C1) Xwr (C1)。
[0011 ] Wr (C1)为在不属于C1的课程项目集合中其他项目的权值最大的项目权值。
[0012]2.2、挖掘完全加权课程频繁左_项集Zi,所述的左彡2,按照步骤2.2.Γ 2.2.10进行操作:
2.2.1、对于课程候选认-1) _项集Cf1,将w (C^1) <CIWB (C^1, k)的不可能成为课程频繁左_项集的Cm剪除,得到新的课程候选项集集合。其中,WG1)为在课程信息数据库中的权值累加总和,CIVBiCk^ k)为包含完全加权课程候选认_1)_项集的左_项集课程项集权值期望,其计算公式如下:
CIWB (C^1, k) =A X WXms — n (C^1) Xwr (C^1)
其中,为课程候选项集在课程信息数据库中的出现频度,& (GJ为在不属于Ck'项目集合的其他项目中权值最大的项目权值。
[0013]2.2.2、采用Apr1ri连接方法,将其/? U幸O的课程候选{k _1)_项集工自身连接后生成课程候选I项集G ;
2.2.3、如果课程候选I项集G为空集,则退出2.2步转入(3)步,否则,转入2.2.4步。
[0014]2.2.4、对于课程候选[项集C;,如果存在一个其认_1)_项子集,使得#_)〈CIWB U,则该课程候选项集Ck 一定是非频繁的,从Ck集合中删除该项集,得到新的课程候选怂项集G集合。
[0015]2.2.5、在课程信息数据库中累加课程候选项集G的出现频度/7(6;)及其各个项目权值W1 {Ck), W2 (Ci),…,wk (Ci),得出G的课程候选偏序项集CpoCk,提取Wr (Ci),计算ck^cimick,k+\)。CIWB (CjnAn)的计算公式为:
CIWB (CA, k+l) ={k+l) X WXms — n (Ca) Xwr (Ca)
其中,^ (Ck)为在不属于Ck项目集合的其他项目中权值最大的项目权值。
[0016]2.2.6、删除其/? (Q)=O的候选F项集C;,得到新的G集合。
[0017]2.2.7、对于课程候选偏序项集cpoC i,若存在其任一高序真子集是非频繁的,或者,若存在其高权项目的项目权值小于1_项集的最小权值阈值ffii/w,则该课程偏序项集一定是非频繁的,从cpoCk中删除该项集,得到新的课程候选偏序项集cpoCk集合。minw的计算公式为Iminw=WXnis。
[0018]2.2.8、对于课程候选偏序项集若存在其低权项目的项目权值大于或等于minw,则该课程偏序项集一定是频繁的,将该项集加入到课程频繁项集集合CFIS。
[0019]2.2.9、对余下的课程候选偏序项集cpoCk,计算其支持度cisup {cpoCk),若cisup {cpoCk) ^ ms,则该课程偏序项集是频繁的,加入到课程频繁项集集合CFIS。cisup {cpoCk)的计算公式如下:

【权利要求】
1.一种基于偏序模式的教育信息化课程关联模式发现方法,其特征在于,包括如下步骤: (1)教育信息化数据预处理:将待处理的教育信息化教务数据进行预处理,即提取学生课程成绩,将课程当作项目,把课程成绩当作项目权值,将课程权值规范化,构建课程信息数据库和课程项目库; (2)挖掘完全加权课程频繁偏序项集,包括以下步骤2.1和步骤2.2: (2.1)挖掘完全加权课程频繁1_项集Z1,具体步骤按照2.1.1和2.1.2进行: (2.1.1)从课程项目库中提取课程候选1_项集G,将课程信息数据库中所有课程项目成绩权值累加,得到全部课程项目权值总和W,累加C1在课程信息数据库中的权值总和W(Cr1),计算课程项集 Cr1 的支持度(Cource itemsets support, cisup),即 cisop (Cr1); (2.1.2)在课程信息数据库中累加课程候选1-项集C1的出现频度(C1),提取『r(C\),计算 Cr1 的课程项集权值期望(Cource Itemset Weight Bound, CIffB ),即 CrJ勝(Cr1, 2); (2.2)挖掘完全加权课程频繁^_项集4,所述的A ^ 2,按照步骤2.2.Γ 2.2.10进行操作: (2.2.1)对于课程候选认-1)_项集CV1,将#(GJ〈67勝(G+ k)的不可能成为课程频繁k_项集的Ck'剪除,得到新的课程候选项集Ck'集合。
2.其中,W(G1)为在课程信息数据库中的权值累加和,67勝k)为包含完全加权课程候选认-1) _项集的左_项集课程项集权值期望; (2.2.2)采用Apr1ri连接方法,将其/? (GJ幸O的课程候选Qi _1)_项集ι自身连接后生成课程候选I项集G ; (2.2.3)如果课程候选I项集G为空集,则退出2.2步转入(3)步,否则,转入2.2.4ι K少; (2.2.4)对于课程候选[项集C;,如果存在一个其(^-1)_项子集,使得?d〈CIWB U,则该课程候选项集Ck 一定是非频繁的,从Ck集合中删除该项集,得到新的课程候选怂项集G集合; (2.2.5)在课程信息数据库中累加课程候选项集G的出现频度{Ck)及其各个项目权值(Ci), w2 (Ca)j , wk (Ci),得出6;的课程候选偏序项集cpoCk,提取Wr (Ci),计算Ck的CIWB{Ck,k+l); (2.2.6)删除其/? (6;) =0的候选项集Ck,得到新的Ck集合; (2.2.7)对于课程候选偏序项集若存在其任一高序真子集是非频繁的,或者,若存在其高权项目的项目权值小于1_项集的最小权值阈值ffii/w,则该课程偏序项集一定是非频繁的,从cpoCk中删除该项集,得到新的课程候选偏序项集cpoCk集合; (2.2.8)对于课程候选偏序项集cpoCk,若存在其低权项目的项目权值大于或等于minw,则该课程偏序项集一定是频繁的,将该项集加入到课程频繁项集集合CFIS ; (2.2.9)对余下的课程候选偏序项集cpoCk,计算其支持度cisup {cpoCk),若cisup {cpoCk) ^ ms,则该课程偏序项集是频繁的,加入到课程频繁项集集合CFIS ; (2.2.10)将左的值加1,循环2.2.Γ2.2.10步骤,直到Ck为空,则退出2.2步转入如下(3)步; (3)从课程频繁项集集合CFM中挖掘完全加权课程强关联规则模式,按照步骤3.Γ3.4进行操作: (3.1)从CFIS中取出课程频繁项集Zi,找出Li的所有真子集; (3.2)从乙的真子集集合中任意取出两个真子集I1和/2,当1以2=&,并且I耙I2=Li,若kl2 X W1 Xmc ^w12 XA1,则挖掘出完全加权课程强关联规则I1 —12 -Mkl2 X w2 Xmc ^W12 Xk2,则挖掘出完全加权课程强关联规则I2 — I1 ;所述的?W2和?分别为I1、I2和(J7,I2)的项集权值,七、毛和kl2分别为项集I1J2和{I” I2)的项目个数,咖为最小置信度阈值;(3.3)继续3.2步骤,当课程频繁项集4的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤3.4 ; (3.4)继续3.1步骤,当CFIS中每个课程频繁项集Zi都被取出一次,而且仅能取出一次,则(3)步运行结束; 至此,完全加权课程关联规则模式挖掘结束。
3.一种适用于权利要求1所述的基于偏序模式的教育信息化课程关联模式挖掘系统,其特征在于,包括以下4个模块: 教育信息化数据预处理模块:该模块将待处理的教育信息化教务数据进行预处理,即提取学生课程成绩,将课程权值规范化,构建课程信息数据库和课程项目库; 课程候选项集生成及其剪枝模块:该模块用于从课程信息数据库挖掘完全加权课程候选项集,累加课程候选项集的项目权值,求出课程候选偏序项集,采用新的剪枝方法对课程候选偏序项集剪枝,得到最终的课程候选偏序项集; 完全加权课程频繁项集生成模块:该模块主要是对上述模块剪枝后得到的最终课程候选偏序项集进行挖掘,通过本发明的支持度计算方法计算课程候选偏序项集的支持度,与最小支持度阈值比较,得出完全加权课程频繁偏序项集; 完全加权课程关联规则模式生成及显示模块:该模块通过课程项目权重及项集维数的简单计算和比较,从完全加权课程频繁偏序项集中挖掘完全加权课程强关联规则模式,将其模式以用户所需的形式显示给用户。
4.根据权利要求2所述的挖掘系统,其特征在于,所述的教育信息化数据预处理模块包括以下2个模块: 课程信息提取模块:该模块负责从教育信息化教务数据中提取学生课程信息数据,规范化课程成绩权值; 课程信息数据库和课程项目库构建模块:该模块主要负责从已经预处理的教务数据中提取课程信息数据构建课程信息数据库,提取课程项目构建课程项目数据库。
5.根据权利要求2所述的挖掘系统,其特征在于,所述的课程候选项集生成及其剪枝模块包括以下3个模块: 完全加权课程候选项集生成模块:该模块主要从课程信息数据库中挖掘课程候选项集,具体过程如下:从课程项目库中提取课程候选1-项集,累加课程候选1-项集在课程信息数据库中权值总和,通过其支持度的计算,得出完全加权课程频繁1_项集;通过Apr1ri连接,由完全加权课程频繁(左_1)_项集生成课程候选左_项集;所述的A ^ 2 ; 完全加权课程候选偏序项集生成模块:该模块通过累加课程候选项集的各个项目在课程信息数据库中的项目权值,得到完全加权课程候选偏序k_项集; 完全加权候选偏序项集剪枝模块:该模块利用本发明的剪枝方法对完全加权课程候选k_偏序项集进行剪枝,将不可能频繁的课程候选k_偏序项集删除,得到最终有可能频繁的课程候选^_偏序项集集合。
6.根据权利要求2所述的挖掘系统,其特征在于,所述的完全加权课程关联规则模式生成及显示模块包括以下3个模块: 课程频繁偏序项集的子项集生成模块:该模块主要生成课程频繁偏序项集所有的真子集,求出各个真子集的项集权值和维数; 完全加权课程强关联规则生成模块:该模块通过项集及其真子集项集的权值和维数的简单计算和比较,从课程频繁偏序项集挖掘完全加权课程强关联规则模式; 完全加权课程关联规则模式显示模块:该模块负责将挖掘出来的最终关联规则模式以用户所需的形式显示给用户,供用户选择和需要。
7.根据权利要求2-5中任一项所述的挖掘系统,其特征在于,所述的挖掘系统中的最小支持度阈值as,最小置信度阈值由用户输入。
【文档编号】G06Q50/20GK104182528SQ201410427501
【公开日】2014年12月3日 申请日期:2014年8月27日 优先权日:2014年8月27日
【发明者】黄名选, 韦吉锋 申请人:广西教育学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1