一种基于FP-Growth算法的试题知识点分析方法与流程

文档序号:15932264发布日期:2018-11-14 01:49阅读:314来源:国知局
本发明涉及信息化、数学化教育领域,特别涉及一种基于fp-growth算法的试题知识点分析方法。
背景技术
近年来,随着移动互联网的迅速发展以及云计算带动的大数据时代新“浪潮”,我国教育信息化建设开始进入效益发挥的应用发展关键期。在现代教学过程中,考试作为其中重要的一环,仍是检验学生学习成果、反馈教师教学情况的重要手段之一。从教育评价方面看,大量试卷试题作答数据很好的为教育大数据分析提供了基础,试卷作为考核评价学生最有效的方式之一的载体,也能实时收集学生作答反馈的大量相关数据信息。另一方面,试卷分析作为帮助了解教学效果、确定是否达到预期目的和要求的有效途径,是伴随着考试过程中不可或缺的一部分。如何挖掘隐藏于其中的巨大价值信息并加以有效利用,为教学过程提供科学指导与科学依据,提高教学管理水平,是现代教学发展过程中亟待解决的问题。现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。数据预处理有多种方法:数据清洗指的是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性;数据有效性分析是指排除一些对后续数据分析产生干扰的因素,以确保后期结果的可靠性;数据离散化处理是程序设计中一个常用的技巧,它可以有效的降低时间复杂度,其基本思想就是在众多可能的情况中,只考虑需要用的值。从大规模数据集中寻找项与项之间可能存在的相关联系被称作关联分析(associationanalysis)或者关联规则学习(associationrulelearning)。关联规则是形如x→y的蕴涵式,其中,x和y分别称为关联规则的先导和后继。关联规则最初提出的动机是针对购物篮分析(marketbasketanalysis)问题提出的,由于可以发现以往数据分析与统计方法无法得到的数据之间隐藏的关联规律,因此关联规则的探究一直以来都受到领域内众多学者专家的重视,其研究价值的重要性不言而喻。关联规则分析如今在商业、医疗、金融、保险、教育、气象观测、证券和工业制造等领域得到了广泛的应用。fp-growth算法是韩家炜等人在2000年提出的关联分析算法,它采取如下分治策略:在算法中使用了一种称为频繁模式树(frequentpatterntree)的数据结构。将提供频繁项集的数据库压缩到一棵频繁模式树(fp-tree),但仍保留项集关联信息。fp-tree是一种特殊的前缀树,由频繁项头表和项前缀树构成。fp-growth算法基于以上的结构加快整个挖掘过程。实验表明,fp-growth对不同长度的规则都有很好的适应性,同时在效率上较经典的关联规则算法apriori算法有巨大的提高。fp-growth算法可以通过项合并策略进行改进优化。项合并策略的理论依据如下:如果包含频繁项集x的每个事务中都包含频繁项集y,但不包含频繁项集y的任何超集,则x∪y形成一个闭频繁项集,并且不必再搜素包含x但不包含y的任何项集。技术实现要素:本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于fp-growth算法的试题知识点分析方法,通过项合并策略改进传统fp-growth算法,提供一种挖掘考试试题中知识点间关联性的分析方法。本发明的目的通过以下的技术方案实现:一种基于fp-growth算法的试题知识点分析方法,包括以下步骤:1)获取试题作答结果数据,并对其进行预处理,所述预处理包括数据清洗、数据有效性分析以及数据离散化处理;2)进一步优化fp-growth算法:通过使用项合并策略,对传统fp-growth算法中产生的fp-tree进行剪枝,得到改进的fp-growth算法;大幅度减小搜索空间的规模,同时也减少了频繁项集的产生,提高算法运行效率。3)设置算法最小支持度与最小置信度,运用改进的fp-growth算法对预处理后的数据集进行迭代,根据运行结果找出试题之间的关联性,进而对应获知试题知识点之间的关联规则;4)依据所述试题知识点之间的关联规则,为教师优化教学内容与改善教学策略、学生调整学习侧重点提供决策依据,同时为师生提供相关联试题的推荐功能,更好地帮助学生巩固所学内容。步骤1)中,所述数据清洗具体为:对数据进行审查与校验,填补空缺信息、删除重复信息、纠正错误信息,并调整数据的结构来保证数据的一致性;所述数据有效性分析具体为:首先计算数据的信度、效度指标,检测数据的一致性、可靠性以及有效性,然后计算试题的难度系数,剔除一些难度系数超出设定阈值范围内(过高或过低)的试题,避免对后续的试题关联分析部分造成干扰,保证分析的合理性。所述数据离散化处理具体为:对所获取的作答结果数据作离散化处理,将客观题中正确的作答结果量化为1,错误的作答结果量化为0,主观题中得分超过该题总分60%的作答结果视为作答准确,量化为1,得分低于该题总分60%的作答结果视为作答不准确,量化为0。所述步骤2),具体包括以下步骤:2.1)扫描数据库,找出频繁项的集合,并得到他们的支持度计数(频度);频繁项的集合按照支持度计数的递减序排序;2.2)创建fp-tree:首先,创建树的根结点,标记为“null”;接下来再次扫描数据库,每个事务中的项都按步骤2.1)中得到的排序依次插入频繁模式树,并对每个事务创建一个分枝,插入的同时记录下每个事务项的频数,即支持度;增加分枝时,沿共同前缀上的每个阶段的计数增加1,为前缀之后的项创建结点和链;当所有的事务都插入完毕后,便得到了构建好的fp-tree;2.3)通过项合并策略对fp-tree进行剪枝:自底向上遍历生成的fp-tree中每一个项的头结点,再以该结点为后缀,得到包括该结点自身的所有前缀路径;如果该路径是单链的,则路径上每个元素都可与此结点合并,生成频繁项集,如果不是单链的话,则需要通过项合并策略来判断是否存在可以进行合并的地方,是否能进行剪枝;如果能则剪枝后合并;2.4)在步骤2.3)完成后得到的路径中,以包含的所有后缀结点作为新的后缀结点,按照步骤2.2)中fp-tree树生成方式重新生成新的fp-tree树;2.5)反复迭代步骤2.2)至步骤2.4),直到所有项都只存在一条路径为止,结束迭代。所述步骤4),具体包括以下步骤:4.1)教师改良自身教学策略,着重加强规则中几个知识点的讲解与关联教学,同时进行知识点的扩展讲解,使得学生对教学授课内容的理解更透彻更深入,促进学生对授课知识点的掌握;4.2)学生调整自身学习方针与侧重点,根据所推荐相关联试题加强有关知识点的理解与练习,巩固在课堂中所学内容。本发明与现有技术相比,具有如下优点和有益效果:1)本发明对fp-growth算法进行了优化。通过使用项合并策略,对传统的fp-growth算法进行了改进,详细为对算法产生的fp-tree进行剪枝,减小了树的复杂度,大幅度减小搜索空间的规模,同时也减少了频繁项集的产生,达到提高算法运行效率的目的。2)本发明对教育领域中杂而多的试题数据信息及其作答结果进行提取,并进行数据清洗、数据有效性分析以及数据离散化处理等相关处理工作,将关联规则运用于教育领域中挖掘测评试题之间潜在的关联性,寻找试题知识点之间的关联规则,同时通过知识点间的支撑关系,了解到前驱知识点与后继知识点之间的相互影响,根据关联规则对教学活动进行针对性的调整,有效地开展因材施教的个性化教学。3)本发明提供了一种基于fp-growth算法的试题知识点分析方法。通过对测评作答结果数据进行统计处理并运用改进的fp-growth算法对数据集进行迭代,挖掘试题知识点之间的关联性,依据所得到的关联规则,为教师优化教学内容与改善教学策略、学生调整学习侧重点提供决策依据,同时为师生提供相关联试题的推荐功能,更好地帮助学生巩固所学内容。附图说明图1为本发明所述一种基于fp-growth算法的试题知识点分析方法的流程图。图2为fp-tree的详细创建流程图。图3为创建完成的fp-tree实例图。图4为fp-tree剪枝过程示意图。图5为改进的fp-tree挖掘流程图。具体实施方式下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。如图1所示,为一种基于fp-growth算法的试题知识点分析方法的示意图。一种适用于挖掘考试试题所包含知识点之间隐藏关联规则的分析方法,包括以下步骤:1)获取试题作答结果数据,并对其进行数据清洗、数据有效性分析以及数据离散化处理等相关预处理工作。2)进一步优化fp-growth算法,通过使用项合并策略,对传统fp-growth算法中产生的fp-tree进行剪枝,大幅度减小搜索空间的规模,同时也减少了频繁项集的产生,提高算法运行效率。3)设置算法最小支持度与最小置信度,运用改进的fp-growth算法对离散化处理后的数据集进行迭代,根据运行结果找出试题之间的关联性,进而对应获知试题知识点之间的关联规则。4)依据所得到的关联规则,为教师优化教学内容与改善教学策略、学生调整学习侧重点提供决策依据,同时为师生提供相关联试题的推荐功能,更好地帮助学生巩固所学内容。具体的,步骤1)中相关数据预处理工作,包括以下步骤:1.1)数据清洗:对数据进行审查与校验,填补空缺信息、删除重复信息、纠正错误信息,并调整数据的结构来保证数据的一致性。1.2)数据有效性分析:首先计算数据的信度、效度指标,检测数据的一致性、可靠性以及有效性,然后计算试题的难度系数,剔除一些难度系数过高或过低的试题,避免对后续的试题关联分析部分造成干扰,保证分析的合理性。1.3)数据离散化处理:对所获取的作答结果数据作离散化处理,将客观题中正确的作答结果量化为1,错误的作答结果量化为0,主观题中得分超过该题总分60%的作答结果视为作答准确,量化为1,得分低于该题总分60%的作答结果视为作答不准确,量化为0。如图2所示,为fp-tree的创建流程图。fp-tree创建的细化步骤如下:2.1)扫描数据库,找出频繁项的集合以及对应的支持度计数。频繁项的集合按照支持度计数的递减序排序。2.2)建立初始fp-tree,创建树的根结点,标记为“null”。2.3)再次扫描数据库,每个事务中的项都按照步骤2.1中得到的排序依次插入频繁模式树,并对每个事务创建一个分枝,插入的同时记录下每个事务项的频数,即支持度。2.4)增加分枝时,沿共同前缀上的每个阶段的计数增加1,为前缀之后的项创建结点和链接。当所有的事务都插入完毕后,便得到了构建好的fp-tree。表1列举了一个事务数据表示例,按照fp-tree创建步骤,得到的创建完成的fp-tree如图3所示。表1事务数据表tid物品列表1a,b,c2a,c3b,c4a,b,c,e5a,b6a,b,d7b,d8b,c9a,b,efp-growth算法优化需要运用项合并策略对fp-tree进行剪枝。项合并策略的理论依据如下:如果包含频繁项集x的每个事务中都包含频繁项集y,但不包含频繁项集y的任何超集,则x∪y形成一个闭频繁项集,并且不必再搜素包含x但不包含y的任何项集。如图4所示,为fp-tree剪枝过程示意图。对于图中fp-tree的两条分支路径,{b,a,e:1}和{b,a,c,e:1},以e为后缀,其两个前缀路径分别为{b,a:1}和{b,a,c:1},这两个路径中都包含项集{b,a}且不包含{b,a}的真超集,由项合并策略可知,项集{e}和项集{b,a}形成一个闭频繁项集{b,a,e:2},并且将{c}进行剪枝。如图5所示,为依据项合并策略改进的fp-tree挖掘流程图。挖掘fp-tree的细化步骤如下:3.1)自底向上遍历之前生成的fp-tree中的每一个项的头结点,再以该结点为后缀,得到其所有的前缀路径,然后加入前缀路径,即得到了包含此结点在内的fp-tree路径。3.2)如果步骤3.1中得到的路径是单链的,则路径上每个元素都可与此结点合并,生成频繁项集,如果不是单链的话,则需要通过项合并策略来判断是否存在可以进行合并的地方,是否能进行剪枝。如果能则剪枝后合并。3.3)步骤3.2完成后得到的路径中,以包含的所有后缀结点作为新的后缀结点,按照fp-tree树生成方式重新生成新的fp-tree树。3.4)反复迭代步骤3.1-3.3,直到所有项都只存在一条路径为止,结束迭代。一种基于fp-growth算法的试题知识点分析方法,可以方便的应用于众多考试结束后的试题分析环节,同时实现如下功能:(1)对考试过程中杂而多的试题数据信息及其作答结果进行提取,并进行数据清洗、数据有效性分析以及数据离散化处理等相关处理工作;(2)通过改进的fp-growth算法对作答结果数据集进行迭代,挖掘试题知识点之间的关联性;(3)依据所得到的关联规则,为教师优化教学内容与改善教学策略、学生调整学习侧重点提供决策依据,对教学活动进行针对性的调整,有效地开展因材施教的个性化教学,同时为师生提供相关联试题的推荐功能,更好地帮助学生巩固所学内容。上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1