本发明涉及数据处理领域,特别涉及一种试题比对方法及系统。
背景技术
考试是检测学习成果的一种常用方法,现有的考试形式通常可以分为纸笔考试和机考考试。机考考试因其安全性和便利性,应用越来越广泛。
机考考试的试卷来源于题库,而题库中的试题来源于出题人、出题小组、出题专家组等。由于出题人、出题小组、出题专家组人数众多,地理上也比较分散,所以互相难以沟通,所以原始题库中可能会有很多重复试题。
现有技术中,对原始题库中的试题进行去重需要人力进行,因此效率低、成本高。
技术实现要素:
本发明的目的是提供了一种试题比对方法,能自动完成试题的检测对比从而达到试题的去重,提高了效率,节约了成本。
第一方面,提供了一种试题比对方法,所述方法包括:
根据试题的属性将所述试题进行分组;
在每一个试题组中,获取待查试题包和查重试题包;
对所述待查试题包中的每一个待查试题,在查重试题包中进行比对;
若比对结果为重复,则标记所述待查试题为疑似重复试题,并从所述待查试题包中删除所述疑似重复试题。
可选的,所述试题的属性包括以下至少一种:
专业、科目、级别、难度、章节。
可选的,所述待查试题包中的试题包括:
正在命题的试题;或
根据预设条件筛选出的试题。
可选的,对所述待查试题包中的每一个待查试题,在查重试题包中进行比对,包括:
对所述待查试题包中的每一个待查试题进行数据清洗;
对多个清洗后的待查试题,根据比对算法与所述查重试题包中的每一个试题进行比对,得到多个相似度,其中,每一个清洗后的待查试题对应一个相似度;
根据预设相似度阈值,对所述待查试题进行判断;
若所述相似度大于预设阈值,则认为所述待查试题重复。
可选的,所述数据清洗包括:
将待查试题中的无关信息去除;
去除预设固定词组和/或预设固定语句结构。
可选的,在根据试题的属性将所述试题进行分组之前,所述方法还包括:
接收客户端上传的试题;
对所述上传的试题设置属性。
可选的,所述比对算法包括:
获取待查试题与查重试题包中的试题之间的最小变换次数;
所述最小变换次数为:从待查试题变换到查重试题包中的试题之间需要改动的最小次数;
所述变换包括以下至少一种:
插入一个字或字符;
删除一个字或字符;
替换一个字或字符。
可选的,所述相似度为:
最小变换次数/待查试题或查重试题包中的试题之间中最长的长度。
第二方面,提供了一种试题比对系统,所述系统包括:
分组单元,用于根据试题的属性将所述试题进行分组;
试题包获取单元,用于在每一个试题组中,获取待查试题包和查重试题包;
比对单元,对所述待查试题包中的每一个待查试题,在查重试题包中进行比对;
处理单元,用于若比对结果为重复,则标记所述待查试题为疑似重复试题,并从所述待查试题包中删除所述疑似重复试题。
可选的,所述比对单元还用于:
对多个清洗后的待查试题,根据比对算法与所述查重试题包中的每一个试题进行比对,得到多个相似度,其中,每一个清洗后的待查试题对应一个相似度;
根据预设相似度阈值,对所述待查试题进行判断;
若所述相似度大于预设阈值,则认为所述待查试题重复。
本发明公开了一种试题比对方法,根据试题的属性将所述试题进行分组;在每一个试题组中,获取待查试题包和查重试题包;对所述待查试题包中的每一个待查试题,在查重试题包中进行比对;若比对结果为重复,则标记所述待查试题为疑似重复试题,并从所述待查试题包中删除所述疑似重复试题。本发明实施例的方法能自动完成试题的检测对比从而达到试题的去重,提高了效率,节约了成本,还可以提高试题的保密性和原创性。
附图说明
图1所示为本发明实施例的一种试题比对方法的流程图;
图2所示为本发明实施例的一种试题比对系统的示意图;
图3所示为本发明实施例一个应用实例的示意图。
具体实施方式
本发明实施例公开了一种试题比对方法,能自动完成试题的检测对比从而达到试题的去重,提高了效率,节约了成本。
图1所示为本发明实施例的一种试题比对方法的流程图,如图1所示,所述方法包括:
步骤110,根据试题的属性将所述试题进行分组;
本发明实施例中,试题的属性包括以下至少一种:
专业、科目、级别、难度、章节。
专业、科目等可以是现有的专业和科目,也可以是用户自行定义的专业和科目,其他属性在此不再赘述。
每个试题可以有多个属性。
在步骤110之前,即在根据试题的属性将所述试题进行分组之前,所述方法还包括:
接收客户端上传的试题;
对所述上传的试题设置属性。
客户端是出题人等使用的终端,可以分布于任何地理位置,客户端可以设置身份验证,试题上传时可以是加密上传,从而避免了传统的出题方法中出题人必须集结在一起造成的时间成本增加的弊端,还可以避免出题人分布于多处出题可能造成的试题泄露的弊端。
步骤120,在每一个试题组中,获取待查试题包和查重试题包。
所述待查试题包中的试题包括:
正在命题的试题;或
根据预设条件筛选出的试题。
初始状态下,所有的试题都在待查试题包中,查重试题包可能为空,运行一段时间后,查重试题包中的试题就会增多,并且查重试题包中无重复试题。
预设条件可以是多种属性,例如在某一个专业下的某一个难度的试题,还可以是其他条件,例如时间段等。
在命题阶段进行查重,特别是在命题人、命题专业组在线命题的时候查重并进行提醒,例如提示命题人某一个属性的试题已经很多,重复率可能会很高,可以避免后续更多的重复试题的出现,避免浪费资源。
步骤130,对所述待查试题包中的每一个待查试题,在查重试题包中进行比对,若比对结果为重复,转至步骤140;
步骤140,则标记所述待查试题为疑似重复试题,并从所述待查试题包中删除所述疑似重复试题。
本发明实施例中,若比对结果为不重复,则继续下一轮查重。
本发明实施例中,步骤130中,对所述待查试题包中的每一个待查试题,在查重试题包中进行比对,包括:
对所述待查试题包中的每一个待查试题进行数据清洗;
对多个清洗后的待查试题,根据比对算法与所述查重试题包中的每一个试题进行比对,得到多个相似度,其中,每一个清洗后的待查试题对应一个相似度;
根据预设相似度阈值,对所述待查试题进行判断;
若所述相似度大于预设阈值,则认为所述待查试题重复。
相似度是小于等于1大于等于0的数字,本发明实施例中,相似度阈值可以设置为0.9,在其他实施例中,也可以设置为0.7或其他数字。
所述数据清洗包括:
将待查试题中的无关信息去除;
去除预设固定词组和/或预设固定语句结构。
无关信息可以包括标点、带括号的注释、带引号的注释等,预设固定词组和/或预设固定语句结构例如“关于……,正确的说法是……”、“从上述说明中可以看出……”,清洗上述数据后,可以节约检测比对的时间,节约时间成本。
本发明实施例中,所述比对算法包括:
获取待查试题与查重试题包中的试题之间的最小变换次数;
所述最小变换次数为:从待查试题变换到查重试题包中的试题之间需要改动的最小次数;
所述变换包括以下至少一种:
插入一个字或字符;
删除一个字或字符;
替换一个字或字符。
本发明实施例中,所述相似度为:
最小变换次数/待查试题或查重试题包中的试题之间中最长的长度。
例如:cat和cbt的最小变换次数是1(将a替换为b),相似度为67%;cat到ca的最小变换次数是1(删除t),相似度为67%;ct到cat的最小变换次数是1(插入a),相似度为67%;xcat到caty的最小变换次数是2(删除x,插入y),相似度为50%。
本发明实施例的试题比对方法,根据试题的属性将所述试题进行分组;在每一个试题组中,获取待查试题包和查重试题包;对所述待查试题包中的每一个待查试题,在查重试题包中进行比对;若比对结果为重复,则标记所述待查试题为疑似重复试题,并从所述待查试题包中删除所述疑似重复试题。本发明实施例的方法能自动完成试题的检测对比从而达到试题的去重,提高了效率,节约了成本,还可以提高试题的保密性和原创性。
图2所示为本发明实施例的一种试题比对系统的示意图,如图2所示,所述系统包括:
分组单元210,用于根据试题的属性将所述试题进行分组;
试题包获取单元220,用于在每一个试题组中,获取待查试题包和查重试题包;
比对单元230,对所述待查试题包中的每一个待查试题,在查重试题包中进行比对;
处理单元240,用于若比对结果为重复,则标记所述待查试题为疑似重复试题,并从所述待查试题包中删除所述疑似重复试题。
本发明实施例中,所述比对单元230还用于:
对多个清洗后的待查试题,根据比对算法与所述查重试题包中的每一个试题进行比对,得到多个相似度,其中,每一个清洗后的待查试题对应一个相似度;
根据预设相似度阈值,对所述待查试题进行判断;
若所述相似度大于预设阈值,则认为所述待查试题重复。
本发明实施例自动完成试题的检测对比从而达到试题的去重,提高了效率,节约了成本,还可以提高试题的保密性和原创性。
图3所示为本发明实施例一个应用实例的示意图,如图3所示,机考考试包括考前命题工作阶段、考前准备阶段及考生上机考试三个阶段,考前命题工作阶段可以由本发明实施例的试题比对系统和方法来完成,包括出题、比对、设置组卷策略、生成电子试卷等;在考务准备阶段,考生上传报名信息后,生成准考证,生成考试编排数据;在考生上机考试阶段,考生认证身份,监考员确认考试,机考考试平台提供电子试卷,在考试结束之后,得到考生的电子答卷。
本发明实施例自动完成试题的检测对比从而达到试题的去重,提高了效率,节约了成本,还可以提高试题的保密性和原创性。
本发明实施例提供了试题比对方法及试题比对系统,所述试题比对方法中,根据试题的属性将所述试题进行分组;在每一个试题组中,获取待查试题包和查重试题包;对所述待查试题包中的每一个待查试题,在查重试题包中进行比对;若比对结果为重复,则标记所述待查试题为疑似重复试题,并从所述待查试题包中删除所述疑似重复试题。本发明实施例能自动完成试题的检测对比从而达到试题的去重,提高了效率,节约了成本,还可以提高试题的保密性。
本文中应用了具体个例对发明构思进行了详细阐述,以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离该发明构思的前提下,所做的任何显而易见的修改、等同替换或其他改进,均应包含在本发明的保护范围之内。