自适应测评方法及设备与流程

文档序号:19073875发布日期:2019-11-08 21:08阅读:234来源:国知局
自适应测评方法及设备与流程

本发明涉及测评技术领域,具体涉及自适应测评方法及设备。



背景技术:

基于固定试卷的传统测评,也称为线性固定测验(liner-fixedtest),特征是试卷题目固定,呈现题目时以某一顺序线性进行。由于该特点,其试卷题目单一,题目容易批量曝光,并且无法根据作答者的实际情况给予其最适合的已有题目,因此正逐步被具备自适应功能的测验法所取代。

现有的自适应测验法(computerizedadaptivetest),相对于传统线性固定测验,能够较大程度解决题目批量曝光问题,并能够大大提升测评的灵活性和多样性。但由于其以一道题目的结果作为给出下一题目的前提,容易出现由于意外失误或意外猜测正确的情况,从而造成后续提供不适合的题目,使得测验结果不准确。



技术实现要素:

有鉴于此,本发明为了在至少一定程度上克服相关技术中存在的问题,提供一种自适应测评方法及设备。

为解决上述技术问题,本发明采用如下技术方案:

第一方面,一种自适应测评方法,包括:

根据已有题目和预先选择的测评模型进行题目参数估计,得到题目参数;

根据所述题目参数构建满足预设构建条件的测评题库,所述测评题库包括多个难度区间组,各难度区间组中包括至少一个题组,各所述题组包括至少一个已有题目;

在预设的测评实施策略的初始难度区间组中,选择首个阶段的题组并呈现给受测者,以及记录受测者对所述当前阶段的题组的反应数据;

根据所述反应数据和所述测评实施策略,选择下一阶段的题组并呈现给受测者,以及记录对应的反应数据,直至完成对所述受测者的测评;

根据所述测评模型,以及记录的所述受测者的所有反应数据,计算得到所述受测者的测评结果。

可选的,所述根据所述题目参数构建满足预设构建条件的测评题库,包括:

根据所述题目参数,采用混合整数规划算法对所述已有题目进行组合,得到多个组合题库,且各组合题库均符合各难度区间组中包括至少一个题组;

若所述多个组合题库中至少一个满足预设构建条件,则计算满足预设构建条件的各所述组合题库的平均测量误差;

将平均测量误差最小的组合题库作为测评题库。

可选的,还包括:

若所述多个组合题库都不满足预设构建条件,则重新设置预设构建条件。

可选的,所述题目参数包括题目难度系数,所述根据所述题目参数,采用混合整数规划算法对所述已有题目进行组合,包括:

根据所述题目难度系数,采用混合整数规划算法,将难度系数在预设构建条件范围内的题目进行组合。

可选的,还包括:

在构建满足预设构建条件的测评题库后,根据所述测评题库的题库结构,计算所述测评题库中各个题组的信息函数矩阵。

可选的,所述测评实施策略还包括:测评阶段数、题组选择策略,所述根据所述反应数据和所述测评实施策略,选择下一阶段的题组并呈现给受测者,包括:

判断当前测评结束后是否达到所述测评阶段数;

若没有达到所述测评阶段数,根据所述受测者对所述当前阶段的题组的反应数据以及所述题组选择策略,以及,所述测评题库中的题组的信息函数矩阵,在所述受测者尚未作答过题组中,选择下一阶段的题组并呈现给受测者。

可选的,根据所述测评模型,以及记录的所述受测者的所有反应数据,计算得到所述受测者的测评结果,包括:

将所述所有反应数据作为所述测评模型的输入参数,得到模型输出参数,将所述输出参数作为所述受测者的测评结果。

可选的,还包括:

将所述测评结果存储至所述受测者对应的数据字段中。

可选的,包括:所述记录受测者对所述当前阶段的题组的反应数据之后,还包括:

为所述受测者建立唯一的数据库识别编号;

将所述反应数据存储至所述识别编号对应的数据字段中。

第二方面,一种自适应测评设备,包括:

处理器,以及与所述处理器相连接的存储器;

所述存储器用于存储计算机程序;

所述处理器用于调用并执行所述存储器中的所述计算机程序,以执行如第一方面所述的自适应测评方法。

第三方面,一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现如本发明第一方面所述自适应测评方法。

本发明采用以上技术方案,可以实现如下技术效果:先根据已有题目和预先选择的测评模型进行题目参数估计,估计得到题目参数,然后根据题目参数构建满足预设构建条件的测评题库,构建题库完毕后,便可以将题库中的题目展示给受测者以进行测评,具体的,先在预设的测评实施策略的初始难度区间组中,选择当前阶段的题组并呈现给受测者,以及记录受测者对当前阶段的题组的反应数据,然后根据反应数据和测评实施策略,选择下一阶段的题组并呈现给受测者,以及记录对应的反应数据,直至完成对受测者的测评,最后,根据测评模型,以及记录的受测者的所有反应数据,计算得到受测者的测评结果。由于构建的测评题库中,以题组为单位,将一个题组后作答完毕后的反应数据作为下一个题组的出题基础,又由于题组中包括多个题目,因此,即使题组中的一道题目意外猜测正确,也不会对结果产生很大影响,相较于现有技术中,以一道题目的结果估计出下一道题的方式,测评结果更加趋近于正确结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的自适应测评方法的流程示意图;

图2是本发明实施例二提供的自适应测评方法的流程示意图;

图3是本发明实施例三提供的自适应测评设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。

为了更好的理解本申请提供的方案,需要了解以下内容:

现有的自适应测验法(computerizedadaptivetest),具体的实现方式如下,在测验开始时,计算机一般给出一个难度中等的题目,如果被试者做对,计算机就会估计他的能力高于中等水平,然后再给他一个难度高一点的题目;如果他做错,计算机就会估计他的能力低于中等水平,然后给他一个难度较低一点的题目。然后,计算机根据被试者第二题的回答情况,对其能力再作估计,在第二次估计基础上,计算机在题库中选择最接近他能力估计值的题目,接着根据被试反应,对其能力再进行估计。这种方式,以一道题目的结果作为给出下一题目的前提,容易出现由于意外失误或意外猜测正确,而造成后续提供不适合的题目,使得测验结果不准确的情况。

实施例一

图1是本发明实施例一提供的自适应测评方法的流程示意图。如图1所示,本实施例提供一种自适应测评方法,包括:

步骤101、根据已有题目和预先选择的测评模型进行题目参数估计,估计得到题目参数。

一些实施例中,预先选择的测评模型可以但不限于为单参数rasch模型、两参数logistic模型和三参数logistic模型。

步骤102、根据题目参数构建满足预设构建条件的测评题库,测评题库包括多个难度区间组,各难度区间组中包括至少一个题组,各题组包括至少一个已有题目。

一些实施例中,预设构建条件可以但不限于为构建的题库中各题组中的题目数量、难度区间组的数量、难度区间组的难度区间。其中,难度区间可以根据已有题目的难度系数进行划分。

步骤103、在预设的测评实施策略的初始难度区间组中,选择首个阶段的题组并呈现给受测者,以及记录受测者对当前阶段的题组的反应数据。

步骤104、根据反应数据和测评实施策略,选择下一阶段的题组并呈现给受测者,以及记录对应的反应数据,直至完成对受测者的测评。

步骤105、根据测评模型,以及记录的受测者的所有反应数据,计算得到受测者的测评结果。

先根据已有题目和预先选择的测评模型进行题目参数估计,估计得到题目参数,然后根据题目参数构建满足预设构建条件的测评题库,构建题库完毕后,便可以将题库中的题目展示给受测者以进行测评,具体的,先在预设的测评实施策略的初始难度区间组中,选择当前阶段的题组并呈现给受测者,以及记录受测者对当前阶段的题组的反应数据,然后根据反应数据和测评实施策略,选择下一阶段的题组并呈现给受测者,以及记录对应的反应数据,直至完成对受测者的测评,最后,根据测评模型,以及记录的受测者的所有反应数据,计算得到受测者的测评结果。由于构建的测评题库中,以题组为单位,将一个题组后作答完毕后的反应数据作为下一个题组的出题基础,又由于题组中包括多个题目,因此,即使题组中的一道题目意外猜测正确,也不会对结果产生很大影响,相较于现有技术中,以一道题目的结果估计出下一道题的方式,测评结果更加趋近于正确结果。

实施例二

图2是本发明实施例二提供的自适应测评方法的流程示意图。如图2所示,本实施例提供一种自适应测评方法,包括:

步骤201、根据已有题目和预先选择的测评模型进行题目参数估计,估计得到题目参数。

一些实施例中,预先选择的测评模型有多种,例如,一般二分法计分题目(答对得1分,答错得0分),可采用的模型有单参数rasch模型、两参数logistic模型和三参数logistic模型等;对于多级计分题目(选择不同选项可能得到0、1、2或更多分数),可采用grm等级积分模型、gpcm广义分布计分模型等;对于多维迫选计分题目(每题根据在选项上互斥的正反态度,在相应维度上进行正负计分),可采用瑟斯顿潜变量模型。具体的,测评模型可以根据实际测评的项目进行选择。

步骤202、根据题目参数,采用混合整数规划算法对已有题目进行组合,得到多个组合题库,且各组合题库的各难度区间组中包括至少一个题组。

一些实施例中,根据选择的模型不同,估计的题目参数也不同,例如,单参数rasch模型需估计题目难度系数参数,两参数logistic模型需估计题目难度系数参数和题目区分度参数。

进一步的,可以根据题目难度系数,采用混合整数规划算法,将难度系数在预设构建条件范围内的题目进行组合,得到多个组合题库。

其中,混合整数规划算法是现有技术中常用的一种算法,具体的算法可参照现有技术,此处不再赘述。

步骤203、若多个组合题库中至少一个满足预设构建条件,则计算满足预设构建条件的各组合题库的平均测量误差。

一些实施例中,根据实际测评需要,设定预设构建条件,其中,预设构建条件可以但不限于为:构建的题库中各题组中的题目数量n;难度区间组的数量k;难度区间组的难度区间dki。其中,难度区间可以根据已有题目的难度系数进行划分。例如,共计300道题目,其难度系数为-3至+3,则预设构建条件可以为难度区间组的数量为6个,难度区间组的难度区间分别为-3至-2、-2至-1、……2至3,各题组中的题目数量为3道,由此,得到构建的组合题库。

步骤204、将平均测量误差最小的组合题库作为测评题库。

在构建的各组合题库中,若满足预设构建条件,则需要从中挑选出测量误差最小的组合题库,将其作为测评题库。在利用测评模型进行题目参数估计时,还会估计出各题目反应测量误差的参数,即标准误,根据标准误可以得出组合的各题组的测量误差,进而可以通过所有题组的测量误差计算组合题库的平均测量误差。选择测量误差最小的组合题库,可以使测评结果更加准确。

其中,测评题库包括多个难度区间组,各难度区间组中包括至少一个题组,各题组包括至少一个已有题目。

步骤205、在构建满足预设构建条件的测评题库后,根据测评题库的题库结构,计算测评题库中各个题组的信息函数矩阵。

一些实施例中,在选择了的测评模型后,测评模型可以计算题目的信息函数,从而得到该测评题库的信息函数矩阵。在信息函数矩阵中,共有两维,其中一维为各能力点,另一维为各题组,每个矩阵中的点,表示在各能力点时对应题组的信息量。其中,在评价测评者的水平时,通常采用标准正态分布的方式,在-3至3的区间中,以相同的间隔(如间隔为0.1)取能力点。

步骤206、若多个组合题库都不满足预设构建条件,则重新设置预设构建条件。

进一步的,若构建的多个组合题库都不满足预设构建条件,则可以重新设置构建条件,重新进行组合。

步骤207、在预设的测评实施策略的初始难度区间组中,选择当前阶段的题组并呈现给受测者,以及记录受测者对当前阶段的题组的反应数据。

一些实施例中,预设的测评实施策略可以包括:测评阶段数、初始难度区间组、题组选择策略。其中,题组选择策略用于确定下一阶段为受测者提供哪个题组的标准,其中,题组选择的标准可以但不限于为最大fisher信息量法、似然值加权的最大信息量法、kl加权的最大信息量法。

进一步的,初始难度区间组是在题库中的k个难度组中,选择一个组,对于所有受测者,第一阶段的题组都将来自于这一组中。

步骤208、为受测者建立唯一的数据库识别编号,将反应数据存储至识别编号对应的数据字段中。

一些实施例中,通过为受测者建立唯一的数据库识别编号,而数据库识别编号对应唯一的数据字段,因此可以将受测者的反应数据定向存储,防止受测者数据丢失。

步骤209、判断当前测评结束后是否达到测评阶段数。

其中,测评阶段数可以根据实际测评情况进行设定,其决定在本次测评中,受测者需要完成的题组数量。

步骤210、若没有达到测评阶段数,根据受测者对当前阶段的题组的反应数据以及题组选择策略,以及,测评题库中的题组的信息函数矩阵,在受测者尚未作答过题组中,选择下一阶段的题组并呈现给受测者。

一些实施例中,在未达到测评阶段数时,则需要通过当前阶段的反应数据等确定下一阶段的题组。以题组选择策略为似然值加权的最大信息量法为例,进行说明:

基于上述实施例,在信息函数矩阵中,各位置表示各题组在相应能力点时的信息量。通过当前阶段的反应数据和测评模型,计算或确定各能力点的加权向量,如使用似然值向量作为加权向量(每一个似然值可视为该受测者的能力等于各能力点的可能性),以此加权向量作为各能力点信息量的权重并进行加和,即进行信息函数矩阵和加权向量的矩阵乘法,最终得到包含每个题组加权信息量的题组信息向量。取题组信息向量中最大值所对应的题组,作为下一阶段的题目,呈现给受测者。

可以理解的是,也可以使用最大fisher信息量法、kl加权的最大信息量法等标准,具体的,可以依据实际情况进行选择。最大fisher信息量法,没有加权,数学上也可以理解为使用在各能力点上数值相等,总和为1的向量进行加权。kl加权的最大信息量法则使用kl参数向量进行加权,与似然值向量相同,二者都是通过作答反应数据和测评模型来进行计算的。

步骤211、记录对应的反应数据,直至完成对受测者的测评。

进一步的,将各个测评阶段受测者的反应数据,均存储至对应的数据字段中。

步骤212、根据测评模型,以及记录的受测者的所有反应数据,计算得到受测者的测评结果。

具体的,将所有反应数据作为测评模型的输入参数,得到模型输出参数,将输出参数作为受测者的测评结果。

根据选择的测评模型的计分模式,将受测者的反应数据代入测评模型中,经过测评模型,得到受测者的测评结果。

步骤213、将测评结果存储至受测者对应的数据字段中。

一些实施例中,通过将测评结果、受测者反应数据均存储至对应的数据字段中,保存了有效数据,并且方便了测试者随时查看受测者的测试情况。

实施例三

图3是本申请实施例三提供的一种自适应测评设备的结构示意图。参照图3,本申请实施例的提供了一种自适应测评设备,包括:

处理器301,以及与处理器相连接的存储器302;

存储器302,用于存储计算机程序;

处理器301,用于调用并执行存储器302中的计算机程序,以执行如实施例一或二中的自适应测评方法。

本实施例的具体实现方案可以参见前述实施例一和实施例二记载的自适应测评方法实施例中的相关说明,此处不再赘述。

实施例四

本发明实施例提供一种存储介质,存储介质存储有计算机程序,计算机程序被处理器执行时,实现如自适应测评方法中各个步骤。

本实施例的具体实现方案可以参见上述自适应测评方法实施例中的相关说明,此处不再赘述。

可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1