组卷方法、装置、电子设备和存储介质与流程

文档序号：29446855发布日期：2022-03-30 11:10阅读：121来源：国知局

1.本发明涉及计算机技术领域，尤其涉及一种组卷方法、装置、电子设备和存储介质。

背景技术：

2.利用考试检测学生的学习效果，并对学生的学习过程进行反馈非常重要。目前在考试组卷时，命题老师通常会根据当前的考试要求，从复习资料、习题集、历年试卷等资源中寻找相关试题，然后根据个人经验筛选符合考试要求的试题，组装为一张试卷。
3.考虑到人工组卷需要人工寻找试题，费时费力，自动组卷技术应运而生。目前的自动组卷，需要在用户输入的组卷参数限制下，从试题库中抽取试题进行组卷，例如可以通过随机抽取策略或者回溯试探法实现组卷。上述自动组卷技术将组卷定义为约束组合下的优化问题，但是由于该组合优化是一个非确定性多项式(non-deterministic polynomial，np)问题，优化时间效率低，难以从海量的试题库中搜索最优解；并且基于上述技术生成的试卷多是普适性的考核题目，无法满足针对性考核学生的需求，因此不能很好地反映学生的知识掌握情况和教学质量。

技术实现要素：

4.本发明提供一种组卷方法、装置、电子设备和存储介质，用以解决现有技术中自动组卷难以寻求最优解且无法满足针对性考核学生需求的问题。
5.本发明提供一种组卷方法，包括：
6.确定候选试题，以及与待考核对象属于相同对象类型的目标对象；
7.基于所述目标对象对应所述候选试题的应用信息，以及所述候选试题的试题信息，对所述候选试题进行推荐排序，得到所述候选试题的推荐权重；
8.以试卷中包含试题的推荐权重之和最高为目标，基于所述候选试题的推荐权重进行组卷，得到所述试卷。
9.根据本发明提供的一种组卷方法，所述以试卷中包含试题的推荐权重之和最高为目标，基于所述候选试题的推荐权重进行组卷，得到所述试卷，包括：
10.以所述试卷中各试题类别的试题数量最大值为约束条件，以所述试卷中包含试题的推荐权重之和最高为目标，基于所述候选试题的试题类别和推荐权重进行组卷，得到所述试卷。
11.根据本发明提供的一种组卷方法，所述候选试题的试题类别是基于如下步骤确定的：
12.基于各试题之间的相似题关系，确定各试题的试题表示；
13.基于各试题的试题表示，对各试题进行聚类，得到多个试题类别，以及每个试题类别所包含的试题。
14.根据本发明提供的一种组卷方法，所述基于各试题之间的相似题关系，确定各试
题的试题表示，包括：
15.以各试题为节点，各试题之间的相似题关系为边，构建试题交互图；
16.对所述试题交互图中的各个节点进行特征提取，得到各个节点对应试题的试题表示。
17.根据本发明提供的一种组卷方法，所述对所述试题交互图中的各个节点进行特征提取，得到各个节点对应试题的试题表示，包括：
18.各节点的节点交互图输入至节点特征提取模型，得到所述节点特征提取模型输出的各节点对应试题的试题表示；
19.所述节点交互图是围绕对应节点展开的试题交互图的表现形式，所述节点特征提取模型基于正样本对和负样本对训练得到，所述正样本对包括两个存在相似题关系的试题，所述负样本对包括两个不存在相似题关系的试题。
20.根据本发明提供的一种组卷方法，所述以所述试卷中各试题类别的试题数量最大值为约束条件，以所述试卷中包含试题的推荐权重之和最高为目标，基于所述候选试题的试题类别和推荐权重进行组卷，得到所述试卷，包括：
21.以所述试卷中各试题类别的试题数量最大值为约束条件，以所述试卷中包含试题的推荐权重之和最高为目标，基于所述候选试题的试题类别和推荐权重，在预设试卷结构上进行组卷，得到所述试卷；
22.所述预设试卷结构是基于所述待考核对象或所述目标对象的历史试卷结构确定的。
23.根据本发明提供的一种组卷方法，所述目标对象对应所述候选试题的应用信息基于如下步骤确定：
24.在使用信息库中查询所述目标对象对应所述候选试题的应用信息，若不存在，则基于所述目标对象对应所述候选试题所属试题类别下各试题的应用信息，确定所述目标对象对应所述候选试题的应用信息。
25.根据本发明提供的一种组卷方法，所述应用信息包括采用次数和/或浏览但未采用次数。
26.根据本发明提供的一种组卷方法，所述确定候选试题，包括：
27.基于各试题的知识点，以及考核范围内包含的知识点，选取在所述考核范围内的试题作为候选试题。
28.本发明还提供一种组卷装置，包括：
29.处理单元，用于确定候选试题，以及与待考核对象属于相同对象类型的目标对象；
30.排序单元，用于基于所述目标对象对应所述候选试题的应用信息，以及所述候选试题的试题信息，对所述候选试题进行推荐排序，得到所述候选试题的推荐权重；
31.组卷单元，用于以试卷中包含试题的推荐权重之和最高为目标，基于所述候选试题的推荐权重进行组卷，得到所述试卷。
32.本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述组卷方法的步骤。
33.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计
算机程序被处理器执行时实现如上述任一种所述组卷方法的步骤。
34.本发明提供的组卷方法、装置、电子设备和存储介质，基于与待考核对象属于相同对象类型的目标对象对应候选试题的应用信息，获取候选试题的推荐权重，使得针对候选试题的推荐和组卷，能够应用到同类用户的应用信息，从而能够最大程度挖掘待考核对象的组卷偏好；以试卷中包含试题的推荐权重之和最高为目标，基于候选试题的推荐权重进行组卷，能够提高搜索最优试题组合的效率，缩短组卷时间，提高组卷所得的试卷质量，保证试卷对于待考核对象的针对性。
附图说明
35.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图简要地说明，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
36.图1是本发明提供的组卷方法的流程示意图；
37.图2是本发明提供的试题类别确定方法的流程示意图；
38.图3是本发明提供的试题类别确定方法中步骤210的流程示意图；
39.图4是本发明提供的试题交互图；
40.图5是本发明提供的节点交互图；
41.图6是本发明提供的组卷方法的流程示意图；
42.图7是本发明提供的组卷装置的结构示意图；
43.图8是本发明提供的电子设备的结构示意图。
具体实施方式
44.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
45.在考试组卷时，命题老师通常会根据当前的考试要求，从复习资料、习题集、历年试卷等资源中寻找相关试题，然后根据个人经验筛选符合考试要求的试题，组装为一张试卷。上述人工组卷的过程主要存在三个缺点：一是，通过人工寻找试题费时费力，而且受人力限制，很难充分利用海量的试题库资源；二是，组装试卷质量严重依赖于教师的个人直觉和经验，一份高质量的试卷，一般需要由一些水平较高的教育专家经过较长时间研究才能完成。三是，该过程难以实现教考分离，因此不能很好的反映学生的知识掌握情况和教学质量。
46.自动组卷则是根据用户输入的组卷参数，自动生成试卷。自动组卷的过程中要兼顾局部约束条件(即试题粒度的目标)和全局约束条件(即试卷粒度的目标)，才能组成用户满意的试卷。其中，试题难度、分数、知识点等可用于构建局部约束条件，试卷总题数、总分数、总难度、不同试题数量比例、不同试题知识点层次、不同试题知识点重复问题等可用于构建全局约束条件。相关技术中常见的组卷算法多为下述两类：
47.1)基于随机抽取策略的组卷算法：一种利用随机函数或变量随机从试题库中抽取试题的方法；
48.2)基于回溯试探法的组卷算法：应用回溯试探法对试题库的某道试题进行抽取前，先对其是否满足约束条件进行判断，如果满足，再从试题库中抽取该试题。
49.上述自动组卷技术将组卷定义为约束组合下的优化问题，但是由于该组合优化是一个非确定性多项式问题，优化时间效率低，难以从海量的试题库中搜索最优解；并且基于上述技术生成的试卷多是普适性的考核题目，无法满足针对性考核学生的需求，因此不能很好地反映学生的知识掌握情况和教学质量。
50.针对上述问题，本发明实施例提供了一种组卷方法，图1是本发明提供的组卷方法的流程示意图，如图1所示，该方法包括：
51.步骤110，确定候选试题，以及与待考核对象属于相同对象类型的目标对象。
52.具体地，候选试题即可用于组卷的试题，候选试题可以涵盖试题库中的所有试题，也可以是根据用户输入的考核范围从试题库中筛选出的考核范围内的试题，本发明实施例对此不作具体限定。
53.待考核对象即需要通过组卷所得的试卷进行考核的对象，待考核对象可以是以学校为单位，也可以是以教育片区为单位，本发明实施例对此不作具体限定。可以预先对于各个对象进行分类，从而得到各个对象的对象类型，例如在以学校为单位确定对象的情况下，可以以各个学校所在的区域、所应用的教材类型、预先评估的教学水平等因素对各个学校进行分类，由此得到的同一个学校类型下的各个学校的学情相似，在试题选择和应用上的偏好也相似。
54.此处，与待考核对象属于相同对象类型的目标对象，应在学情上与待考核对象相似，具体在组卷时的试题选择应用上，也与待考核对象相似，因此目标对象针对候选试题的应用信息，对于针对待考核对象的组卷而言，具备参考价值。
55.步骤120，基于所述目标对象对应所述候选试题的应用信息，以及所述候选试题的试题信息，对所述候选试题进行推荐排序，得到所述候选试题的推荐权重。
56.具体地，目标对象对应候选试题的应用信息，用于表征目标对象对应候选试题在组卷方面的应用情况，或者用于表征目标对象对应候选试题的试题属性组合在组卷方面的应用情况，例如可以包含目标对象应用候选试题组卷的次数，目标对象浏览候选试题的次数，目标对象浏览候选试题但未应用候选试题进行组卷的次数等。目标对象对应候选试题的应用信息，可以反映目标对象在组卷方面的偏好，即目标对象是否偏好应用该候选试题进行组卷，或者目标对象对于应用该候选试题进行组卷的偏好度或者推荐度。
57.候选试题的试题信息反映的是候选试题本身的信息，具体可以包含候选试题的考核内容，例如候选试题的题干、答案、解析等的语义，也可以包含候选试题的各项属性，例如候选试题的题型、难度、主知识点、次知识点、考法、情境、新颖性、试题类别等属性中的一种或者多种。其中，考法是指对应试题的解析思路的考核方式，情境是指对应试题的题干中描述的情境的类型，新颖性用于表示对应试题是否新颖，或者表示对应试题的新颖程度。
58.为了便于获取用于组卷的试题最优组合，可以针对当前所有的候选试题进行推荐排序，从而获取每个候选试题的推荐权重，此处的推荐权重用于指示对应候选试题在所有候选试题中的推荐度，推荐权重越高，则该候选试题作为用于组卷的试题最优组合中的一
员的概率越高，该候选试题出现在最终形成的试卷中的概率越高。
59.针对当前所有的候选试题进行推荐排序，需要依据目标对象对应各候选试题的应用信息，以及各候选试题的试题信息执行。进一步地，若目标对象对应一个候选试题的应用信息所反映出来目标对象对该候选试题在组卷方面的偏好越强，并且该候选试题的试题信息与待考核的试题信息越吻合，则该候选试题的推荐排序越靠前，该候选试题的推荐权重越高；若目标对象对应一个候选试题的应用信息所反映出来目标对象对该候选试题在组卷方面的偏好越弱，并且该候选试题的试题信息与待考核的试题信息之间的吻合度越低，则该候选试题的推荐排序越靠后，该候选试题的推荐权重越低。
60.此处，基于目标对象对应候选试题的应用信息，以及候选试题的试题信息，对候选试题进行推荐排序，可以通过thompson(汤普森)采样、ucb(upper confidence bound)算法、epsilon贪婪算法等推荐算法中的任意一种或者多种实现。
61.另外，需要说明的是，目标对象对应所述候选试题的应用信息可以随着试题库中各试题被用户浏览或者组卷的情况实时更新变化，因而各个候选试题的推荐权重同样可以是实时更新变化的，由此可以进一步提高用户体验。
62.步骤130，以试卷中包含试题的推荐权重之和最高为目标，基于所述候选试题的推荐权重进行组卷，得到所述试卷。
63.具体地，在得到各候选试题的推荐权重之后，即可以各候选试题的推荐权重为依据，从各候选试题中筛选用于组卷的试题，从而实现组卷，以获取包含多个试题的试卷。
64.在此过程中，为了获取用于组卷的试题最优组合，在从各候选试题中筛选用于组卷的试题时，除了遵循用户预先设置的各种约束条件，还需要以试卷中包含试题的推荐权重之和最高为目标进行筛选。换而言之，试题筛选时存在最优组合的组合目标，即试卷中包含试题的推荐权重之和最高，试卷中包含的试题的推荐权重越高，则说明试卷整体对于待考核对象的针对性越强，并且与期望考核的内容越吻合，试卷整体越符合用户组卷的需求。
65.本发明实施例提供的方法，基于与待考核对象属于相同对象类型的目标对象对应候选试题的应用信息，获取候选试题的推荐权重，使得针对候选试题的推荐和组卷，能够应用到同类用户的应用信息，从而能够最大程度挖掘待考核对象的组卷偏好；以试卷中包含试题的推荐权重之和最高为目标，基于候选试题的推荐权重进行组卷，能够提高搜索最优试题组合的效率，缩短组卷时间，提高组卷所得的试卷质量，保证试卷对于待考核对象的针对性。
66.在自动组卷的过程中，可能引入同质化的试题，影响组卷得到的试卷质量。针对这一问题，基于上述实施例，步骤130包括：
67.以所述试卷中各试题类别的试题数量最大值为约束条件，以所述试卷中包含试题的推荐权重之和最高为目标，基于所述候选试题的试题类别和推荐权重进行组卷，得到所述试卷。
68.具体地，为了解决试卷中试题的同质化问题，可以预先对各试题进行试题分类，从而得到各试题的试题类别，此处的试题类别用于实现同质化试题的划分，即属于同一试题类别的试题即为同质化试题。
69.在确定各候选试题的试题类别之后，即可在组卷过程中，以试卷中各试题类别的试题数量最大值为约束条件，限制选入用于组卷的试题最优组合中同一试题类别下的试题
的数量，从而避免试卷中试题的同质化问题。例如可以将约束条件各试题类别的试题数量的最大值设置为1，在此约束条件下进行组卷得到的试卷中，各试题类别的试题数量均不会超过1，也就是说试卷中的各个试题均不存在同质化的试题。
70.需要说明的是，此处约束条件中各试题类别的试题数量最大值可以设置为1，也可以设置为2或3等，具体可以根据试卷整体需要的题量、用户对于同质化试题的接收程度等因素进行调整，本发明实施例对不作具体限定。
71.本发明实施例提供的方法，通过将试卷中各试题类别的试题数量最大值为约束条件，解决了组卷同质化的问题，进一步保证了组卷质量。
72.基于上述任一实施例，图2是本发明提供的试题类别确定方法的流程示意图，如图2所示，所述候选试题的试题类别是基于如下步骤确定的：
73.步骤210，基于各试题之间的相似题关系，确定各试题的试题表示；
74.步骤220，基于各试题的试题表示，对各试题进行聚类，得到多个试题类别，以及每个试题类别所包含的试题。
75.具体地，相似题关系用于表征对应的两个试题互为相似题，相似题关系可以是预先人工标注得到的。针对任意两个试题，如果这两个试题之间存在相似题关系，则可以认为这两个试题互为相似题，如果这两个相似题之间不存在相似题关系，则可以认为这两个试题相互独立并无关联。
76.考虑到互为相似题的两个试题必然是在题型、难度、主知识点、次知识点、考法、情境、新颖性、试题类别等属性中的一个或者多个上存在相同或者相似之处，其中一个试题可以视为另一个试题的另外一种表现形式，因此在对各试题进行试题表示的抽取时，可以不仅考虑试题本身的信息，还考虑与之相似的试题的信息，以此提高试题表示的可靠性和准确性。且由于相似的试题在试题表示抽取的过程中相互借鉴，相似试题的试题表示也会更加接近。
77.在得到各个试题的试题表示之后，即可基于各个试题的试题表示，对各个试题进行聚类，在聚类过程中，将试题表示相近的试题划分为同一试题类别，将试题表示相差较大的试题划分为不同试题类别，由此实现基于试题表示的无监督聚类，得到多个试题类别，以及每个试题类别下包含的试题。需要说明的是，此处进行试题聚类的方式可以是层次聚类(hierarchical clustering)算法，也可以是k-means聚类算法、dbscan(density-based spatial clustering of applications with noise)聚类算法等，本发明实施例对此不作具体限定。
78.例如，在应用层次聚类算法进行试题聚类时，对于新的试题，需要计算新的试题的试题表示与已有的各个试题类别的中心之间的距离，如果所有距离均超过阈值，则需要新增一个试题类别，如果存在小于阈值的距离，则将新的试题划到该距离对应的试题类别中。
79.基于上述任一实施例，图3是本发明提供的试题类别确定方法中步骤210的流程示意图，如图3所示，步骤210包括：
80.步骤211，以各试题为节点，各试题之间的相似题关系为边，构建试题交互图；
81.步骤212，对所述试题交互图中的各个节点进行特征提取，得到各个节点对应试题的试题表示。
82.具体地，考虑到人工标注相似题关系时，通常关注到的数据偏向局部，即多关注的
是两个试题之间是否相似。而基于各试题之间的相似题关系构建的试题交互图，则可以从全局的角度观看各个试题之间的相似题关系。例如，图4是本发明提供的试题交互图，图4中的每个圆圈表示一个节点，即一个试题，例如i1-i7分别表示试题1至试题7，其中，试题1、2，1、3，2、3，2、7，3、4，3、5，4、5之间存在相似题关系，相应地图4中，节点i1、i2，i1、i3，i2、i3，i2、i7，i3、i4，i3、i5，i4、i5之间存在相连接的边。
83.在得到试题交互图之后，可以通过图卷积(graph convolutional network，gcn)、谱聚类(spectral clustering)等方式，对试题交互图进行特征提取，从而获取试题交互图中每个节点的特征，即每个节点对应试题的试题表示。在试题交互图的基础上得到的各个试题的试题表示，不仅可以涵盖试题本身的信息，还可以涵盖与试题存在直接或者间接的相似题关系的试题的信息，由此使得相似试题的试题表示也会更加接近，有助于提高后续进行试题分类的可靠性。
84.基于上述任一实施例，步骤212包括：
85.各节点的节点交互图输入至节点特征提取模型，得到所述节点特征提取模型输出的各节点对应试题的试题表示；
86.所述节点交互图是围绕对应节点展开的试题交互图的表现形式，所述节点特征提取模型基于正样本对和负样本对训练得到，所述正样本对包括两个存在相似题关系的试题，所述负样本对包括两个不存在相似题关系的试题。
87.具体地，各试题的试题表示的提取，可以通过节点特征提取模型实现，此处的节点特征提取模型可以基于输入的任一节点的节点交互图，聚合该节点在节点交互图中的邻居信息，从而得到该节点所对应试题的试题表示。
88.此处，节点交互图是针对于单个节点而言的，节点交互图与试题交互图在试题间的相似题关系这一内容可以理解为两种不同的表现形式，具体地，节点交互图是以一个节点为中心，展开形式的试题交互图。例如，图5是本发明提供的节点交互图，图5具体是试题2对应的节点i2的节点交互图，图5中试题交互图围绕i2展开，进而通过节点特征提取模型获取节点i2的高阶交互信息，作为节点i2对应试题2的试题表示。
89.在执行步骤212之前，还可以预先对节点特征提取模型进行训练，具体可以通过如下方法进行模型训练：
90.首先，采集大量正样本对和负样本对；其中，正样本对中涵盖了两个存在相似题关系的试题，负样本对中涵盖了两个不存在相似题关系的试题。随即，可以将正样本对中的两个试题的节点交互图输入到初始模型中进行训练，初始模型在训练过程中，可以放大并学习正样本对的两个试题的节点交互图之间的共性特征；此外，将负样本对的两个试题的节点交互图输入到初始模型中进行训练，初始模型在训练过程中，可以放大并学习负样本对的两个试题的节点交互图之间的差异性特征。由此训练得到的节点特征提取模型能够更好地表征存在相似题关系的试题在试题特征上的共性特征，以及不存在相似题关系的试题在试题特征上的差异性特征。
91.具体在训练操作中，针对初始模型输出的正样本对中的两个试题的试题表示，可以通过迭代初始模型参数使得正样本对中的两个试题的试题表示之间的差异尽可能小，针对初始模型输出的负样本对中的两个试题的试题表示，可以通过迭代初始模型参数使得负样本对中的两个试题的试题表示之间的差异尽可能大，由此达到放大存在相似题关系的试
题在试题特征上的共性特征，以及不存在相似题关系的试题在试题特征上的差异性特征的效果。
92.进一步地，用于训练的正样本对，可以是基于试题间的相似题关系确定的，用于训练的负样本对，可以是对试题进行随机采样得到的。
93.本发明实施例提供的方法，基于正样本对和负样本对训练得到的节点特征提取模型，能够保证试题表示提取的可靠性。
94.基于上述任一实施例，参考图5示出的节点交互图，基于节点特征提取模型进行试题表示提取的过程，可以包括如下步骤：
95.针对layer＝0，即图5中两个虚线圈中内圈的节点i2，其初始节点向量可以基于i2对应试题2的试题信息编码得到；针对layer＝k，此处的k为大于等于1的整数，可以将节点在上层的邻居节点的节点向量与节点在上层的节点向量进行聚合，得到节点在当前层的节点向量。以layer＝1为例，layer＝1中对应的节点即图5中两个虚线圈中内圈的节点i1、i3和i7，节点i1在上层的邻居节点即i2，节点i1在layer＝1时的节点向量可以基于节点i2在layer＝0时的节点向量即初始节点向量以及节点i1在layer＝0时的节点向量确定。
96.进一步地，针对layer＝k，可以将上层所有邻居节点的节点向量与节点本身在上一层的节点向量相加，并通过正则化和激活函数，确定节点在layer＝k的节点向量，具体可以表示为如下公式：
[0097][0098]
式中，为第i个节点在layer＝k的节点向量，σ(
·
)表示激活函数，为第i个节点在layer＝k－1的节点向量，为第j个节点在layer＝k－1的节点向量，n(i)即第i个节点的邻居节点集合，j∈n(i)表示第j个节点属于第i个节点的邻居节点集合，|n(i)|表示邻居节点集合中的节点数量，和为预先训练好的layer＝k的权重参数。
[0099]
基于上述任一实施例，步骤130包括：
[0100]
以所述试卷中各试题类别的试题数量最大值为约束条件，以所述试卷中包含试题的推荐权重之和最高为目标，基于所述候选试题的试题类别和推荐权重，在预设试卷结构上进行组卷，得到所述试卷；
[0101]
所述预设试卷结构是基于所述待考核对象或所述目标对象的历史试卷结构确定的。
[0102]
具体地，通常，构建完整的试卷需要满足一定的结构，比如总题数、难度比例、不同题型比例等；如果这些参数均由用户输入，则必然会增加用户的使用成本。针对这一问题，本发明实施例提出根据待考核对象或者目标对象的历史试卷结构，确定应用于此次组卷的预设试卷结构。
[0103]
例如，可以首先判断是否存在待考核对象的历史试卷结构，如果存在，可以提供待
考核对象的历史试卷结构供用户选择，或者直接从中选出使用次数最高或者最近使用的历史试卷结构推荐给用户进行组卷。如果不存在待考核对象的历史试卷结构，即待考核对象本身可能是新用户，则可以提供与待考核对象属于相同对象类别的目标对象的历史试卷结构，以便于用户确定预设试卷结构。
[0104]
基于上述任一实施例，结合各候选试题的试题类别、推荐权重，以及预设试卷结构的组卷算法，可以优化为下述最大化问题：
[0105][0106]
式中，r
m,n
是m*n大小的二值矩阵，m即候选试题数量，n则为本次组卷的目标试题数量，w
ij
为候选试题i放在j位置上的权值，w
i1
则为候选试题i的推荐权值，且l
kl
和u
kl
分别表示属性l在k位置上的下限数量和上限数量；以下表为例，7个候选试题，难度依次为易、易、难、易、易、难、难，预设试卷结构中指示的总题量为6题，易题下限数量为3题，难题下限数量为3题，前4题易题下限2题，难题下限2题；如果没有难度的条件限制，对角线的权值之和为最优的结果，如果有难度l、u限制，4-6位置的试题则对应排序层第6、4、7题：
[0107] 123456易0.970.940.900.780.740.71易0.930.900.820.740.710.68难0.890.860.820.710.580.65易0.810.790.750.650.620.59易0.730.710.680.580.560.53难0.720.690.660.570.550.52难0.640.610.590.510.480.46
[0108]
需要说明的是，上表仅为难度限制下的一个示例，实际操作中国还可以存在多个属性的限制条件，此处不再赘述。而在上述组卷过程中，靠后位置选择的试题和之前选择的试题不能属于同一个试题类别，以此避免同质化问题。
[0109]
基于上述任一实施例，所述目标对象对应所述候选试题的应用信息基于如下步骤确定：
[0110]
在使用信息库中查询所述目标对象对应所述候选试题的应用信息，若不存在，则基于所述目标对象对应所述候选试题所属试题类别下各试题的应用信息，确定所述目标对象对应所述候选试题的应用信息。
[0111]
具体地，使用信息库可用于存储各个对象对应各个试题的应用信息，在确定好目标对象和候选试题之后，可以从使用信息库中查询目标对象对应候选试题的应用信息，并基于查询结果确定目标对象对应候选试题的应用信息：
[0112]
如果使用信息库中存储有目标对象对应候选试题的应用信息，即可以直接查询得到该信息，则可以直接获取到该信息；
[0113]
如果使用信息库中并未存储有目标对象对应候选试题的应用信息，即无法查询得到该信息，此时可以基于预先为各个试题构建的试题类别，确定候选试题的试题类别，从而定位到与候选试题属于同一试题类别的其他试题，并且在使用信息库中查询目标对象对应
与候选试题属于同一试题类别的其他试题的应用信息，在得到其他试题的应用信息之后，即可由此估计目标对象对应候选试题的应用信息。此处，在针对目标对象对应候选试题的应用信息进行估计时，可以对同试题类别下的各个试题的应用信息求均值，或者求中位数等方式获取目标对象对应候选试题的应用信息。
[0114]
基于上述任一实施例，应用信息包括采用次数和/或浏览但未采用次数。
[0115]
其中，针对任一候选试题，采用次数具体指目标对象采用该候选试题组卷的次数，采用次数可以直接反映目标对象在组卷方面对于该候选试题的正向偏好，采用次数越高，则目标对象在组卷方面对于该候选试题的偏好越强，采用次数越低，则目标对象在组卷方面对于该候选试题的偏好越弱。
[0116]
浏览但未采用次数具体是指目标对象在组卷过程中浏览到该候选试题但是未采用该候选试题组卷的次数，浏览但未采用次数同样可以反映目标对象在组卷方面对于该候选试题的偏好，浏览但未采用次数越高，则目标对象在组卷方面对于该候选试题的偏好越弱，浏览但未采用次数越低，则目标对象在组卷方面对于该候选试题的偏好越强。
[0117]
需要说明的是，目标对象对应所述候选试题的应用信息可以随着试题库中各试题被用户浏览或者组卷的情况实时更新变化，例如目标对象下的任一用户浏览了任一候选试题，如果该用户应用该候选试题进行组卷，则该候选试题的采用次数+1，否则浏览但未采用次数+1。
[0118]
基于上述任一实施例，步骤110中，确定候选试题，包括：
[0119]
基于各试题的知识点，以及考核范围内包含的知识点，选取在所述考核范围内的试题作为候选试题。
[0120]
具体地，考核范围通常会随着教学的推进不断增加，超出考核范围的试题对于待考核对象而言并无意义，且会直接影响用户体验。因此在进行组卷时，用户通常会直接限定考核范围，此处的考核范围可以是具体需要进行考核的知识点，也可以是具体需要进行考核的教学章节，并且由于教学章节和知识点之间常存在对应关系，上述两种表现形式下的，可以统一为以知识点进行范围限制的形式。
[0121]
在确定好考核范围之后，即可确定考核范围所涵盖的知识点，进而从试题库中，筛选出知识点在考核范围内的试题作为候选试题，以供进一步的组卷筛选。由此得到的候选试题，均在考核范围内，据此进行组卷，即可避免组卷形成的试卷存在超纲试题的情况，从而达到优化用户体验的目的。
[0122]
基于上述任一实施例，图6是本发明提供的组卷方法的流程示意图，如图6所示，组卷方法可以通过如下四个步骤实现：
[0123]
610，预处理：
[0124]
预处理阶段，用于对试题库中各个试题的相关属性进行梳理汇总，以及各个用户的用户信息进行整理。
[0125]
此处，试题的相关属性可以理解为试题画像的形式，相关属性可以涵盖试题的题型、难度、主知识点、次知识点等人工标注的属性，也可以涵盖试题的考法、情境、新颖性、试题类别等需要通过自然语言处理(natural language processing，nlp)获取的属性。
[0126]
例如，针对试题库中预先存储的各个试题的试题信息，即各个试题的语料，可以将语料通过文本处理模块统一处理成文本格式，再将处理得到的试题文本作为样本输入到预
训练bert语言模型，结合上述作为样本的试题文本所对应的考法、情境、新颖性标注数据，在bert模型的基础上训练考法、情境、新颖性预测模型，从而可以通过考法、情境、新颖性预测模型实现试题库中大量试题的考法、情境、新颖性的属性标注。例如，在试题语料存储为html格式的情况下，可以通过文本处理模块进行html解析、公式解析、文本分词，从而得到文本格式的试题。
[0127]
又例如，针对各试题的试题类别，可以以各试题为节点，各试题之间的相似题关系为边，构建试题交互图，并对试题交互图中的各个节点进行特征提取，得到各个节点对应试题的试题表示，在此基础上基于各试题的试题表示，对各试题进行聚类，得到多个试题类别，以及每个试题类别所包含的试题。
[0128]
各个用户的用户信息，可以包含收集得到的用户学校、所在地区、学校类别等属性。
[0129]
620，召回：
[0130]
可以确定考核范围所涵盖的知识点，进而从试题库中，筛选出知识点在考核范围内的试题作为候选试题，以供进一步的组卷筛选，从而避免知识点超纲的问题。
[0131]
630，排序：
[0132]
考虑到每个学校在每个知识上掌握的程度，以及考试的侧重点都会有所不同，所以需要将召回检索出来的候选试题根据对象进行不同的排序：
[0133]
本发明实施例中，待考核对象即任一学校，具体可以根据各个学校划分的学校类型，选择与待考核的学校属于同一学校类型的学校作为目标对象，通过统计目标对象下各个用户的应用信息，得到目标对象对应各个候选试题的应用信息，具体表现为目标对象对应各个候选试题的试题属性组合的采用次数a和浏览但未采用次数b，具体可以表示为下表示出的形式：
[0134]
题型m难度n主知识点k
……
考法labm1n1k1
……
l1a1b1
……………………………………
miniki
……
liaibi
[0135]
在得到目标对象对应各个候选试题的a值和b值之后，可以应用如下公式形成各个候选试题的推荐权重：
[0136][0137]
式中，beta(x；a,b)即候选试题的推荐权重，x即候选试题的试题信息，γ表示gamma函数；beta分布均值为方差为如果试题属性组合出现次数很多，即a+b很大，则其采样值会很稳定，接近于均值；如果试题属性组合不但a+b很大，a也很大，则这个组合在考试中经常出现，恰与教育领域中重难点契合；反之a很小，则属于非常基础点，不会经常在考试中出现；如果a+b很小，则产生随机数有可能得到一个较大的随机数，或者较小的随机数；由此使得与教育领域中重难点契合的试题有可能在排序时被优先输出。
[0138]
640，后处理：
[0139]
以试卷中各试题类别的试题数量最大值为约束条件，以试卷中包含试题的推荐权重之和最高为目标，基于选试题的试题类别和推荐权重，在预设试卷结构上进行组卷，得到完整的试卷。
[0140]
基于上述任一实施例，图7是本发明提供的组卷装置的结构示意图，如图7所示，该装置包括：
[0141]
处理单元710，用于确定候选试题，以及与待考核对象属于相同对象类型的目标对象；
[0142]
排序单元720，用于基于所述目标对象对应所述候选试题的应用信息，以及所述候选试题的试题信息，对所述候选试题进行推荐排序，得到所述候选试题的推荐权重；
[0143]
组卷单元730，用于以试卷中包含试题的推荐权重之和最高为目标，基于所述候选试题的推荐权重进行组卷，得到所述试卷。
[0144]
本发明实施例提供的装置，基于与待考核对象属于相同对象类型的目标对象对应候选试题的应用信息，获取候选试题的推荐权重，使得针对候选试题的推荐和组卷，能够应用到同类用户的应用信息，从而能够最大程度挖掘待考核对象的组卷偏好；以试卷中包含试题的推荐权重之和最高为目标，基于候选试题的推荐权重进行组卷，能够提高搜索最优试题组合的效率，缩短组卷时间，提高组卷所得的试卷质量，保证试卷对于待考核对象的针对性。
[0145]
基于上述任一实施例，所述组卷单元730用于：
[0146]
以所述试卷中各试题类别的试题数量最大值为约束条件，以所述试卷中包含试题的推荐权重之和最高为目标，基于所述候选试题的试题类别和推荐权重进行组卷，得到所述试卷。
[0147]
基于上述任一实施例，该装置还包括试题类别确定单元，用于：
[0148]
基于各试题之间的相似题关系，确定各试题的试题表示；
[0149]
基于各试题的试题表示，对各试题进行聚类，得到多个试题类别，以及每个试题类别所包含的试题。
[0150]
基于上述任一实施例，试题类别确定单元用于：
[0151]
以各试题为节点，各试题之间的相似题关系为边，构建试题交互图；
[0152]
对所述试题交互图中的各个节点进行特征提取，得到各个节点对应试题的试题表示。
[0153]
基于上述任一实施例，试题类别确定单元用于：
[0154]
各节点的节点交互图输入至节点特征提取模型，得到所述节点特征提取模型输出的各节点对应试题的试题表示；
[0155]
所述节点交互图是围绕对应节点展开的试题交互图的表现形式，所述节点特征提取模型基于正样本对和负样本对训练得到，所述正样本对包括两个存在相似题关系的试题，所述负样本对包括两个不存在相似题关系的试题。
[0156]
基于上述任一实施例，所述组卷单元730用于：
[0157]
以所述试卷中各试题类别的试题数量最大值为约束条件，以所述试卷中包含试题的推荐权重之和最高为目标，基于所述候选试题的试题类别和推荐权重，在预设试卷结构上进行组卷，得到所述试卷；
[0158]
所述预设试卷结构是基于所述待考核对象或所述目标对象的历史试卷结构确定的。
[0159]
基于上述任一实施例，所述处理单元用于：
[0160]
在使用信息库中查询所述目标对象对应所述候选试题的应用信息，若不存在，则基于所述目标对象对应所述候选试题所属试题类别下各试题的应用信息，确定所述目标对象对应所述候选试题的应用信息。
[0161]
基于上述任一实施例，所述应用信息包括采用次数和/或浏览但未采用次数。
[0162]
基于上述任一实施例，所述处理单元用于：
[0163]
基于各试题的知识点，以及考核范围内包含的知识点，选取在所述考核范围内的试题作为候选试题。
[0164]
图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(communications interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行组卷方法，该方法包括：
[0165]
确定候选试题，以及与待考核对象属于相同对象类型的目标对象；
[0166]
基于所述目标对象对应所述候选试题的应用信息，以及所述候选试题的试题信息，对所述候选试题进行推荐排序，得到所述候选试题的推荐权重；
[0167]
以试卷中包含试题的推荐权重之和最高为目标，基于所述候选试题的推荐权重进行组卷，得到所述试卷。
[0168]
此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0169]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的组卷方法，该方法包括：
[0170]
确定候选试题，以及与待考核对象属于相同对象类型的目标对象；
[0171]
基于所述目标对象对应所述候选试题的应用信息，以及所述候选试题的试题信息，对所述候选试题进行推荐排序，得到所述候选试题的推荐权重；
[0172]
以试卷中包含试题的推荐权重之和最高为目标，基于所述候选试题的推荐权重进行组卷，得到所述试卷。
[0173]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的组卷方法，该方法包括：
[0174]
确定候选试题，以及与待考核对象属于相同对象类型的目标对象；
[0175]
基于所述目标对象对应所述候选试题的应用信息，以及所述候选试题的试题信
息，对所述候选试题进行推荐排序，得到所述候选试题的推荐权重；
[0176]
以试卷中包含试题的推荐权重之和最高为目标，基于所述候选试题的推荐权重进行组卷，得到所述试卷。
[0177]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0178]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0179]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：凌超沙晶王士进魏思
技术所有人：科大讯飞股份有限公司
我是此专利的发明人

上一篇：一种汽车空调用轴承密封圈的制作方法
上一篇：一种小麦生长期养分信息检测方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。