一种基于课程知识网络和强化学习的试题生成方法与流程

文档序号：36827863发布日期：2024-01-26 16:40阅读：18来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及教学试题生成的，尤其是涉及一种基于课程知识网络和强化学习的试题生成方法。

背景技术：

1、在传统的教学中，老师通常会根据教材编写试题，学生根据试题来巩固所学知识。但是，这种方式存在一些问题。首先，试题的数量和难度往往不能满足不同学生的需求。其次，对于学生来说，重复做同一类试题不能很好地巩固知识点。

2、但是，在对试题进行调整时，由于不同的学生有不同的个性化需求，不同的学生的不同知识点的不同题型的正确率可能会有不同，现有技术难以应对不同的需求，不能分析出每个学生个性化的薄弱知识点。

技术实现思路

1、本发明的目的就是为了克服上述问题而提供的一种基于课程知识网络和强化学习的试题生成方法。

2、本发明的目的可以通过以下技术方案来实现：

3、一种基于课程知识网络和强化学习的试题生成方法，方法包括：

4、s1、从课程知识中抽取实体和实体之间的关系，构成三元组，基于三元组构建知识图谱，得到课程知识网络；

5、s2、基于学生答题的情况训练基于强化学习的薄弱知识点分析模型，获取实际的学生答题的情况，将实际的学生答题的情况输入薄弱知识点分析模型，输出最优策略，得到薄弱知识点和对应的出题类型；

6、s3、将课程知识网络中薄弱知识点及其图谱信息输入训练完成的试题分析模型，从试题分析模型中输出的题目中筛选出满足s2的出题类型的题目，得到实际试题。

7、进一步地，薄弱知识点分析模型的训练过程为：

8、基于强化学习构建薄弱知识点分析模型，首先定义两个神经网络模型，分别为策略网络和价值网络，定义环境为学生回答的问题和对应的答题的情况，定义状态为学生当前的概念和课程知识网络中相关知识点之间的关系，动作为学生需要回答的问题的知识点和对应的出题类型，定义奖励函数为学生答题的情况中的出错情况；

9、获取当前状态x，将当前状态输入策略网络，策略网络输出动作的概率分布π(a|x)，根据概率分布选择出当前动作a；

10、环境接收当前动作a后给出当前奖励r和下一个状态x'；

11、根据当前奖励r、下一个状态x'和是否完成标志d，计算td目标；

12、根据td目标计算td误差；

13、根据td目标和td误差，采用gae算法来计算当前优势函数a；

14、根据当前状态x和当前动作a计算优势比率ratio；

15、基于当前优势函数a和优势比率ratio计算策略网络损失，基于均方误差损失函数计算价值网络损失；

16、基于策略网络损失和价值网络损失优化策略网络和价值网络的参数，将下一个状态作为新的当前状态，重复上述步骤，直至完成训练。

17、进一步地，演员策略网络输出动作的概率分布π(a|x)，根据概率分布选择出当前动作a的具体步骤为：

18、演员策略网络根据当前状态进行前向传播计算，通过神经网络的层与激活函数，将状态映射为输出动作的概率分布，对输出动作的概率分布进行采样，选择一个动作作为当前动作a。

19、进一步地，策略网络损失具体为：

20、actor_loss＝-min(ratio*a(x,a),clip(ratio,1-ε,1+ε)*a(x,a))

21、其中，actor_loss为策略网络损失，ratio表示优势比率，a(x,a)表示当前优势函数，clip表示截断函数，ε是截断参数；

22、优势比率具体为：

23、ratio＝π(a|x)/π_old(a|x)

24、π(a|x)表示当前的策略网络选择动作a在状态x下的概率，π_old(a|x)表示上一次迭代时的策略网络选择动作a在状态x下的概率。

25、进一步地，当前优势函数具体为：

26、a(x,a)t＝δ(t)+γ*λ*a(x,a)t+1

27、其中，a(x,a)t表示当前时间步t的优势函数，δ(t)表示当前时间步t的td误差，γ是折扣因子，λ是gae算法的参数，a(x,a)t+1表示下一个时间步执行动作a的优势函数值。

28、进一步地，td目标具体为：

29、td目标＝r+γ*v(x')*(1-d)

30、其中，v表示价值网络；

31、td误差具体为：td误差＝td目标-v(x)；

32、价值网络损失具体为：critic_loss＝mse(v(x),td目标)；

33、其中，critic_loss为价值网络损失。

34、进一步地，将实际的学生答题的情况输入薄弱知识点分析模型，输出最优策略，得到薄弱知识点和对应的出题类型的具体步骤为：

35、基于实际的学生答题的情况确定实际当前状态，输入薄弱知识点分析模型，模型输出最优动作，根据最优动作确定薄弱知识点和对应的出题类型。

36、进一步地，试题分析模型的训练过程为：

37、获取课本知识的文本数据，并对数据进行预处理，对文本数据掩盖随机词语，并对文本数据的句子进行重新排列，得到预训练集，基于预训练集训练bart模型，得到初始模型，初始模型输出文本数据的句子，所述初始模型包括编码器和解码器；

38、将知识点和知识点对应的课程知识网络中的图谱信息整合为训练集，对初始模型进行训练，得到训练完成的试题分析模型。

39、进一步地，对初始模型进行训练的具体步骤为：

40、将知识点和知识点对应的课程知识网络中的图谱信息输入初始模型，所述知识点和知识点对应的课程知识网络中的图谱信息包括问题序列和对应的答案序列，首先编码器将问题序列编码为语义表示，解码器基于语义表示输出候选项集合，采用贪心搜索方法分析当前的候选项集合中的候选项的概率分数，将概率分数最高的候选项加入当前序列，迭代计算，直至当前序列达到预设的长度，所述当前序列为初始题目，将答案序列同样输入编码器和解码器，解码器根据初始题目生成初始答案的序列，基于初始题目和初始答案计算损失函数，优化编码器和解码器的参数。

41、进一步地，从课程知识中抽取实体和实体之间的关系，构成三元组的具体步骤为：

42、对课程知识使用命名实体识别算法标记实体类型，并抽取实体和实体对应的文本串，基于实体和实体对应的文本串获取实体之间的关系，将每两个实体和之间的关系定义为一个三元组。

43、与现有技术相比，本发明具有以下有益效果：

44、本发明的基于课程知识网络和强化学习的试题生成方法，能够自动出题，并根据学生的答题情况调整出题点，从而不断强化和巩固学习要点。本发明同时结合了知识图谱、强化学习和试题分析模型，构建的知识图谱训练基于强化学习的薄弱知识点分析模型，使得薄弱知识点分析模型分析得到学生错误率最高的知识点和对应的题目，同时试题分析模型结合课程知识网络生成试题，生成学生错误率最高的题目类型的试题，本发明针对不同学生的情况有针对性地生成试题，满足不同的学习需求，减少重复试题，提高学习效率。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙兆群,刘建志,崔一澜,牛红星
技术所有人：上海仪电人工智能创新院有限公司
我是此专利的发明人

上一篇：一种能源路由器及基于该能源路由器的微网系统构架的制作方法
上一篇：一种微型管道发电系统及其控制方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。