一种基于超图神经网络的反事实因果推理知识追踪方法

文档序号:37483018发布日期:2024-04-01 13:52阅读:23来源:国知局
一种基于超图神经网络的反事实因果推理知识追踪方法

本发明属于人工智能和教育数据挖掘领域,具体涉及一种基于超图神经网络的反事实因果推理知识追踪方法。


背景技术:

1、随着在线教育平台的出现,消除了学习的时空的限制,加快了教育系统的数字化转型。在迫切需要使用计算机技术进行在线教学的同时遇到了新的挑战。其中一个挑战是如何通过学生与教材的在线互动来有效地跟踪他们的学习进度,这被称为知识追踪问题。一般来说,知识追踪的目的是利用学生的历史学习过程交互数据来观察、表征和量化学生的知识状态,即对教材所蕴含的知识点的掌握程度,同时准确的预测学生在未来学习中的答题表现。近年来,知识追踪模型因其在教育中的重要意义而备受关注,在智能辅导系统、在线教育平台以及个性化习题推荐系统中都得到了广泛的应用。

2、现有的知识追踪模型基本可以分为两大类:传统知识追踪模型和深度学习知识追踪模型。传统知识追踪模型中的贝叶斯知识追踪(bkt)将学生的表现(可观察变量)映射到对知识水平(不可观察变量或潜在变量)的估计。bkt将知识点状态假设为一个已知和未知的二元潜在变量,并使用隐马尔可夫模型(hmm)在学生回答时更新这些二元变量的概率。基于项目反应理论(irt)的模型考虑了学生的潜在特质和试题属性,例如试题难度或试题区分度并使用逻辑函数模拟学生正确答题的概率。

3、随着神经网络的快速发展,基于深度学习的知识追踪模型取得了出色的效果,例如基于循环神经网络的dkt模型和lpkt模型使用隐层状态代表知识状态,并通过多层感知机预测答题表现。akt模型和sakt模型通过注意力机制捕捉学生在相似题目上的表现来预测答题表现。在知识追踪任务中,往往存在各种关系结构,如试题和知识点的包含关系、知识点和知识点之间的依赖关系以及试题与试题之间的相似关系等。为了捕获这种关系结构以更好地解决知识问题,最近的一个趋势是探索图表示学习技术(如图神经网络(gnn))的力量。gikt模型gnn构建知识点节点和试题节点二部图,根据图中试题和知识点的关系聚合试题和知识点嵌入,并将每个试题的嵌入在一系列交互中传递给rnn模型,以预测学生下一个问题的答案。pebg模型构建试题知识点二部图,捕捉显式的试题与知识点关系、隐式的试题相似度以及知识点相似度以获得预训练的嵌入表示提高模型表现。

4、但目前没有模型没有使用超图这种图表示结构来描述知识追踪任务的试题关系结构,超图结构在处理可以表示为图或网络的数据时非常有效,擅长捕捉和建模数据中实体之间的复杂关系。其次,基于深度学习的知识追踪模型很多工作通过构建学习和遗忘模块来更加精确地追踪知识状态,但是存在错误地将学生猜对题目作为答对题目计算知识增长以及过度遗忘的问题,本方法将反事实因果推断引入知识追踪任务在学习模块中获取合理的学习收益以及采用按时间段遗忘的方法改善过度遗忘的情况。


技术实现思路

1、本发明的目的是提供一种基于超图神经网络的反事实因果推理知识追踪方法,其目的在于根据试题与知识点包含关系、相同难度试题关系、相同流行度试题关系以及试题关联关系构建超图网络,通过超图神经网络捕捉节点与超边的联系获得试题和知识点的语义表示,通过反事实因果推断框架构建学生特征预测分支、试题特征预测分支以及试题特征匹配度预测分支,在试题特征匹配度预测分支中通过遗忘模块和学习模块追踪学生在学习过程中不断变化的知识状态。

2、一种基于超图神经网络的反事实因果推理知识追踪方法,包括:

3、1)获取知识追踪任务数据集,通过知识追踪任务数据集中学生的历史答题记录数据评估试题难度、知识点难度以及试题流行度,根据试题难度进行关联,得到相同难度试题关系,根据试题流行度进行关联,得到相同流行度试题关系,提取答题间隔时间与答题次数特征,并对知识追踪任务数据集中特征数据进行嵌入处理,得到试题特征和学习行为特征;

4、2)根据知识追踪任务数据集中试题与知识点包含关系、步骤1)获得的相同难度试题关系、相同流行度试题关系以及知识追踪数据集中的试题关联关系生成超边、并将试题作为节点构建超图神经网络;

5、3)通过步骤2)构建的超图神经网络捕获试题之间的关系获得试题和知识点的语义表示;

6、4)采用反事实因果推断框架,在学生特征预测分支中通过步骤1)的学习行为特征和知识状态预测学生在未来试题上的表现得到学生特征预测分支结果,在试题特征预测分支通过试题特征预测学生在未来试题上的表现得到试题特征预测分支结果;

7、在学生试题匹配度预测分支中先建模学习过程中的遗忘效应得到学生当前的知识状态,随后通过学生当前的知识状态预测学生在未来试题上的表现,得到学生试题匹配度预测分支结果;

8、将学生特征预测分支结果、试题特征预测分支结果以及学生试题匹配度预测分支结果相乘得到最终的预测结果,最终的预测结果结合学生特征预测分支结果获得学生的学习增益,完成知识追踪。

9、本发明中,超图神经网络结构代表了试题节点之间的高层次的联系,它帮助我们寻找试题之间的相似性。与普通的二分图相比,同时超图神经网络不仅在两个节点之间,而且能在许多节点之间以及节点和超边之间传递消息,这有助于我们更好地学习模型对试题和知识点的表示。试题和知识点表示是知识追踪任务的重要因素,影响了模型预测表现与知识状态追踪。

10、本发明中,反事实因果框架中的学生特征预测分支通过学生尝试次数特征来预测答题表现,反映出学生猜测对题目的概率,结果最终预测结果与学生特征分支预测结果能够在计算学生知识增益时消除猜对题目的影响,实现知识状态反事实的增长,更加精确地知识追踪。试题特征分支通过试题id、试题包含的知识点id、知识点难度、试题流行度以及试题难度特征进行答题表现预测,能够辅助试题特征的表示跟新。

11、步骤1)中,试题特征包括试题id、试题包含的知识点id、试题难度特征、知识点难度特征以及试题流行度特征。

12、步骤1)中,学习行为特征包括答题间隔时间特征与答题次数特征。

13、步骤4)中,反事实因果推断框架,具体包括:

14、学生特征预测分支、试题特征预测分支以及学生试题匹配度预测分支。

15、步骤4)中,在学生试题匹配度预测分支中先建模答题过程中的遗忘效应得到学生当前的知识状态,具体包括:

16、采取按时间段的方式进行遗忘,具体方式为只有当间隔时间大小类别itk≥1时进行遗忘:

17、

18、其中w4是权重矩阵,t为矩阵转置,b4是偏置项,hk-1是时间步k-1时的知识状态,itk是时间步k时的间隔时间大小类别的嵌入向量,σ是激活函数sigmoid,是向量拼接操作;

19、随后将遗忘门fk乘以上一次的知识状态hk-1得到学生当前的知识状态

20、

21、本发明中,遗忘效应能够模拟学生的在学习过程因时间间隔而遗忘造成知识点掌握程度下降的现象,更加精确地追踪学生知识状态的变化,同时采用按时间段的遗忘能够有效防止以往方法中按时间步的遗忘造成过度遗忘使得知识点掌握程度过度下降的情况出现。

22、步骤4)中,最终的预测结果结合学生特征预测分支结果获得学生的学习增益,具体包括:

23、使用最终的预测结果yk以及学生特征预测分支结果来计算学生真实题目掌握程度

24、

25、其中τ是超参数,表示答对题目时最小的学习收益系数,rk为答题情况,rk为答题情况的嵌入向量,max为取最大值操作。

26、随后使用试题完整信息嵌入ik、学生真实题目掌握程度以及试题相应知识点掌握状态通过多层感知机对学习增益进行建模得到学生的学习增益gk:

27、

28、其中w6是权重矩阵,b6是偏置项;

29、将当前试题的知识点相关向量乘以学习增益gk与当前的知识状态相加得到学习后的知识状态hk:

30、

31、本发明通过结合最终预测结果和学生特征分支的预测结果能够一定程度上消除学生猜对或者盲目选对答案的影响,反映出学生真实的答题水准,建模更加合理的学习增益。

32、具体地,一种试题难度增强的综合知识追踪方法,包括:

33、通过超图神经网络捕获实体之间的复杂关系获得试题和知识点的语义表示,构建反事实因果框架依据学生的历史答题记录评估学生真实的知识状态,从而预测学生答题表现。由学生的历史答题记录数据评估试题难度、知识点难度以及试题流行度,提取答题间隔时间与答题次数特征,并对数据特征进行嵌入处理。根据试题与知识点包含关系、相同难度试题关系、相同流行度试题关系以及试题关联关系构建超图网络,通过超图神经网络获取试题与知识点的语义表示。基于反事实因果推断框架构建学生特征预测分支、试题特征预测分支以及学生试题匹配度预测分支,在学生试题匹配度预测分支中先建模答题过程中的遗忘效应得到学生当前的知识状态,随后通过学生当前的知识状态预测学生在未来试题上的表现,并结合三个分支的结果得到最终的预测结果,最后结合学生特征分支的预测结果建模学生的学习增益。

34、学生的历史答题记录数据包括:试题编号、试题回答、试题所包含的知识点以及答题时间戳;

35、在一个在线教育系统中,包含了v名学生的集合s={s1,s2,…,sv},包含了m道试题的集合p={p1,p2,…,pm}以及n个知识点的集合c={c1,c2,…,cn},包含r个历史答题交互。每一道试题都被预先标注了所包含的知识点,试题与知识点的关系通过q矩阵来进行表示,q∈rm×n,矩阵由1和0组成,qij=1表示试题pi包含知识点cj,qij=0反之,试题pi的相关知识点向量可以用表示,即q矩阵的第i行。学生的历史答题交互序列按照时间顺序定义为其中每个元组代表一个答题交互单元,其中pk代表试题,代表与试题pk包含的知识点集合,rk代表答题正确与否即rk∈{1,0},1代表回答正确,0代表回答错误,tk代表答题时间戳。

36、由学生的历史答题记录数据评估试题难度、知识点难度以及试题流行度,具体包括:

37、试题pi的难度pdi的计算公式如下:

38、

39、其中si代表回答过试题pi的学生集合,其中|si|代表该学生集合的大小,rji∈{0,1}代表学生sj回答试题pi正确与否,d为预设定的难度等级数;

40、知识点cj的难度cdj的计算公式如下:

41、

42、其中代表涉及该知识点的试题的集合,代表该试题集合的大小。即知识点难度为包含该知识点的所有试题的难度求平均值得到。

43、试题pi的流行度pli的计算公式如下:

44、

45、其中表示回答试题pi的交互集合大小,其中r表示总交互数,z为预设定的流行度等级数。

46、提取答题间隔时间与答题次数特征,并对数据特征进行嵌入处理包括:

47、计算答题交互单元内试题在历史答题记录中的连续答题次数ca与历史总答题次数hr,假设有完整答题交互中的试题序列{p2,p3,p3,p3,p2,p2,p3},则每时间步答题交互单元中相应试题的历史总答题次数分别为{0,0,1,2,1,2,3},每时间步答题交互单元中相应试题的连续答题次数分别为{0,0,1,2,0,1,0}。

48、通过答题时间戳计算相邻答题交互单元的时间间隔it,随后根据间隔时间大小离散为六种时间间隔长度类别,方式如下:

49、

50、学生的答题交互单元扩展为其中pk代表试题,代表与试题pk包含的知识点集合,crk代表连续答题次数,hrk代表历史总答题次数,itk代表答题间隔时间,rk代表答题正确与否即rk∈{1,0},1代表回答正确,0代表回答错误。

51、对试题集合p使用嵌入矩阵进行嵌入表示,其中m代表试题的数量,dp代表嵌入后的试题向量维度,随后每个答题交互单元中的试题pk可以使用向量来表示;

52、对知识点集合c使用嵌入矩阵嵌入表示,其中n代表知识点的数量,dc代表嵌入后的知识点向量维度,随后每个知识点ck用向量表示,并且每个交互单元的试题pk所包含的知识点集合使用集合中的知识点嵌入向量相加后求平均值表示,即知识点集合可以用向量来表示,公式如下:

53、

54、其中代表知识点集合的大小。

55、使用嵌入矩阵对试题难度进行嵌入操作,其中dl代表嵌入后的试题难度向量维度,即试题pk的难度使用向量来表示。

56、使用嵌入矩阵对知识点难度进行嵌入操作,其中dl表示嵌入后的知识点难度向量维度,即知识点ck的难度使用向量来表示。

57、每个答题交互单元的试题pk所包含的知识点集合的难度使用知识点难度向量的平均池化后得到,即知识点集合的难度使用向量来表示,公式如下:

58、

59、最后使用多层感知机将试题向量pk、试题难度向量pdk、试题包含知识点集合向量试题包含知识点集合难度向量进行融合得到完整的试题信息嵌入

60、

61、其中代表拼接操作,dx为向量维度,是权重矩阵,t为矩阵转置是偏置项;

62、使用嵌入矩阵对回答进行嵌入操作,其中dr表示嵌入后的回答向量维度,随后每个学习单元的回答rk就用向量来表示。

63、使用嵌入矩阵对试题流行度进行嵌入操作,其中dpl表示嵌入后的试题流行度向量维度,即试题pk的流行度plk使用向量来表示。

64、使用嵌入矩阵对连续答题次数进行嵌入操作,其中j代表记录中连续答题次数最大值,dcr代表嵌入后的连续答题次数向量维度,即连续答题次数crk使用向量来表示。

65、使用嵌入矩阵对历史总答题次数进行嵌入操作,其中u代表记录中历史总答题次数最大值,dhr代表嵌入后的历史总答题次数向量维度,即历史总答题次数hrk使用向量来表示。

66、使用嵌入矩阵对答题间隔时间进行嵌入操作,其中dit代表嵌入后的答题间隔时间向量维度,即答题间隔时间itk使用向量来表示。

67、使用随机初始化矩阵代表学生的知识状态用来存储学生的知识掌握程度,其中n为知识点数量,即矩阵第i行向量代表相应知识点ci掌握程度,dh为向量维度。

68、根据试题与知识点包含关系、相同难度试题关系、相同流行度试题关系以及试题关联关系构建超图网络,通过超图神经网络获取试题与知识点的语义表示,具体包括:

69、将试题作为超图节点,同时定义四种类型超边:知识点超边、试题关联超边、试题流行度超边以及试题难度超边:

70、试题和知识点之间为多对多的关系,一道试题可能包含多个知识点,同时可能有多道试题包含同一个知识点,因此一条知识点超边可以包含多个试题节点。

71、设定答题间隔小于一小时为同一个做题时间段,并按做题时间段将同时间段中的试题设定为相互关联的试题,例如有答题序列x={(p3,it1),(p1,it2),(p2,it3),(p5,it4),(p7,it5)}若it3>1小时,其余间隔时间均小于1小时,则划分为两个时间段,同时试题p3与p1相互关联,构成关联试题集合pa1={p3,p1},试题p2、p5以及p7相互关联,构成关联试题集合pa2={p2,p5,p7}。对于所有试题关联集合,通过关联挖掘apriori算法以最小支持度θ计算得到频繁项集,将没有超集的频繁项集加入最终的试题关联集合pa={pa1,pa2…,paa}。同一关联试题集合中的试题可以被相应的试题关联超边连接。

72、相同难度的试题节点可以被相应的试题难度超边连接。

73、相同难度流行度的试题节点可以被相应的试题流行度超边连接

74、构建试题知识点超图网络g=(v,e),其中v={p1,p2,…,pm}为节点集合,即每一个节点代表一道试题,e={e1,e2,e3,e4},超边子集e1={c1,c2,…,cn},即每一条超边代表一个知识点,超边子集e2={pd1,pd2,…,pdd},即每一条超边代表一个试题难度,超边子集e3={pa1,pa2,…,paa},即每一条超边代表一个关联试题集合,超边子集e4={pl1,pl2,…,plz},即每一条超边代表一个试题流行度。每条超边都是没有度数的,并且包含任意数目试题节点。

75、利用超图神经网络更新表示,其中通过基于注意力的超边聚合器来更节点表示:

76、

77、

78、

79、

80、

81、

82、

83、

84、

85、

86、

87、

88、

89、其中σ代表激活函数sigmoid,代表拼接操作,exp代表以e为底的指数函数,以及分别代表包含节点pi的知识点超边集合、试题难度超边集合、试题关联超边集合以及试题流行度超边集合,以及分别为节点pi与超边集合以及的聚合向量,以及分别代表节点pi与知识点超边、试题难度超边、试题关联超边以及试题流行度超边的注意力分数,以及代表权重向量,以及代表线性变换矩阵,以及代表注意力向量。θ、ρ、μ以及ε是控制不同类型超边重要度的超参数。

90、通过基于注意力加权的节点聚合器来更新超边表示:

91、

92、

93、

94、

95、

96、

97、

98、

99、

100、

101、

102、

103、其中以及代表权重向量,代表包含节点pi的超边数量,以及代表注意力向量。

104、基于反事实因果推断框架构建学生特征预测分支、试题特征预测分支以及学生试题匹配度预测分支,在学生试题匹配度预测分支中先建模答题过程中的遗忘效应得到学生当前的知识状态,随后通过学生当前的知识状态预测学生在未来试题上的表现,并结合三个分支的结果得到最终的预测结果,最后结合学生特征分支的预测结果建模学生的学习增益,具体包括:

105、反事实的因果推理框架主要包括三个分支,学生特征分支、试题特征分支以及学生试题匹配度分支。

106、学生特征分支通过学生整体的知识状态以及连续答题次数crt和历史总答题次数hrt特征预测答题表现,代表学生自身对答题表现的影响:

107、

108、

109、其中是权重矩阵,b2∈r1是偏置项,为当前的知识状态,为学生特征分支预测答题值。

110、试题特征分支通过试题流行度plk以及试题完整信息ik特征预测答题表现,代表试题本身对答题表现的影响:

111、

112、其中是权重矩阵,b3∈r1是偏置项,为试题特征分支预测答题值

113、学生试题匹配度分支主要依据学生的相应知识状态与试题完整信息的匹配度来对答题进行预测,主要包括遗忘模块、学习模块以及预测模块。

114、遗忘机制模块:使用遗忘门来模拟学生在学习过程中对知识的遗忘效应。为防止按时间步的遗忘造成知识状态的过度遗忘,采取按时间段的方式进行遗忘,具体方式为只有当间隔时间大小类别itk≥1时进行遗忘:

115、

116、其中是权重矩阵,是偏置项;

117、随后将遗忘门fk乘以上一次的知识状态hk-1得到当前的知识状态

118、

119、预测模块:在预测模块,根据当前试题的知识点相关向量查询知识状态矩阵并对多知识点进行平均池化得到学生的相应知识点掌握程度

120、

121、其中·代表向量之间的元素级乘积。

122、随后我们使用当前试题完整信息嵌入ik和学生的相应知识点掌握程度通过多层感知机来得到学生知识状态和试题信息的匹配度:

123、

124、其中是权重矩阵,b5∈r1是偏置项,为学生试题匹配度分支预测答题值;

125、随后将学生知识状态和试题信息的匹配度与学生特征预测值以及试题分支特征预测值相乘通过sigmoid函数得到最终预测值:

126、

127、学习模块:为了消除学生猜对题目造成知识状态产生正确回答题目的更新,使用最终预测值减去学生特征分支的预测值作为学生真实题目掌握程度

128、

129、其中τ是超参数,表示最小的学习收益系数,max为取最大值操作。

130、随后使用试题完整信息嵌入ik、学生真实题目掌握程度以及相应知识点掌握状态通过多层感知机对学习增益进行建模得到学习增益gk:

131、

132、其中是权重矩阵,是偏置项;

133、当前试题的知识点相关向量乘以学习增益gk与当前的知识状态相加

134、模型训练时将学生特征分支预测值的二元交叉熵损失losss、试题特征分支预测值的二元交叉熵损失lossp、最终预测值的二元交叉熵损失losssp作为联合优化目标loss:

135、

136、

137、

138、loss=losssp+αlosss+βlossp

139、其中α、β为控制损失重要程度的超参数。

140、与现有技术相比,本发明具有如下优点:

141、本发明提供的上述方案,使用超图表示试题与知识点、关联试题之间、相同难度试题之间以及相同流行度试题之间的复杂关系,能够通过超图神经网络聚合获得节点即试题的语义表示以及超边即知识点的语义表示,基于反事实因果推断框架构建学生特征预测分支、试题特征预测分支以及学生试题匹配度预测分支,在学生试题匹配度预测分支中通过按时间段的遗忘避免知识状态的过度削弱,利用学生特征预测分支结果指导知识状态的更新,能够获得更贴近实际做题情况的知识状态增长。最终通过试题信息的高阶表示和精确追踪的知识状态实现对答题表现的精准预测。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1