一种中文网络课程评论情感分类方法、装置、设备和介质

文档序号:37944019发布日期:2024-05-11 00:25阅读:26来源:国知局
一种中文网络课程评论情感分类方法、装置、设备和介质

本发明涉及自然语言处理,特别涉及一种中文网络课程评论情感分类方法、装置、设备和介质。


背景技术:

1、随着互联网技术的普及和发展,网络课程因其具有的时间灵活、地域自由、资源丰富等优势而备受青睐。越来越多的学习者通过网络课程获取知识和技能。然而网络课程与传统课堂相比缺乏同伴竞争和集体学习氛围,容易导致学生的学习积极性下降。学生的评论和评价是获取网络课程质量信息的重要来源。网络课程评论作为学生对课程体验的主观表达,蕴含着丰富的情感信息。及时准确挖掘网络课程评论的情感倾向,对精准评估、改进课程质量,优化学生学习过程,提高学生的学习动力和参与度,从而提高学习效果至关重要。同时基于情感分析的数据可以为教育管理者和决策者制定更加科学和贴近需求的教学策略,优化资源分配和教学管理提供决策支持。

2、网络课程评论情感分析的研究大致经历基于规则的方法、基于传统机器学习、基于深度神经网络三个阶段。基于规则的方法通过人工定义的词汇、短语、句子或语篇规则来识别网络课程评论中的情感。文献key factors in mooc pedagogy based on nlpsentiment analysis of learner reviews:what makes a hit应用基于词典的情感分析工具vader计算网络课程文本中蕴含的情感得分。此类方法不需要大量标注数据和复杂的模型训练,实现起来比较简单高效,具有较好的可解释性。然而此类方法的准确率和泛化能力普遍较低,为此研究者们提出了支持向量机(supportvectormachine,svm)、随机森林(random forest,rf)等为代表的传统机器学习方法。传统机器学习方法通过训练数据学习上下文信息,更好地理解网络课程评论中的情感表达,提高情感分析的准确性。文献sentiment analysis on students’evaluation of higher educational institutions全面评估了逻辑回归等传统的分类器、adaboost等集成方法和tf-idf等文本表示方案,发现分类器的预测性能随着特征集规模的增大而增强,tf-idf算法总体上优于其他两种文本表示方案。机器学习方法可以灵活地适应不同类型的评论和不同领域的网络课程,具有较好的泛化能力。近年来随着数据规模的剧增和计算资源的提升,基于深度神经网络的方法成为了网络课程评论研究的主流。文献sentiment analysis on massive open onlinecourse evaluations:a text mining and deep learning approach通过研究集成学习和深度学习的方法,提出一种glove词嵌入与长短期神经网络相结合的高效mooc评论情感分类方法,在所选的众多集成学习和深度神经网络模型中获得最高的准确率。

3、但是,机器学习方法和深度神经网络均需要大量标注的网络课程评论训练数据,目前尚未发现被研究者广泛使用和认可的公开中文网络课程评论数据集,中文网络课程评论数据的获取和标注较为耗时和繁琐,因此中文网络课程评论数据的标注规模和质量成为限制模型性能的主要因素之一。


技术实现思路

1、本发明提供一种中文网络课程评论情感分类方法、装置、设备和介质,可以解决现有技术中由于中文网络课程评论数据的标注质量低导致情感分类模型性能低的技术问题。

2、本发明提供一种中文网络课程评论情感分类方法,包括:

3、构建包括网络问答提示层、大规模语言模型学习层、对比学习层和情感极性分类层的课程评论情感分类模型,采集中文网络课程评论数据对课程评论情感分类模型进行训练,训练步骤为:

4、问答提示层基于中文网络课程评论文本生成提问序列和回答序列;大规模语言模型学习层通过学习提问序列和回答序列的语义信息,输出上下文隐藏向量;对比学习层将上下文隐藏向量输入多层感知机中,多层感知机通过自监督方式的方式获得语义相似评论文本被拉近、语义不相似评论文本被推远的特征空间;情感极性分类层基于特征空间输出中文网络课程评论文本的情感分类;

5、使用训练完的课程评论情感分类模型进行中文网络课程评论情感分类。

6、进一步的,其特征在于,所述问答提示层生成提问序列和回答序列的步骤包括:

7、使用提问提示函数生成一条提问提示文本p(q):

8、p(q)=f(q)(s)

9、其中,f(q)(.)是提问提示函数,s是中文网络课程评论文本;

10、使用回答提示函数生成一条回答提示文本p(a):

11、p(a)=f(a)(s)

12、其中,f(a)(.)是回答提示函数;

13、在中文网络课程评论文本s的句首和句尾分别添加情感分类令牌cls和句子拼接令牌sep;

14、通过句子拼接令牌sep分别将提问提示文本p(q)和回答提示文本p(a)拼接在中文网络课程评论文本s之后,形成带提问提示的中文网络课程评论文本sq和带回答提示的中文网络课程评论文本sa;

15、通过情感分类令牌cls在带提问提示的中文网络课程评论文本sq和带回答提示的中文网络课程评论文本sa中填充积极、中性、消极情感,获得提问序列和回答序列。

16、进一步的,所述大规模语言模型学习层输出上下文隐藏向量的步骤包括:

17、构建包括生成器和鉴别器的electra模型架构;

18、对electra模型进行训练;

19、使用训练完的鉴别器将中文网络课程评论文本序列和编码为一组上下文隐藏向量和

20、进一步的,所述对electra模型进行训练的步骤包括:

21、获得预训练语料χ;

22、将预训练语料χ输入到生成器中,生成器通过从相同上下文中抽样将预训练语料χ中的单词替换标记,通过生成器损失lmlm(·)计算替换标记与原始单词的相似度;

23、将生成器的输出输入到鉴别器中,判别器判别该输入是真实数据样本还是生成器生成的数据样本,通过判别器损失ldisc(·)计算真实数据与生成数据样本的相似度;

24、基于生成器损失lmlm(·)和判别器损失ldisc(·)确定联合损失损失函数,通过最小化联合损失函数对electra模型进行训练:

25、

26、其中,x为预训练语料χ中的数据样本,lmlm(·)为生成器损失,ldisc(·)为判别器损失,λ为权重系数,θg、θd分别是生成器、判别器中的参数。

27、进一步的,所述对比学习层获得特征空间的步骤包括:

28、将大规模语言模型学习层输出的上下文隐藏向量和分别输入多层感知机mlp中生成投影头:

29、gq=mlp(hq)

30、ga=mlp(ha)

31、mlp(·)为映射隐藏向量到对比损失空间中的单层mlp。

32、进一步的,所述对比学习层训练时采用nt-xent损失函数:

33、

34、cos(·)为余弦相似度函数,τ为温度参数,1[k≠q]为表示当k≠q取值为1的指示函数,n是数据样本数量。

35、进一步的,所述情感极性分类层通过稀疏softmax函数输出情感分类p:

36、p=sparsemax(h)

37、h为对比学习层训练完成的上下文隐藏向量。

38、一种中文网络课程评论情感分类装置,包括:

39、模型建立模块,用于:

40、构建包括网络问答提示层、大规模语言模型学习层、对比学习层和情感极性分类层的课程评论情感分类模型;

41、模型训练模块,用于:

42、采集中文网络课程评论数据对课程评论情感分类模型进行训练,训练步骤为:

43、问答提示层基于中文网络课程评论文本生成提问序列和回答序列;大规模语言模型学习层通过学习提问序列和回答序列的语义信息,输出上下文隐藏向量;对比学习层将上下文隐藏向量输入多层感知机中,多层感知机通过自监督方式的方式获得语义相似评论文本被拉近、语义不相似评论文本被推远的特征空间;情感极性分类层基于特征空间输出中文网络课程评论文本的情感分类;

44、情感分类模块,用于:

45、使用训练完的课程评论情感分类模型进行中文网络课程评论情感分类。

46、一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的中文网络课程评论情感分类方法。

47、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的中文网络课程评论情感分类方法。

48、本发明提供一种中文网络课程评论情感分类方法、装置、设备和介质,与现有技术相比,其有益效果如下:

49、本发明在训练用于中文网络课程评论情感分类模型的过程中,通过自监督方式的方式获得语义相似评论文本被拉近、语义不相似评论文本被推远的特征空间。由于自监督学习是通过利用数据自身的特性来进行训练的无监督学习形式,降低了对数据标签的依赖,因此即使存在标签质量较低的数据,模型也可以通过学习到的语义特征来正确地区分情感相似和不相似的评论,使得所训练的模型对情感分类更加准确。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1