一种课堂纪要生成方法及系统

文档序号:33559080发布日期:2023-03-22 13:22阅读:60来源:国知局
一种课堂纪要生成方法及系统

1.本发明属于教育信息化技术领域,更具体地,涉及一种课堂纪要生成方法及系统。


背景技术:

2.随着教育信息化的不断发展,越来越多新兴技术应用在课堂教学活动中,这些技术为教学研究提供了海量、多维度的信息,但同时也使师生获得的信息呈现“爆炸式”增长。通过文本摘要技术对课堂记录文本的核心内容进行提取,生成一份简明扼要的课堂纪要文本,能够显著提高师生获取信息的效率。教师可以通过课堂纪要分析教学过程,针对性地调整教学策略,提升教学质量;学生可以将课堂纪要作为每节课的内容大纲,回忆、整理和归纳所学的知识点,提高对所学知识的掌握程度。
3.传统的教学模式下,教师通常在课后凭借记忆力对授课过程进行回忆,然后据此进行课堂纪要的手动记录。手动记录会耗费教师大量的时间,并且当教师授课与记录课堂纪要之间的间隔较长时,往往会因为人的记忆能力下降而忽略课堂中所提及的重要内容,导致所记录的信息是不完整的,甚至当教学任务繁重的时候,教师可能缺乏精力完成课堂记录的记录。随着自动文本摘要技术的不断突破,新闻自动摘要、医疗问答自动摘要等领域取得了非常大的突破,但是目前课堂教学领域的文本摘要的研究较少。因此,如何应用自动文本摘要技术来完成课堂纪要自动生成任务是目前教育信息化技术领域亟待解决的重要课题。


技术实现要素:

4.针对现有技术的缺陷,本发明的目的在于提供一种课堂纪要生成方法及系统,旨在解决手动记录课堂纪要耗费人力和时间成本的问题。
5.为实现上述目的,第一方面,本发明提供了一种课堂纪要生成方法,包括:
6.获取课堂音频文件;
7.对所述课堂音频文件进行语音识别和声纹识别,得到包含说话人信息和对应说话内容的课堂记录文本;
8.将所述课堂记录文本输入至课堂纪要生成模型,得到课堂纪要文本;
9.其中,所述课堂纪要生成模型是基于样本课堂记录文本及对应的样本课堂纪要文本训练得到的;所述课堂纪要生成模型用于对所述课堂记录文本进行主题划分和环节划分,并基于划分得到的主题向量和环节向量对所述课堂记录文本进行编码,得到所述课堂记录文本的文本表征向量,对所述文本表征向量进行解码,得到所述课堂纪要文本。
10.在一个可选的示例中,将所述课堂记录文本输入至课堂纪要生成模型,得到课堂纪要文本,具体为:
11.对所述课堂记录文本中的每一句子进行编码,得到所述每一句子的句子表征向量;
12.基于所述每一句子的句子表征向量分别进行主题划分和环节划分,得到所述每一
句子的主题向量和环节向量;
13.对所述课堂记录文本中所有句子的主题向量、环节向量、角色向量和句子表征向量进行编码,得到所述课堂记录文本的文本表征向量;所述所有句子的角色向量基于所述说话人信息确定;
14.基于所述课堂记录文本中所有句子的句子表征向量和所述课堂记录文本的文本表征向量确定课堂记录文本对应的纪要分词,并基于所述纪要分词生成所述课堂纪要文本。
15.在一个可选的示例中,所述对所述课堂记录文本中的每一句子进行编码,得到所述每一句子的句子表征向量,包括:
16.基于所述课堂记录文本中每一句子的分词进行指代消解,得到所述每一句子的词性标签向量、实体标签向量和指代关系向量;
17.基于所述每一句子的分词、词性标签向量、实体标签向量和指代关系向量进行编码,得到所述每一句子的句子表征向量。
18.在一个可选的示例中,基于所述每一句子的句子表征向量进行环节划分,得到所述每一句子的环节向量,包括:
19.基于类别预测模型对所述每一句子的句子表征向量进行环节划分,得到所述每一句子的环节向量;所述类别预测模型是基于样本句子的句子表征向量及对应的样本环节向量,对初始类别预测模型进行训练得到的;所述初始类别预测模型是基于课堂场景下各个环节之间的状态转移关系构建的。
20.第二方面,本发明提供了一种课堂纪要生成系统,包括:
21.音频获取模块,用于获取课堂音频文件;
22.语音识别模块,用于对所述课堂音频文件进行语音识别和声纹识别,得到包含说话人信息和对应说话内容的课堂记录文本;
23.纪要生成模块,用于将所述课堂记录文本输入至课堂纪要生成模型,得到课堂纪要文本;
24.其中,所述课堂纪要生成模型是基于样本课堂记录文本及对应的样本课堂纪要文本训练得到的;所述课堂纪要生成模型用于对所述课堂记录文本进行主题划分和环节划分,并基于划分得到的主题向量和环节向量对所述课堂记录文本进行编码,得到所述课堂记录文本的文本表征向量,对所述文本表征向量进行解码,得到所述课堂纪要文本。
25.在一个可选的示例中,所述课堂纪要生成模型包括第一编码器、分类网络、第二编码器和解码器;
26.所述第一编码器对所述课堂记录文本中的每一句子进行编码,得到所述每一句子的句子表征向量;
27.所述分类网络基于所述每一句子的句子表征向量分别进行主题划分和环节划分,得到所述每一句子的主题向量和环节向量;
28.所述第二编码器基于所述课堂记录文本中所有句子的主题向量、环节向量、角色向量和句子表征向量进行编码,得到所述课堂记录文本的文本表征向量;所述所有句子的角色向量基于所述说话人信息确定;
29.所述解码器对所述课堂记录文本中所有句子的句子表征向量和所述课堂记录文
本的文本表征向量进行解码,得到所述课堂记录文本对应的纪要分词,并基于所述纪要分词生成所述课堂纪要文本。
30.在一个可选的示例中,所述第一编码器包括指代消解层和编码层;
31.所述指代消解层基于所述课堂记录文本中每一句子的分词进行指代消解,得到所述每一句子的词性标签向量、实体标签向量和指代关系向量;
32.所述编码层基于所述每一句子的分词、词性标签向量、实体标签向量和指代关系向量进行编码,得到所述每一句子的句子表征向量。
33.在一个可选的示例中,所述分类网络包括类别预测模型;
34.所述类别预测模型基于所述每一句子的句子表征向量进行环节划分,得到所述每一句子的环节向量;所述类别预测模型是基于样本句子的句子表征向量及对应的样本环节向量,对初始类别预测模型进行训练得到的;所述初始类别预测模型是基于课堂场景下各个环节之间的状态转移关系构建的。
35.第三方面,本发明提供了一种课堂纪要生成系统,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现上述第一方面提供的课堂纪要生成方法。
36.第四方面,本发明提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现上述第一方面提供的课堂纪要生成方法。
37.总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
38.本发明提供一种课堂纪要生成方法及系统,对课堂音频文件进行语音识别和声纹识别,得到课堂教学过程的课堂记录文本,再应用课堂纪要生成模型对课堂记录文本进行摘要提取,从而实现了课堂纪要文本的自动生成,极大地提升了纪要生成的效率,并且,课堂纪要生成模型采用主题和环节二者结合的混合视图对课堂教学过程中的结构性信息进行充分捕捉,并将捕捉的课堂结构性信息编码到句子向量,从而解决了传统深度学习模型对课堂对话的结构性信息利用不足的问题,提升了最终生成的课堂纪要文本的准确性、逻辑性和整体的连贯性。
附图说明
39.图1是本发明实施例提供的课堂纪要生成方法的流程图之一;
40.图2是本发明实施例提供的课堂纪要生成方法的流程图之二;
41.图3是本发明实施例提供的课堂纪要生成模型生成的文本摘要的示例图;
42.图4是本发明实施例提供的课堂场景下各个环节之间的状态转移关系的示意图;
43.图5是本发明实施例提供的课堂纪要生成模型的架构图;
44.图6是本发明实施例提供的课堂纪要生成系统的架构图。
具体实施方式
45.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
46.使用自动文本摘要技术来完成课堂纪要自动生成任务能够极大地提高效率。目前主流的自动文本摘要技术按研究方法可以将其分为四大类:基于统计学的文本摘要技术、基于图排序的文本摘要技术、基于统计机器学习的文本摘要技术、基于深度学习模型的文本摘要技术。
47.基于统计学的文本摘要技术的主要研究思路为:选取一些统计学特征,如词频、句子的位置、句子与其它句子的相似性、句子与标题的相似性等,然后通过这些特征对原文中句子的重要性进行排序,最后选取若干个重要性较高的句子作为原文的摘要,该技术利用文本内部的形式来选取摘要句虽然比较简单、执行速度快,但是该方法只利用句子表层统计特征而没有利用句子的语义特征,存在一定的局限性。
48.基于图排序的文本摘要技术将原文本构成一个图,将其中的若干个段落或者句子作为顶点,通过计算不同顶点之间的相关性来赋予边的权重,最终通过图排序算法(如pagerank算法、hits算法等)选取若干个得分较高的顶点来作为原始文本的摘要,该技术捕捉了句子、词组之间的关系,相较于基于统计学的摘要技术有了很大的改进,但是该方法大多数情况下也仅仅只考虑了句子之间的相似性,对句子的语义等深层次的信息仍然无法捕捉。
49.基于统计机器学习的文本摘要技术的思路是将文本中的句子进行分类,判断其是否为摘要的一部分。该方法首先选取句子的某些特征,如句子的位置、句子的长度、句子与其它句子的相似度、是否包含命名实体等,然后选取合适的机器学习模型,将句子相应的特征值输入到机器学习模型,计算该句子的重要性得分,依照重要性得分输出若干个得分较高的句子作为最终的摘要。通过不断调整机器学习模型的参数来进行计算,选取最优的模型对文本进行摘要句的提取。使用较多的有朴素贝叶斯算法、决策树算法、隐马尔可夫算法等,该技术能够选取多个特征来对句子的重要性进行评估,能够捕捉句子更多维度的信息,但是该方法需要对其各个维度的特征进行标注,并且其分类的思路只能得到抽取的关键句,而无法将重要的信息更简练地表达,仍然存在一定的局限性。
50.基于深度学习模型的文本摘要技术主要思路是:通过rnn、lstm、transformer、bert等深度学习模型对原文本进行编码,然后通过模型对输入的字词特征和句子特征进行计算后解码输出包含重要信息的摘要文本。目前应用于文本摘要任务的深度学习模型主要分为抽取式和生成式两大类。抽取式摘要直接从原文中摘取部分句子或部分词汇,并将其组合成语法通顺和事实完整的摘要文本。生成式摘要既可以直接从原文中抽取,还可以生成原文中没有的词汇,新增原文中未出现的表达。该技术是目前效果最优的摘要提取技术,它能够利用计算机的强大计算能力对文本的语义信息、语法信息、句法信息等特征进行深层次挖掘。
51.相较于基于统计学、基于图排序、基于统计机器学习的自动文本摘要方法,基于深度学习模型的自动文本摘要方法能够更好地捕捉课堂对话语句的深层语义和结构性信息,但是由于课堂纪要任务具有文本长度冗长、参与人数多、对话轮次多、结构信息明显、核心内容非常分散的特点,将其它深度学习模型直接应用到课堂纪要任务都无法取得较好的效果,因此本发明针对课堂纪要任务的特点,在现有的深度学习模型框架的基础上,提出了一种混合视图的课堂纪要自动生成方法。
52.图1是本发明实施例提供的课堂纪要生成方法的流程图之一,如图1所示,该方法
包括:
53.步骤s101,获取课堂音频文件;
54.此处,课堂音频文件即课堂教学过程的音频文件,可以是对课堂教学过程直接进行音频录制得到的,也可以是对课堂教学过程进行视频录制,再从录制得到的视频文件中提取的音频,本发明实施例对此不作具体限定。
55.步骤s102,对课堂音频文件进行语音识别和声纹识别,得到包含说话人信息和对应说话内容的课堂记录文本;
56.步骤s103,将课堂记录文本输入至课堂纪要生成模型,得到课堂纪要文本;
57.其中,课堂纪要生成模型是基于样本课堂记录文本及对应的样本课堂纪要文本训练得到的;课堂纪要生成模型用于对课堂记录文本进行主题划分和环节划分,并基于划分得到的主题向量和环节向量对课堂记录文本进行编码,得到课堂记录文本的文本表征向量,对文本表征向量进行解码,得到课堂纪要文本。
58.具体地,考虑到目前主流的文本摘要模型的输入形式均为文本,但是课堂教学的直接记录形式是音频、视频,因此本发明实施例首先对课堂音频文件进行语音转写,将其转换为原始的课堂记录文本,同时使用声纹识别算法对音频文件中的说话人进行分离和标记,由此整理得到包含说话人信息和对应说话内容的课堂记录文本。接着通过本发明提出的课堂纪要生成模型对课堂记录文本进行摘要提取,最终输出生成能够表征课堂教学过程中重要内容的课堂纪要文本。
59.针对课堂教学场景的特点,本发明提出了混合视图的课堂纪要生成模型(hybrid view class minutes automatically generated model,简称hvcmm)。课堂纪要生成模型需要先通过算法对课堂记录文本进行主题划分和环节划分,再根据划分得到的主题向量和环节向量对课堂记录文本进行编码,得到整个课堂记录文本在环节和主题混合视图下的表征向量,即文本表征向量,以实现采用主题和环节二者结合的混合视图对课堂教学过程中的结构性信息进行充分捕捉。
60.需要说明的是,本发明将课堂教学的记录文本进行分析研究,采用深度学习相关技术对教学过程的重要特征进行深度挖掘,构建了一种基于深度学习的混合视图的课堂纪要自动生成模型,与传统的文本摘要技术对比,本发明针对课堂场景设计的模型能够结合课堂场景的特点,自动生成高质量的课堂纪要文本,并且极大地提升了纪要生成的效率。
61.为了保证教学质量,任课老师通常会在备课的时候构思自己的教学逻辑,对授课内容进行一些结构性的划分,比如环节、主题等,然后在教学过程中根据自己的教学计划有条不紊地进行授课。本发明使用机器学习算法对课堂记录文本进行主题和环节的划分,并将捕捉的课堂结构性信息编码到文本表征向量,用于后续的纪要文本生成,从而解决了传统深度学习模型对课堂对话的结构性信息利用不足的问题,并通过识别和利用这种结构化信息极大提升了最终生成的课堂纪要文本的逻辑性和整体的连贯性。
62.另外,在执行步骤s103之前,还需要通过如下方式预先训练得到课堂纪要生成模型:首先,收集历史课堂场景下所完整记录的样本课堂记录文本,并标注得到样本课堂记录文本对应的样本课堂纪要文本;随后,应用样本课堂记录文本及对应的样本课堂纪要文本,对初始生成模型进行训练,从而得到训练完成的课堂纪要生成模型,用于后续的课堂纪要自动生成任务中。
63.本发明实施例提供的方法,对课堂音频文件进行语音识别和声纹识别,得到课堂教学过程的课堂记录文本,再应用课堂纪要生成模型对课堂记录文本进行摘要提取,从而实现了课堂纪要文本的自动生成,极大地提升了纪要生成的效率,并且,课堂纪要生成模型采用主题和环节二者结合的混合视图对课堂教学过程中的结构性信息进行充分捕捉,并将捕捉的课堂结构性信息编码到句子向量,从而解决了传统深度学习模型对课堂对话的结构性信息利用不足的问题,提升了最终生成的课堂纪要文本的准确性、逻辑性和整体的连贯性。
64.基于上述实施例,图2是本发明实施例提供的课堂纪要生成方法的流程图之二,如图2所示,首先对录制的课堂音频文件进行音频预处理,再进行语音识别,将其转换为原始的课堂记录文本,并使用纠错算法对转换得到的文本中可能存在的语法错误进行纠正,同时使用声纹识别算法对音频文件中的说话人进行分离和标记,由此整理得到包含说话人信息和对应说话内容的课堂记录文本,接着通过本发明提出的课堂纪要生成模型hvcmm对课堂记录文本中的重要内容进行摘要的提取,得到模型生成的文本摘要。图3示例了本发明实施例提供的课堂纪要生成模型生成的文本摘要。
65.进一步地,考虑到文本摘要生成方法生成的摘要虽然能够涵盖文本的关键信息,但可能存在不流畅的问题,而文本摘要抽取方法则相反,因此,本发明结合这两种方法确定最终的文本摘要,也就是说,将上述模型生成的文本摘要与文本摘要抽取算法抽取得到的文本摘要进行比对,判断上述生成的文本摘要是否需要补充与修改,如果需要,则让给模型再重新生成下文本摘要,如果不需要,则可以直接将模型生成的文本摘要作为最终的课堂纪要文本。另外,课堂纪要文本还可以补充到数据集中,用于后续的模型参数训练中。
66.基于上述任一实施例,将课堂记录文本输入至课堂纪要生成模型,得到课堂纪要文本,具体为:
67.对课堂记录文本中的每一句子进行编码,得到每一句子的句子表征向量;
68.基于每一句子的句子表征向量分别进行主题划分和环节划分,得到每一句子的主题向量和环节向量;
69.对课堂记录文本中所有句子的主题向量、环节向量、角色向量和句子表征向量进行编码,得到课堂记录文本的文本表征向量;所有句子的角色向量基于说话人信息确定;
70.基于课堂记录文本中所有句子的句子表征向量和课堂记录文本的文本表征向量确定课堂记录文本对应的纪要分词,并基于纪要分词生成课堂纪要文本。
71.具体地,由于原始的课堂记录文本较长,如果使用单级编码对输入的课堂记录文本进行直接编码,可能会出现内存溢出问题,而如果使用长文本截断的方法,会出现损失大量重要信息的问题,因此本发明实施例中课堂纪要生成模型包括第一编码器和第二编码器,以实现采用多级编码的策略来对输入的课堂记录文本进行编码,避免了长文本输入到单级编码器后在计算中出现内存溢出的风险。
72.第一编码器首先通过分词器对课堂记录文本中每一句子进行分词,再根据每一句子的分词对每一句子进行编码,得到每一句子的句子表征向量。接着,课堂纪要生成模型中的分类网络根据每一句子的句子表征向量,对每一句子所属的主题进行划分,得到每一句子的主题向量,以及对每一句子所属的环节进行划分,得到每一句子的主题向量,以实现采用主题和环节的混合视图对教学过程中的结构性信息进行分析。
73.由于课堂参与人数多,本发明实施例还根据步骤s102中得到的说话人信息,为每一个句子添加了角色向量(role vector,记作rov),以捕捉不同说话人特征,可选地,可以对每一个句子对应的说话人身份采用one-hot编码,从而得到角色向量。随即,将所有句子的主题向量、环节向量、角色向量和句子表征向量输入到第二编码器中进行编码,从而得到整个课堂记录文本在环节和主题混合视图下的表征向量,即文本表征向量。
74.最后,为了进一步提升课堂纪要文本的准确性,本发明实施例在解码过程中,将第一编码器输出的所有句子的句子表征向量,以及第二编码器输出的课堂记录文本的文本表征向量都输入到课堂纪要生成模型中的解码器。
75.解码器分别对上述两种输出进行了multi cross-attention操作,以使模型在解码的时候关注不同尺度的输入信息,从而解码得到包含重要信息的各个分词即纪要分词,最后将所有纪要分词连接得到最终的课堂纪要文本。
76.基于上述任一实施例,对课堂记录文本中的每一句子进行编码,得到每一句子的句子表征向量,包括:
77.基于课堂记录文本中每一句子的分词进行指代消解,得到每一句子的词性标签向量、实体标签向量和指代关系向量;
78.基于每一句子的分词、词性标签向量、实体标签向量和指代关系向量进行编码,得到每一句子的句子表征向量。
79.具体地,为了捕捉句子中的语法信息,同时防止因课堂参与人数过多而导致句子中的指代混淆,本发明实施例中第一编码器包括指代消解层,在进行编码前先将输入的每一句子的分词token输入到指代消解层中进行指代消解,分析每个token的词性、实体类别、指代关系,得到三个向量:词性标签向量pos(part of speech)、实体标签向量ent(entity)和指代关系向量crv(coreference vector)。
80.此处,词性标签向量pos、实体标签向量ent、指代关系向量crv分别由每个句子的所有token的词性标签、实体标签、指代关系组成,以实现分别对所有token的词性、实体类别信息、与其它token之间的指代关系进行描述。
81.随后,针对每一句子senti={x1,x2,...,xk}(xi为其中的一个token,k为token的总数),第一编码器中的编码层首先对句子中的所有token进行词嵌入embedding和位置编码,通过词嵌入将句子中的tokens映射到统一维度d
token
,此外还对pos向量、ent向量、crv向量进行了词嵌入,将其分别映射到d
pos
、d
ent
、d
crv
维度。将词嵌入后的分词向量与位置编码向量相加后得到最终的分词向量然后将与词嵌入后的词性标签向量实体标签向量指代关系向量拼接得到句子senti在词嵌入之后的向量ei。
82.接着,再将ei输入到编码层中的transformer编码器进行编码,从而得到senti的句子表征向量si,由此即可得到所有句子的句子表征向量s={s1,s2,...,sn}(n为课堂记录文本中句子的总数)。
83.需要说明的是,与传统的文档摘要和新闻摘要相比,课堂场景的说话人众多,如果不将这些角色进行区分,那么生成的课堂纪要的指代逻辑可能会出现混乱,出现“张冠李戴”的现象,这一点在传统的文本摘要模型中考虑得较少。因此,本发明实施例在课堂纪要生成模型中使用了共指消解和添加角色向量的方法,解决了课堂参与人数过多导致可能出
现指代逻辑混乱的问题。
84.基于上述任一实施例,基于每一句子的句子表征向量进行环节划分,得到每一句子的环节向量,包括:
85.基于类别预测模型对每一句子的句子表征向量进行环节划分,得到每一句子的环节向量;类别预测模型是基于样本句子的句子表征向量及对应的样本环节向量,对初始类别预测模型进行训练得到的;初始类别预测模型是基于课堂场景下各个环节之间的状态转移关系构建的。
86.具体地,考虑到如果采用传统的人工标注方法对句子进行环节标注,会耗费大量的人力和时间成本,对此,本发明实施例通过机器学习算法将课堂记录文本中的句子进行环节的自动标注。分类网络基于其包括的类别预测模型,根据每一句子的句子表征向量预测每一句子所属的环节类别,即实现对每一句子进行环节划分,从而得到每一句子的环节向量。
87.进一步地,为了方便对句子所属环节进行编码,本发明实施例将课堂场景下会话分为“课堂导入”、“内容研讨”、“拓展延伸”、“全课总结”四个环节,由于这些环节通常在逻辑上存在状态转移的关系,如图4所示,因此可以使用隐马尔可夫模型(hidden markov model,hmm)来代替聚类算法对句子进行环节划分。将所有句子的表征向量s={s1,s2,...,sn}作为模型的观测序列,由于观测序列为连续值,因此本发明实施例选取的类别预测模型为gaussianhmm。
88.将每个句子对应的环节类别作为隐含状态,隐含状态取值集合为{0,1,2,3},分别代表“课堂导入”、“内容研讨”、“拓展延伸”、“全课总结”四个环节。在进行隐含状态的预测过程之前,还需要先进行模型的初始化以及通过模型训练得到模型的参数。可以先根据课堂场景下各个环节之间的状态转移关系,构建初始类别预测模型,即完成模型的初始化,限定无法由其它环节转移到“课堂导入”环节以及无法从“全课总结”环节向其它环节进行转移,每节课的初始环节都是“课堂导入”。随后,可以应用样本句子的句子表征向量及对应的样本环节向量,对初始类别预测模型进行训练,最终训练得到类别预测模型。预测过程可以使用viterbi算法,以动态规划的方式求出训练的模型在给定的句子的表征向量序列下最大概率的环节序号序列。
89.另外,为了节省了人力和时间成本,也可以采用机器学习算法将课堂记录文本中的句子进行主题的自动标注。围绕某个主题的讨论通常呈现出主题相近词汇重复出现的特点,由于句子中包含主题相关词汇,句子向量的相似度也更高。利用该特点,本发明实施例中分类网络使用了k-means聚类算法对句子所属主题进行划分。算法的输入为所有句子的句子表征向量s={s1,s2,...,sn},输出为k分类下的聚类结果。由于不同课程研讨的主题数量不尽相同,因此本发明实施例中聚类的主题数量k不是选取固定的k值,而是选择实际最优的聚类效果得到的类别数作为最终的主题数量。作为优选,k值的确定方式可以采用gap statistic方法。
90.基于上述任一实施例,句子的环节和主题划分后,本发明实施例还会对所有句子的角色向量rov、环节向量sec、主题向量top进行embedding,将其分别映射到d
rov
、d
sec
、d
top
维度,得到e
rov
、e
sec
、e
top
,然后将所有句子的表征向量s与e
rov
、e
sec
、e
top
进行拼接得到全文的
编码前的表征向量为了捕捉这些句子之间的关系,本发明实施例随后将输入到第二编码器的transformer中进行编码,从而得到课堂记录文本的文本表征向量v。
91.基于上述任一实施例,为了改善传统的自动文本摘要方法无法从稀疏、文本冗长、参与人员众多的课堂记录文本中生成质量高的摘要文本的问题,本发明在transformer模型的基础上针对课堂教学场景的特点提出了一种混合视图的课堂纪要生成模型hvcmm,模型采用多级编码的策略对输入的课堂记录文本进行编码,避免了长文本输入到单级编码器后在计算中出现内存溢出的风险,解决了课堂记录原始文本过长的问题;使用指代消解和添加角色向量的方法解决了课堂参与人数过多导致可能出现指代逻辑混乱的问题;通过算法对句子进行主题和环节的划分,从而使用机器学习算法对句子的结构性信息进行自动捕捉,并将捕捉的课堂结构性信息编码到句子向量,以解决传统深度学习模型对课堂对话的结构性信息利用不足的问题。
92.图5是本发明实施例提供的课堂纪要生成模型的架构图,如图5所示,hvcmm模型主要由token-level分词级别编码器(即上述步骤中的第一编码器)、sentence-level句子级别编码器(包括上述步骤中的分类网络和第二编码器)和decoder解码器三部分组成,下面对各个部分的具体实现方法进行阐述。
93.步骤1:课堂记录相关符号定义
94.将一节课的课堂记录文本记作d,则有d={sent1,sent2,

,sentn},其中senti是课堂记录文本中某个发言者的一句话。对于课堂中所有的发言者可以将其记作p,p={p1,p2,

,p
t
},其中t为这节课中发言的人数。对于每一个输入的句子senti,首先通过分词器进行分词,得到senti={x1,x2,...,xk},xi为其中的一个token,k为token的总数。
95.步骤2:token-level编码器编码过程
96.为了捕捉句子中的语法信息,同时防止因课堂参与人数过多而导致句子中的指代混淆,在进行编码前首先将输入的句子senti输入到指代消解层,分析每个token的词性、实体类别、指代关系,得到三个向量pos、ent和crv。该层首先通过自然语言处理工具spacy对句子进行分词和分析,得到每一个token的词性标签和实体标签,以及token之间的依赖关系。将所有token的词性标签合并后形成pos向量,pos=(pos_i_d1,pos_id2,...,pos_i_dk)。将所有token的实体标签合并后形成ent向量,ent=(ent_i_d1,ent_id2,...,ent_i_dk)。pos_idi和ent_idi分别代表句子中第i个token的词性和实体标签对应的id。通过分析句子间依赖关系可以构建指代关系向量crv,为了方便,每个token只取一个与其它词的指代关系,得到crv=(ref1,ref2,...,refk)。其中refi是一个数字,代表句子中第i个token所指代关系指向第refi个token,当refi=0代表第i个token不存在指代关系。将添加词性标签向量pos、实体标签向量ent、指代关系向量crv后的句子向量记作则有
97.在输入transformer编码器前,首先进行词嵌入和位置编码。通过词嵌入将
句子中的tokens映射到统一维度d
token
,此外还对pos向量、ent向量、crv向量进行了词嵌入,将其分别映射到d
pos
、d
ent
、d
crv
维度。位置编码采用了三角函数式位置编码,以便模型在编码绝对位置的时候同时捕获token之间的相对位置,位置向量的计算公式为:
[0098][0099]
其中,p
k,2i
和p
k,2i+1
分别代表位置k编码向量的第2i和2i+1个分量,d为位置向量的维度,与词向量的嵌入维度相同,i的取值范围为1到d/2。
[0100]
将词嵌入后的向量与位置编码向量相加后得到最终的词向量然后将词向量与词嵌入后的词性标签向量实体标签向量指代关系向量拼接得到句子senti在词嵌入之后的向量ei,
[0101]
接着将ei输入到transformer编码器进行编码,transformer编码器由多个transformer块组成,例如,可以选取8个层叠的transformer块,每个块由一个self-attention层和前馈网络层(即图5中的feed forward)组成,并在每一个层之后,增加一个残差和归一化层(即图5中的add&norm)。attention计算公式如下:
[0102][0103]
对于self-attention有q=k=v=xi,计算过程如下:
[0104][0105]
其中,wq,wk,wv为待训练的参数矩阵,为self-attention层的输出。
[0106]
前馈网络层的激活函数可以选取gelu函数,其计算公式如下:
[0107][0108]
其中,erf为误差函数,其计算公式为:
[0109][0110]
self-attention层和前馈网络层都有残差连接和层正则化,因此transformer的编码计算过程如下:
[0111][0112]
[0113]
其中,xi为某一个transformer块的输入,第一个块xi=ei,ln为层正则化函数,为该transformer块的输出,记最后一个transformer块的输出为si,最终句子senti被编码为句子表征向量si,同理可以得到其它句子的句子表征向量s1,s2,...,sn。
[0114]
步骤3:sentence-level编码器编码过程
[0115]
通过token-level编码器,可以得到所有句子的句子表征向量s={s1,s2,...,sn}。由于课堂参与人数多,本发明根据说话人信息为每一个句子添加了角色向量rov,以捕捉不同说话人特征,rov采用one-hot编码,可以得到rov={rov1,rov2,...,rovn}。除了捕捉不同说话人特征,本模型还采用了主题和环节的混合视图对教学过程中的结构性信息进行分析。首先需要对句子按照主题和环节进行标注,传统的方法是采用人工手动标注,但是使用人工标注会耗费大量的人力和时间成本,本发明通过机器学习算法将课堂记录文本中的句子进行主题和环节的自动标注。
[0116]
(1)主题视图
[0117]
围绕某个主题的讨论通常呈现出主题相近词汇重复出现的特点,由于句子中包含主题相关词汇,句子向量的相似度也更高。利用该特点,本发明使用了k-means聚类算法对句子所属主题进行划分。算法的输入为所有句子的句子表征向量s={s1,s2,...,sn},这里将每一个句子表征向量视作一个点,初始化k个系统的初始质心,然后计算点离每一个质心的距离,将其划分到最近的一个质心所在的簇中。将所有点划分完之后重新计算每一个簇的质心,质心的位置确定采用取所有点均值的方法,然后重复对所有点进行计算和划分,直到划分结果不再发生变化,这样就得到了k分类下的聚类结果,得到主题向量top={top1,top2,...,topn}。
[0118]
由于不同课程研讨的主题数量不尽相同,因此本发明聚类的主题数量k不是选取固定的k值,而是选择实际最优的聚类效果得到的类别数作为最终的主题数量。k值的确定方式采用gap statistic方法,通过计算蒙特卡罗模拟产生的m个随机样本集的与实际聚类数据的损失之差的最小值来确定最终的k值,本发明采用点与聚类中心点的距离平方和作为误差函数l,计算公式如下:
[0119][0120]
(2)环节视图
[0121]
将所有句子的句子表征向量s={s1,s2,...,sn}作为模型的观测序列,由于观测序列为连续值,因此本发明选取的模型为gaussianhmm。将每个句子对应的环节类别作为隐含状态,隐含状态取值集合为{0,1,2,3},分别代表“课堂导入”、“内容研讨”、“拓展延伸”、“全课总结”四个环节。由于使用hmm进行隐含状态的预测,需要先知道隐含状态转移概率矩阵等模型参数,而这些参数是未知的,因此在预测过程之前,还需要先通过模型训练得到模型的参数。训练过程步骤如下:
[0122]
(1)给hmm模型的参数赋初始值p0。为了使模型符合课堂场景下划分的四个环节,
本发明将初始的隐含状态转移概率矩阵赋值为本发明将初始的隐含状态转移概率矩阵赋值为限定无法由其它环节转移到“课堂导入”环节以及无法从“全课总结”环节向其它环节进行转移;设定初始状态概率矩阵π0=[1.0,0,0,0],即每节课的初始环节都是“课堂导入”。
[0123]
(2)根据模型的当前参数p0求hmm模型隐变量的期望值e。
[0124]
(3)由上一步得到的期望值e重新计算hmm模型参数的新估计值p1,使用p1代替p0。
[0125]
(4)重复(2)、(3)过程,直到模型的参数收敛。
[0126]
本发明预测过程使用viterbi算法,以动态规划的方式求出训练的模型在给定的句子的表征向量序列下最大概率的环节序号序列,最终可以得到环节向量sec={sec1,sec2,...,secn}。
[0127]
句子的环节和主题划分后,本发明对rov向量、环节向量sec、主题向量top进行embedding,将其分别映射到d
rov
、d
sec
、d
top
维度,得到e
rov
、e
sec
、e
top
,然后将这所有句子的表征向量s与e
rov
、e
sec
、e
top
进行拼接得到全文的编码前的表征向量
[0128]
为了捕捉这些句子之间的关系,本发明将输入到transformer编码器进行编码,具体的过程与token-level编码器中的介绍类似,这里不再赘述,编码后的全文表征记作v,
[0129]
步骤4:decoder解码过程
[0130]
可选地,解码器部分同样由8个transformer解码块组成。在时间t时刻,解码器的输入包含t-1个之前生成的纪要token,每个token都由一个词向量表示,该向量使用与token-level编码器相同的嵌入矩阵。将标记解码开始的特殊token(《begin》)和之前时刻的解码输出输入到解码器中,通过masked multi-head self-attention来确定关注输入中的哪一部分更重要。在进行self-attention的时候使用下三角矩阵掩码来防止模型偷看未解码的token。
[0131]
此外,本发明分别对token-level的输出s和sentence-level的输出v进行了multi-head cross-attention操作,使模型在解码的时候关注不同尺度的输入信息。其中第一个cross-attention在self-attention之后的输出和token-level的输出s之间进行,计算过程如下式,其中w为待训练的权重矩阵。
[0132]
[0133]
第二个cross-attention在第一个cross-attention输出和sentence-level的输出v之间进行,计算过程如下式,其中w为待训练的权重矩阵。
[0134][0135]
记t时刻通过解码器得到的最后一个输出为通过全连接层(即图5中的linear)将输出映射到与词表相同的维度,然后再通过softmax函数得到输出在词表上的概率分布π
t
,计算公式如下式,其中w
l
为权重矩阵。
[0136][0137]
最终通过argmax函数得到第t时刻解码得到的token对应的符号w
t
,计算公式如下:
[0138]wt
=argmax(π
t
)
[0139]
通过不断将解码的结果,输入到下一时刻继续进行解码,直到得到结束标记,最后将所有解码的纪要token连接得到最终的课堂纪要文本。
[0140]
本模型使用交叉熵函数来作为损失函数,训练的过程通过不断减小loss来迭代计算,交叉熵函数的计算公式如下:
[0141][0142]
基于上述任一实施例,图6是本发明实施例提供的课堂纪要生成系统的架构图,如图6所示,该系统包括:
[0143]
音频获取模块610,用于获取课堂音频文件;
[0144]
语音识别模块620,用于对课堂音频文件进行语音识别和声纹识别,得到包含说话人信息和对应说话内容的课堂记录文本;
[0145]
纪要生成模块630,用于将课堂记录文本输入至课堂纪要生成模型,得到课堂纪要文本;
[0146]
其中,课堂纪要生成模型是基于样本课堂记录文本及对应的样本课堂纪要文本训练得到的;课堂纪要生成模型用于对课堂记录文本进行主题划分和环节划分,并基于划分得到的主题向量和环节向量对课堂记录文本进行编码,得到课堂记录文本的文本表征向量,对文本表征向量进行解码,得到课堂纪要文本。
[0147]
本发明实施例提供的系统,对课堂音频文件进行语音识别和声纹识别,得到课堂教学过程的课堂记录文本,再应用课堂纪要生成模型对课堂记录文本进行摘要提取,从而实现了课堂纪要文本的自动生成,极大地提升了纪要生成的效率,并且,课堂纪要生成模型采用主题和环节二者结合的混合视图对课堂教学过程中的结构性信息进行充分捕捉,并将捕捉的课堂结构性信息编码到句子向量,从而解决了传统深度学习模型对课堂对话的结构性信息利用不足的问题,提升了最终生成的课堂纪要文本的准确性、逻辑性和整体的连贯
性。
[0148]
可以理解的是,上述各个模块的详细功能实现可参见前述方法实施例中的介绍,在此不做赘述。
[0149]
另外,本发明实施例提供了一种课堂纪要生成系统,其包括:存储器和处理器;
[0150]
所述存储器,用于存储计算机程序;
[0151]
所述处理器,用于当执行所述计算机程序时,实现上述实施例中的方法。
[0152]
此外,本发明还提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现上述实施例中的方法。
[0153]
基于上述实施例中的方法,本发明实施例提供了一种计算机程序产品,当计算机程序产品在处理器上运行时,使得处理器执行上述实施例中的方法。
[0154]
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1