一种应用于课堂测评的语音识别方法及系统与流程

文档序号:40827669发布日期:2025-02-06 17:03阅读:196来源:国知局

本技术涉及课堂测评的,尤其是涉及一种应用于课堂测评的语音识别方法及系统。


背景技术:

1、在当前的智慧课堂环境中,为了提高语言教学的效果和效率,通过自动语音识别技术来评估学生的语言发音和语言表达能力。

2、但是,现有的语音识别模型在处理课堂环境中的语言评测时,往往只侧重于声学模型的优化,而忽视了语言模型对声学效果的影响。由于课堂环境的多变性、学生发音的多样性和语言表达的复杂性,单一的声学模型难以达到理想的评测效果。

3、此外,目前语音识别模型中融合声学模型和语言模型的方法有浅层融合、深层融合和冷融合,其中主流的融合方法是浅层融合,虽然在一定程度上提高了识别准确率,但其依赖于传统的n-gram统计模型,未能充分利用深度学习技术的潜力。在模型训练和融合过程中,由于缺乏针对课堂特定场景的优化策略和网络结构,导致语音识别模型在课堂评测语言时的性能仍有待提升,因此需要改进。


技术实现思路

1、为了更有效的使用冷融合对语音识别模型进行改进,本技术提供了一种应用于课堂测评的语音识别方法及系统。

2、本技术的发明目的一是通过以下技术方案实现的:

3、一种应用于课堂测评的语音识别方法,包括步骤:

4、当接收到教师终端发出的测评指令时,从测评指令中接收音频,提取音频特征;

5、输入音频特征至conformer语音识别模型,conformer语音识别模型包括conformer编码模块、解码模块;

6、音频特征在conformer编码模块中进行再次特征提取之后,基于解码模块中的transformer解码模块、解码模块中的改进transformer解码器的解码模块得到高层特征;

7、基于解码模块中的transformer解码模块的自注意力机制、解码模块中的改进transformer解码器的解码模块的交叉注意力机制,对高层特征进行解码,输出对应的识别结果。

8、本技术在一较佳实例中,所述输入音频特征至conformer语音识别模型,conformer语音识别模型包括conformer编码模块、解码模块。包括:

9、在所述conformer编码模块中,基于残差连接,从输入到输出的连接依次是第一前馈模块、多头自注意力模块、卷积模块、第二前馈模块、层范数模块;

10、所述多头自注意力模块采用的是残差连接、层归一化和位置编码的多头注意力的方式,所述位置编码的多头注意力采用的是相对位置的正弦编码方案;

11、所述卷积模块采用的是归一化、激活函数、逐点卷积和一维的深度分离卷积的方式;

12、所述第一前馈模块、第二前馈模块包括线性变换和swish激活函数。

13、本技术在一较佳实例中,所述输入音频特征至conformer语音识别模型,conformer语音识别模型包括conformer编码模块、解码模块。还包括:

14、所述解码模块包括transformer解码模块、改进transformer解码器的解码模块;

15、在所述transformer解码模块中,基于残差连接,从输入到输出的连接依次是输入序列模块、掩蔽多头注意力模块、第一添加标准模块、多头注意力模块、第二添加标准模块、前馈模块、第三添加标准模块、线性变换模块、softmax函数模块。

16、本技术在一较佳实例中,所述在所述transformer解码模块中,基于残差连接,从输入到输出的连接依次是输入序列模块、掩蔽多头注意力模块、第一添加标准模块、多头注意力模块、第二添加标准模块、前馈模块、第三添加标准模块、线性变换模块、softmax函数模块。包括:

17、所述transformer解码模块包括第一自注意力模块,第二自注意力模块所述改进transformer解码器的解码模块包括第三自注意力模块、交叉注意力模块;

18、在所述第一自注意力模块、第二自注意力模块、第三自注意力模块中,从输入到输出的连接依次是输入序列模块、自注意力语言模块、线性变换模块、softmax函数模块;

19、所述在自注意力语言模块中,从输入到输出的连接依次是掩蔽多头注意力模块、第四添加标准模块、前馈模块、第五添加标准模块;

20、给定输入序列后,所述第一自注意力模块、第二自注意力模块、第三自注意力模块将序列中经过嵌入并添加位置编码后的每个token送入到m个相同的自注意力语言模块中,与conformer编码模块的输出进行融合得到高层特征,经过线性变换和softmax函数之后输出所预测的序列。

21、本技术在一较佳实例中,所述给定输入序列后,所述第一自注意力模块、第二自注意力模块、第三自注意力模块将序列中经过嵌入并添加位置编码后的每个token送入到m个相同的自注意力语言模块中,与conformer编码模块的输出进行融合得到高层特征,经过线性变换和softmax函数之后输出所预测的序列。包括:

22、当输入序列只有5个token,qkt表示输入token所得到的注意力分数,所述qkt每一行表示第i个token与第i个token以外的全部token所得到的注意力分数;

23、在mask矩阵中,绿色数值为1表示不用来进行遮挡,黑色数值为0表示用来进行遮挡;

24、当所述mask矩阵和所述qkt进行按位相乘后得到mask qkt,所述mask qkt每一行都只包含对应token及所述对应token之前的信息,再经过softmax函数进行加权求和。

25、本技术在一较佳实例中,所述给定输入序列后,所述第一自注意力模块、第二自注意力模块、第三自注意力模块将序列中经过嵌入并添加位置编码后的每个token送入到m个相同的自注意力语言模块中,与conformer编码模块的输出进行融合得到高层特征,经过线性变换和softmax函数之后输出所预测的序列。还包括:

26、所述自注意力语言模块包括自注意力机制和神经网络;

27、在使用所述自注意力机制时,计算序列中每个元素与所有序列元素的权重,根据元素之间的权重对序列中每个元素进行加权求和;

28、sa:所述加权求和被分为如下4步:

29、sa1:对序列中每个元素分别计算查询向量、键向量和值向量:

30、给定输入序列向量x=[x1,x2,…,xn],权重矩阵wq,wk,wv,对于序列中的每个元素xi,需要将其分别与三个权重矩阵做线性变换得到每个元素最终的查询向量、键向量和值向量,即

31、qi=wqxi

32、ki=wkxi

33、vi=wvxi

34、qi,ki,vi分别表示第i个元素对应的查询向量、键向量和值向量;

35、sa2:每个查询向量分别对每个键向量做点积得到对应的注意力分数:

36、对于每个元素对应的查询向量qi和值向量kj,先对两者做点积得到注意力分数,此分数表示元素i对元素j的关注程度,然后再将注意力分数除以一个缩放因子,最终得到注意力分数:

37、

38、sa3:对每个元素得到的注意力分数使用softmax函数得到注意力权重:

39、在得到元素i与其它元素的注意力分数si=[si1,si2,…,sij…,sin]后,使用softmax函数来使注意力分数si转换为注意力权重,其中注意力权重为0到1之间的数并且和为1,表示元素i在n个元素范围内对每个元素的关注程度,即

40、wi=softmax(si)=[wi1,wi2,…,wij…,win]

41、sa4:将元素的注意力权重与每个元素对应的值向量进行加权求和:在得到元素i的注意力权重wi之后,将每个注意力权重分别与对应的值向量相乘,再将相乘过后的向量相加,即

42、

43、zi包括序列中每个元素的所需信息;

44、对于整个序列x,对应的自注意力计算方式为:

45、q=wqx

46、k=wkx

47、v=wvx

48、

49、本技术在一较佳实例中,所述给定输入序列后,所述第一自注意力模块、第二自注意力模块、第三自注意力模块将序列中经过嵌入并添加位置编码后的每个token送入到m个相同的自注意力语言模块中,与conformer编码模块的输出进行融合得到高层特征,经过线性变换和softmax函数之后输出所预测的序列。还包括:

50、基于公开文本数据集、语音模型冷融合的方式对第三自注意力模块进行训练;

51、给定解码器的输入token序列,经过第三自注意力模块后,进行一次信息提取,输出一个提取输入token序列重要信息的高层特征;

52、基于交叉注意力模块,将进行一次信息提取后的token序列与所述高层特征融合到一起,进行处理。

53、本技术在一较佳实例中,所述基于交叉注意力模块,将进行一次信息提取后的token序列与所述高层特征融合到一起,进行处理。包括:

54、将所述高层特征作为所述交叉注意力模块中交叉注意力查询向量的输入;

55、所述交叉注意力模块包括交叉注意力机制;

56、将进行一次信息提取后的token序列的输出作为键向量和值向量的输入,在经过n次交叉注意力机制等运算过后,输出下一个token序列的识别结果。

57、本技术的发明目的二是通过以下技术方案实现的:

58、一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种应用于课堂测评的语音识别方法的步骤。

59、本技术的发明目的三是通过以下技术方案实现的:

60、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述一种应用于课堂测评的语音识别方法的步骤。

61、综上所述,本技术包括以下至少一种有益技术效果:

62、1.基于transformer解码模块、改进transformer解码器的解码模块,首先将经过嵌入和位置编码处理后的token序列与conformer编码模块的输出进行深度融合,从而获得了富含上下文信息的高层特征。通过将得到的高层特征作为输入,transformer解码模块、改进transformer解码器的解码模块进一步进行了n-1次的迭代处理。每次迭代都是对特征的一次细化,使得模型能够在不断的信息传递和交互中,逐步精炼对序列的理解。在经过n-1次迭代后,最终的输出特征通过线性变换和softmax函数的处理,转化为了下一时间步token的概率分布。这一步骤是解码过程的关键,它使得模型能够预测出在给定上下文情况下,最有可能出现的下一个token。

63、2.高层特征被巧妙地用作交叉注意力模块中交叉注意力查询向量的输入,这一设计显著提升了改进transformer解码器的解码模块在处理序列数据时的信息提取和整合能力。交叉注意力模块的核心是交叉注意力机制,它能够有效地将来自不同源的特征进行交互和融合,从而挖掘出更深层次的语义信息。

64、具体来说,改进transformer解码器的解码模块首先将经过一次信息提取后的token序列输出作为交叉注意力模块中的键向量和值向量的输入。这一步骤确保了改进transformer解码器的解码模块在后续的处理中能够充分利用已经提取的序列信息,为查询向量提供丰富的上下文背景。通过这种方式,交叉注意力模块能够更加精准地定位和关注序列中的关键元素,从而提高识别的准确性。

65、随后,改进transformer解码器的解码模块通过n次交叉注意力机制的迭代运算,对序列中的信息进行了深入的挖掘和提炼。每次迭代都是对序列特征的一次细致加工,使得模型能够在不断的注意力加权过程中,逐步优化对序列中每个token的理解。这种递归式的处理方式,不仅增强了模型对序列全局结构的把握,还提高了对局部细节的识别能力。

66、最终,在经过n次交叉注意力机制等复杂运算之后,改进transformer解码器的解码模块输出下一个token序列的识别结果。这一结果是基于对所有相关信息的综合考量,包括序列的历史信息、当前token的上下文信息以及通过交叉注意力机制融合进来的外部信息。因此,这种识别结果具有高度的可信度和准确性,为语音识别等序列处理任务提供了强有力的支持。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1