本发明属于教育大模型评测技术和口语评测,尤其涉及一种面向口语练习场景的教育大模型评测方法。
背景技术:
1、口语练习是指通过对话、模仿、角色扮演等方式,提高个人语言口头表达能力的活动,它在语言学习中扮演着重要角色。随着大规模语言模型在语音识别和语音生成方面的能力不断提高,它们逐渐应用于用户与系统之间的口语对话交互,衍生出了一系列口语练习场景下的人工智能产品,这些产品不仅能够理解用户的语音输入,还能生成自然、流畅的口语回答,从而帮助用户学习外语,提升口语能力。目前,面向中小学生的口语练习产品众多,如何评估它们回答的质量成为一个需要考虑的问题。然而,相关技术方案主要有以下不足之处:
2、1.评测角度不适用:现有的口语评测方法多集中在针对用户提供发音反馈,大部分评估的是人的发音准确性、流利度,但并不适用于评测大模型的回答,针对大模型产品生成内容的评测方法依然有空缺。
3、2.评测维度较单一:目前的口语评测方法主要评估语音生成质量,例如基于隐马尔可夫模型(hidden markov model,hmm)的gop(goodness of pronunciation)方法主要评价的是发音准确性,而口语练习是通过用户与大模型产品的对话完成的,更注重与用户的交互性。大多数产品和方法只关注发音的准确度、流利度,而忽视了模型是否很好地回答了问题、语法运用是否准确、内容是否丰富等。评测维度较单一,导致现有评测系统往往不能全面反映大模型在实际口语对话中的表现,因此依然缺乏一种更全面的大模型口语评测方法。
4、3.主观因素影响大:用来评估合成语音或口语发音的自然程度的mos(meanopinion score)方法,是一种基于人工的主观评价方法,可以用于评测模型生成的语音听起来是否接近真人发音。但是这种方法依赖于人的主观感受,直接反映人对语音自然度的主观感受,受评价者个体差异和主观因素的影响较大,结果会在一定程度的主观性和不确定性。
5、4.人力成本高:现有的方法评估发音的自然程度、内容是否切题等主观评价都需要人工参与,参与者需要花费时间试听和评分,这在大规模语音库的质量评估中效率低下,同时,主观评价需要严格的操作流程和标准化的测试指导,以减少操作误差的影响,这也增加了人工成本和复杂性。
技术实现思路
1、为解决上述技术问题,本发明提出了一种面向口语练习场景的教育大模型评测方法,以解决上述现有技术存在的问题。
2、为实现上述目的,本发明提供了一种面向口语练习场景的教育大模型评测方法,包括:
3、获取语音数据和对应的标准文本,通过语音数据与测试模型进行交互,获取测试模型提供的识别文本、音频数据和回答文本;
4、将标准文本与识别文本进行比对评测,得到语音识别准确性;
5、基于多模态特征融合对音频数据进行发音准确性、流利度和韵律评测,得到音频评分;
6、基于动态惩罚机制和构建的prompt大模型对回答文本进行语法准确性评测,基于构建的prompt大模型对回答文本进行切题度评测,得到回答文本评分;
7、对语音识别准确性、音频评分和回答文本评分进行综合汇总,得到最终评测结果。
8、可选的,将标准文本与识别文本进行比对评测的过程包括:
9、对识别文本和标准文本进行误差评估,得到词错误率、字符错误率和单词信息丢失率;通过动态加权对词错误率、字符错误率和单词信息丢失率进行平均综合,得到语音识别准确性:
10、accuracy=wwer*max(0,1-wer)+wcer*max(0,1-cer)+wwil*max(0,1-wil)
11、其中,accuracy表示语音识别准确性,wwer是词错误率wer的权重,wcer是字符错误率cer的权重,wwil是单词信息丢失率wil的权重;
12、其中,动态加权中的权重根据评测需求进行调整。
13、可选的,通过multipa模型对音频数据进行测评,其中multipa模型的数据处理流程包括:
14、通过hubert对音频数据进行特征提取,得到帧级特征;
15、通过asr模型对音频数据进行转录,其中,asr模型进行转录时whisper base.en提供识别转录文本,whisper medium.en在推理阶段生成替代的目标转录文本,得到文本特征;
16、通过charsiu模型对识别转录文本、目标转录文本和音频数据进行对齐处理,得到对齐信息,对齐信息包括单词级对齐特征、音素级对齐特征和音素向量;
17、通过roberta模型对目标转录文本和识别转录文本进行语义嵌入的提取,得到对应的嵌入向量,并拼接为单词级语义嵌入;
18、根据对齐信息将帧级特征通过平均池化处理,得到单词级特征;对单词级特征进行聚合得到句子级特征;
19、根据对齐信息对音素特征与单词级特征进行对齐和融合,得到音素级特征;
20、将音频特征、文本特征、单词级语义嵌入和经过多粒度对齐后的特征通过transformer编码器进行融合,通过不同头数的transformer编码器分别处理不同类型的特征,实现深度融合,并将融合结果进行拼接,得到最终统一的特征表示,通过线性层对最终统一的特征表示进行处理,得到句子级的发音准确性、流利度和韵律结果,其中经过多粒度对齐后的特征包括单词级特征、句子级特征和音素级特征。
21、可选的,对音频数据进行发音准确性评测的过程包括;
22、通过charsiu模型对音频数据和识别转录文本进行音素级对齐,得到第一对齐特征,第一对齐特征包括目标音素与识别音素的时间占比、音素与相邻音素之间的时间间隔、目标音素与识别音素的时间对齐误差和目标音素与识别音素的匹配概率——对齐概率;
23、通过levenshtein距离计算目标音素序列与识别音素序列的匹配程度,得到因素准确率即发音准确性得分。
24、可选的,对音频数据进行流利度评测过程包括:
25、获取对齐特征中的单词时长和间隔特征,根据单词时长和间隔特征计算得到语音的流利性得分;根据间隔特征,得到停顿分析结果;通过目标转录文本和识别转录文本嵌入分析识别句法和语义连贯性,对目标转录文本和识别转录文本的句法和语义连贯性进行对比评估,得到语义一致性得分,对流利性得分、停顿分析结果和语义一致性得分,通过线性回归层得到流利度得分。
26、可选的,对音频数据进行韵律评测的过程包括:
27、通过hubert提取音频数据的基频特征,并根据基频特征获取能量水平和对齐程度,根据对齐程度计算节奏评分,根据基频特征、能量水平和节奏评分,分析基频的变化是否符合语言的语调规律,通过线性回归层得到韵律得分。
28、可选的,节奏评分过程为:
29、
30、其中,rmse为节奏的均方根误差,max timing difference为对齐的最大时间误差。
31、可选的,对回答文本进行语法准确性评测的过程包括:
32、通过构建的prompt大模型对回答文本进行语法检查并进行统计,得到语法错误数量和类型,根据得到语法错误数量和类型计算语法准确性得分:
33、accuracy=max(0,(1-error_count/word_count)*length_penalty)
34、其中,error_count为语法错误数量,word_count为总词数,length_penalty为长度惩罚系数,长度惩罚系数根据回答文本的句子长度进行调整。
35、可选的,对回答文本进行切题度评测的过程包括:
36、通过构建的prompt大模型对回答文本根据设计规则进行评分,得到切题度得分。
37、可选的,通过平均综合或加权计算的方式对语音识别准确性、音频评分和回答文本评分进行综合汇总。
38、与现有技术相比,本发明具有如下优点和技术效果:
39、本发明提出的评测方法相较于现有技术,在经过实验测试后,展现出了一系列显著且有益的效果。
40、1.减少人工成本和提高效率
41、本发明通过自动化的口语评测技术,显著减少了对人工评测的依赖,降低了人力成本。multipa模型结合了自监督学习、多任务评估和深度学习技术,与传统的方法相比,不需要大量的人工参与,从而提高了评测的效率和可扩展性。
42、2.多维度全面评测
43、本发明提出了一种更全面的口语练习大模型产品的评测方法,不仅评估发音准确性、流利度和韵律,还涵盖了语法运用、内容切题度等多个维度。这一方法能够全面反映大模型在实际口语对话中的表现,填补了现有技术中对大模型生成内容评测方法的空缺。同时,提出的口语练习大模型评测方法减少了主观因素的干扰,提供了更为客观和精确的评测结果,使得评测结果更加安全可信。
44、3.直观对比评测结果
45、本发明的评测结果直观易懂,能够清晰地展示口语练习产品在各个方面的表现,包括发音、语法、内容等,便于用户理解和使用。并且能够生成清晰、量化的评测报告,增强了评测结果的直观性和可比性,使得用户和开发者能够一目了然地识别出各个口语练习产品的优势和不足。这种对比提供了一个全面的视角,帮助用户根据具体的学习需求和目标,选择最合适的口语练习产品,从而实现个性化和高效的语言学习。本发明也为智能教育领域中的口语练习产品提供了有效的评估工具,为教育大模型口语练习评测技术的进一步发展和应用提供了有力支持。