语音测评方法、装置、计算机设备和存储介质与流程

文档序号：27840051发布日期：2021-12-08 01:09阅读：178来源：国知局

1.本技术涉及计算机技术领域，特别是涉及一种语音测评方法、装置、计算机设备和存储介质。

背景技术：

2.目前，一些语言教学类应用程序能够对用户的口语发音进行评测，以帮助用户提高口语发音。语音测评一般分为两个步骤：1、将待测评语音进行短时傅里叶变换，进而转换为相应的语谱图，然后基于音频的工程特性，从语谱图提取gop(goodness of pronunciation，发音置信度参数)2、将提取得到的gop输入至评测模块，得到对应的语音测评分数。
3.然而，由于gop是对发音置信度的近似计算，因此gop的计算复杂，往往需要经过复杂的计算步骤才能确定待测评语音的gop，从而导致基于gop所确定的语音测评分数的效率低。

技术实现要素：

4.基于此，有必要针对上述技术问题，提供一种能够提升语音测评效率的语音测评方法、装置、计算机设备和存储介质。
5.一种语音测评方法，所述方法包括：
6.获取待测评语音，并对所述待测评语音进行语音处理，得到时间对齐结果和所述待测评语音的音频特征；
7.根据所述时间对齐结果和所述音频特征，确定与所述待测评语音对应的多个音素单元各自对应的目标音素特征；
8.获取每个音素单元分别对应的发音特征，并将所述发音特征与相应的目标音素特征进行第一融合处理，得到每个音素单元各自对应的融合特征；
9.确定所述待测评语音中每个整句所包括的语音音素，基于各整句各自包括的语音音素所属音素单元的融合特征进行第二融合处理，得到每个所述整句各自对应的语句特征；
10.根据所述语句特征确定所述待测评语音的测评分值。
11.一种语音测评装置，所述装置包括：
12.音素特征确定模块，用于获取待测评语音，并对所述待测评语音进行语音处理，得到时间对齐结果和所述待测评语音的音频特征；根据所述时间对齐结果和所述音频特征，确定与所述待测评语音对应的多个音素单元各自对应的目标音素特征；
13.语句特征确定模块，用于获取每个音素单元分别对应的发音特征，并将所述发音特征与相应的目标音素特征进行第一融合处理，得到每个音素单元各自对应的融合特征；确定所述待测评语音中每个整句所包括的语音音素，基于各整句各自包括的语音音素所属音素单元的融合特征进行第二融合处理，得到每个所述整句各自对应的语句特征；
14.分值确定模块，用于根据所述语句特征确定所述待测评语音的测评分值。
15.在一个实施例中，所述音素特征确定模块还包括对齐结果确定模块，用于根据预设帧长对所述待测评语音进行分帧处理，得到对应的音频帧序列；提取所述音频帧序列中每个音频帧各自对应的音频特征，并通过预设的音素识别算法识别所述音频帧序列所包括的每个语音音素各自对应的起止时间。
16.在一个实施例中，所述音素特征确定模块还包括目标特征确定模块，用于根据每个所述语音音素的起止时间、所述预设帧长、及各音频帧在所述音频帧序列中的排列顺序，确定所述待测评语音中每个语音音素各自对应的音频帧；根据所述待测评语音中每个语音音素各自对应的音频帧、和每个所述音频帧的音频特征，得到每个所述语音音素各自对应的初始音素特征；基于属于相同音素单元的各语音音素的初始音素特征，确定与所述待测评语音对应的多个音素单元各自对应的目标音素特征。
17.在一个实施例中，所述目标特征确定模块还用于确定所述待测评语音所包括的不重复的音素单元，并确定每个所述不重复音素单元各自对应的至少一个初始音素特征；对于多个不重复音素单元中的每个音素单元，均对所述音素单元所对应的至少一个初始音素特征进行第三融合处理，得到相应音素单元的目标音素特征。
18.在一个实施例中，所述语句特征确定模块还包括语句特征确定模块，用于获取与所述待测评语音对应的参考文本；根据所述参考文本，确定所述待测评语音所包括的至少一个整句，以及每个所述整句各自包括的分词；根据分词与语音音素之间的映射关系，确定所述待测评语音中每个整句各自包括的语音音素。
19.在一个实施例中，所述语句特征确定模块还用于对于至少一个整句中的每个整句，均根据所述分词与语音音素之间的映射关系确定当前整句中的每个分词各自包括的语音音素；对于所述当前整句所包括的至少一个分词中的每个分词，均对当前分词所包括的至少一个语音音素所属音素单元的融合特征进行音素融合处理，得到所述当前分词的分词特征；对所述当前整句所包括的各分词的分词特征进行分词融合处理，得到所述当前整句的语句特征。
20.在一个实施例中，所述语句特征确定模块还用于根据当前整句所包括的分词数量和所述分词特征的特征维度，确定所述当前整句中每个分词各自对应的自注意力权重；根据所述当前整句中每个分词各自对应的自注意力权重，对所述当前整句中每个分词各自对应的分词特征进行加权求和处理，得到所述整句的语句特征。
21.在一个实施例中，所述语音测评还包括训练模块，用于获取第一样本语音、第二样本语音、以及对所述第一样本语音进行语音测评而得的第一标准分值；通过所述第一样本语音和所述第一标准分值对发音评分模型进行第一训练，直至达到第一训练停止条件时停止，得到训练完成的发音评分模型；其中，所述发音评分模型为基于发音置信度进行语音测评的机器学习模型；通过所述发音评分模型对所述第二样本语音进行语音测评处理，得到所述第二样本语音的第一预测分值；通过所述第二样本语音和所述第一预测分值，对待训练的语音测评模型进行第二训练，直至达到第二训练停止条件时停止，得到训练完成的语音测评模型。
22.在一个实施例中，所述语音测评模型包括声学结构，训练模块还用于获取语音识别模型、第三样本语音、和与所述第三样本语音对应的样本文本；通过所述语音识别模型对
所述第三样本语音进行语音识别处理，得到所述第三样本语音的预测文本；根据所述预测文本以及与所述第三样本语音对应的样本文本，构建所述语音识别模型的第一损失函数，并通过所述第一损失函数对所述语音识别模型进行第三训练，直至达到第三训练停止条件时停止；将停止训练所得到的语音识别模型中的声学结构，作为所述语音测评模型中的声学结构。
23.在一个实施例中，所述语音测评模型包括声学结构和评分结构，所述训练模块还用于通过所述声学结构对所述第二样本语音进行语音处理，得到预测对齐结果和所述第二样本语音的预测音频特征；通过所述评分结构，并根据所述预测对齐结果和所述预测音频特征，确定与所述第二样本语音对应的多个音素单元各自对应的预测音素特征；通过所述评分结构，获取每个音素分别对应的预测发音特征，并将所述预测发音特征与相应的预测音素特征进行第四融合处理，得到每个音素单元各自对应的预测融合特征；通过所述评分结构，确定所述第二样本语音中每个整句所包括的语音音素，基于各整句各自包括的语音音素所属音素单元的预测融合特征进行第五融合处理，得到每个所述整句各自对应的预测语句特征；通过所述评分结构，并根据所述预测语句特征确定所述第二样本语音的第二预测分值；根据所述第一预测分值和所述第二预测分值，构建第二损失函数，并通过所述第二损失函数对所述语音测评模型进行第二训练，直至达到第二训练停止条件时停止，得到训练完成的语音测评模型。
24.在一个实施例中，所述训练模块还用于获取与目标任务相对应的第四样本语音、以及对所述第四样本语音进行语音测评而得的第二标准分值；通过所述第四样本语音和所述第二标准分值，对训练完成的语音测评模型进行优化训练，得到优化训练后的、且适合执行目标任务的语音测评模型。
25.在一个实施例中，所述语音测评模块还用于显示参考文本；响应于针对所述参考文本所触发的跟读操作，触发语音采集，获得对所述参考文本进行跟读所获得的待测评语音；展示所述待测评语音的测评分值。
26.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：
27.获取待测评语音，并对所述待测评语音进行语音处理，得到时间对齐结果和所述待测评语音的音频特征；
28.根据所述时间对齐结果和所述音频特征，确定与所述待测评语音对应的多个音素单元各自对应的目标音素特征；
29.获取每个音素单元分别对应的发音特征，并将所述发音特征与相应的目标音素特征进行第一融合处理，得到每个音素单元各自对应的融合特征；
30.确定所述待测评语音中每个整句所包括的语音音素，基于各整句各自包括的语音音素所属音素单元的融合特征进行第二融合处理，得到每个所述整句各自对应的语句特征；
31.根据所述语句特征确定所述待测评语音的测评分值。
32.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：
33.获取待测评语音，并对所述待测评语音进行语音处理，得到时间对齐结果和所述
待测评语音的音频特征；
34.根据所述时间对齐结果和所述音频特征，确定与所述待测评语音对应的多个音素单元各自对应的目标音素特征；
35.获取每个音素单元分别对应的发音特征，并将所述发音特征与相应的目标音素特征进行第一融合处理，得到每个音素单元各自对应的融合特征；
36.确定所述待测评语音中每个整句所包括的语音音素，基于各整句各自包括的语音音素所属音素单元的融合特征进行第二融合处理，得到每个所述整句各自对应的语句特征；
37.根据所述语句特征确定所述待测评语音的测评分值。
38.一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上以下步骤：获取待测评语音，并对所述待测评语音进行语音处理，得到时间对齐结果和所述待测评语音的音频特征；根据所述时间对齐结果和所述音频特征，确定与所述待测评语音对应的多个音素单元各自对应的目标音素特征；获取每个音素单元分别对应的发音特征，并将所述发音特征与相应的目标音素特征进行第一融合处理，得到每个音素单元各自对应的融合特征；确定所述待测评语音中每个整句所包括的语音音素，基于各整句各自包括的语音音素所属音素单元的融合特征进行第二融合处理，得到每个所述整句各自对应的语句特征；根据所述语句特征确定所述待测评语音的测评分值。
39.上述语音测评方法、装置、计算机设备、存储介质和计算机程序，通过获取待测评语音，可对待测评语音进行语音处理，得到时间对齐结果和音频特征。通过获取时间对齐结果和音频特征，可基于时间对齐结果和音频特征确定目标音素特征。通过确定目标音素特征以及获取发音特征，可将发音特征与相应的目标音素特征进行第一融合处理，得到每个音素单元各自对应的融合特征，从而可基于融合特征进一步区分每个音素单元之间的不同之处。通过获取融合特征，可基于融合特征进行第二融合处理，得到待测评语音中整句的语句特征，如此，便可基于语句特征确定待测评语音的测评分值。相比于传统的需要基于发音置信度确定测评分值，本技术利用迁移学习，将语音识别模型中的声学特征迁移至语音评测领域，进行语音评测，从而避免了复杂的发音置信度的特征计算，仅需确定语句特征即可得到测评分值，从而在保障语音测评效果的前提下，提升了测评分值的测评效率。
附图说明
40.图1为一个实施例中语音测评方法的应用环境图；
41.图2为一个实施例中语音测评方法的流程示意图；
42.图3为一个实施例中跟读页面的页面示意图；
43.图4为一个实施例中测评分值的确定示意图；
44.图5为一个实施例中模型训练步骤的流程示意图；
45.图6为一个实施例中语音测评的整体流程示意图；
46.图7为一个实施例中测评分值的展示示意图；
47.图8为一个实施例中基于语音测评模型输出测评分值的示意图；
48.图9为一个具体实施例中语音测评方法的流程示意图；
49.图10为另一个具体实施例中语音测评方法的流程示意图；
50.图11为一个实施例中语音测评装置的结构框图；
51.图12为一个实施例中计算机设备的内部结构图。
具体实施方式
52.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
53.图1为一个实施例中描述语音测评方法的应用环境图。参照图1，该语音测评方法应用于语音测评系统100。该语音测评系统100包括终端102和服务器104。终端102和服务器104通过网络连接。终端102具体可以是台式终端或移动终端，终端102包括但不限于是手机、平板电脑、笔记本电脑、智能语音交互设备、智能家电、车载终端等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端102和服务器104均可单独用于执行本技术实施例中提供的语音测评方法。终端102和服务器104也可协同用于执行本技术实施例中提供的语音测评方法。以终端102和服务器104可协同用于执行本技术实施例中提供的语音测评方法为例进行说明，终端102
‑
1可展示有参考文本，从而终端102
‑
1采集用户跟读参考文本而产生的跟读语音，得到待测评语音，并将待测评语音发送至服务器104，以使服务器104通过语音测评模型对待测评语音进行语音测评，得到测评分值，并将测评分值返回至终端102
‑
2，通过终端102
‑
2展示测评分值。其中，终端102
‑
1与终端102
‑
2可为同一终端，也可为不同终端。
54.还需要说明的是，本技术涉及人工智能(artificial intelligence,ai)技术领域，其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
55.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
56.本技术具体涉及人工智能领域中的语音技术(speech technology)和机器学习(machine learning,ml)。其中，语音技术的关键技术有自动语音识别技术(asr)和语音合成技术(tts)及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。机器学习(machine learning,ml)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经
网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
57.容易理解，本技术还涉及区块链技术，可通过区块链存储目标音素特征、测评分值等。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
58.应该理解的是，本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。除非上下文另外清楚地指出，否则单数形式“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。
59.在一个实施例中，如图2所示，提供了一种语音测评方法，以该方法应用于计算机设备来举例说明，该计算机设备可以是上述图1中的终端102或服务器104。参照图2，该语音测评方法具体包括如下步骤：
60.步骤s202，获取待测评语音，并对待测评语音进行语音处理，得到时间对齐结果和待测评语音的音频特征。
61.其中，时间对齐结果包括音素对齐结果和分词对齐结果，其中，音素对齐结果指的是语音音素的起止时间，分词对齐结果指的是分词的起止时间。语音音素是根据语音的自然属性划分出来的最小语音单位，当依据音节的发音动作来分析时，一个动作即构成一个语音音素，如“ma”包含“m”和“a”两个发音动作，即包含两个语音音素。分词是组成语句文章的最小组词结构的形式单元，比如词语或单词等。
62.具体地，计算机设备中运行有目标应用程序的客户端，客户端中可显示有跟读内容。当确定用户触发跟读操作时，客户端可采集用户对跟读内容进行跟读所产生的语音，并将采集得到的语音作为待测评语音，将所展示的跟读内容作为与待测评语音对应的参考文本。其中，触发操作可以是任意的操作，可以是触摸操作、语音操作、通过输入设备例如鼠标进行操作或者手势操作中的至少一个，例如可以为点击操作、双击操作、长按操作、左滑操作或右滑操作中的任意一种，这里不做过多限制。
63.计算机设备将采集得到的待测评语音进行分帧处理，得到音频帧序列，并将音频帧序列输入至语音测评模型中的声学结构，通过声学结构输出时间对齐结果，以及确定音频帧序列中每个音频帧各自对应的音频特征。其中，语音测评模型指的是预训练的机器学习模型，其包括声学结构和评分结构。声学结构用于确定时间对齐结果和音频特征，评分结构用于根据时间对齐结果和音频特征，输出测评分值。
64.在一个实施例中，声学结构可通过时间对齐算法或者时间对齐工具确定待测评语音的时间对齐结果。其中，时间对齐算法具体可为维特比算法，时间对齐工具可为peech
‑
aligner工具。其中，peech
‑
aligner工具是一个从“人声语音”及其“语言文本”，产生音素级别时间对齐标注的工具。
65.声学结构可通过维特比算法识别待测评语音所包括的语音音素，并确定识别出的各语音音素的起止时间。声学结构获取与待测评语音相对应的参考文本，基于参考文本，确定待测评语音所包括的分词。其中，参考文本指的是触发跟读操作时，客户端展示的跟读内容。容易理解地，参考文本可以是一个或者多个词，也可以是一个或多个句子。以英语为例，
参考文本可以是单词、词组、句子或者段落等。以汉语为例，参考文本可以是字、词语、句子或段落等。
66.进一步地，声学结构获取分词与语音音素之间的映射关系，并根据分词与语音音素之间的对应关系、以及待测评语音所包括的分词，确定待测评语音中各分词各自包括的音素，根据语音音素的起止时间，确定待测评语音中各分词的起止时间。声学结构综合各音素的起止时间和各分词的起止时间，得到时间对齐结果。
67.在一个实施例中，声学结构可通过时间对齐算法识别待测评语音所包括的语音音素，得到音素序列，并确定识别出音素序列中的各语音音素的起止时间。声学结构通过时间对齐算法确定音素序列中的一个或多个相邻音素构成相应分词的概率，并根据构成分词的概率，确定音素序列所能构成的至少一个分词，以及根据构成分词的语音音素的起止时间，确定相应分词的起止时间。
68.在一个实施例中，可将语音识别模型中的声学结构作为语音测评模型中的声学结构。其中，语音识别模型又可称作asr模型(automatic speech recognition,自动语音识别)，通过语音识别模型可将音频转换为文本。语音识别模型可包括声学结构和语言结构，计算机设备可将语音识别模型中的声学结构作为语音测评模型中的声学结构。
69.在一个实施例中，在对待测评语音进行音素识别之前，还可对待测评语音进行语音活动检测(voice activity detection，vad)、回声消除、混响消除或声源定位等预处理，以去除待测评语音中的背景干扰。
70.在一个实施例中，参考图3，目标应用程序具体可以为口语测评应用，终端中运行有口语测评应用的客户端，基于此客户端可以对应展示如图3所示的包含有参考文本302的跟读页面。当确定用户点击“开始朗读”控件时，用户终端实时采集用户对参考文本进行跟读时的语音，直至确定用户点击“结束朗读”控件，并将在开始朗读至结束朗读之间所采集的语音作为待测评语音。图3示出了一个实施例中跟读页面的页面示意图。
71.步骤s204，根据时间对齐结果和音频特征，确定与待测评语音对应的多个音素单元各自对应的目标音素特征。
72.其中，音素单元指的是待测评语音中不重复的语音音素，例如，“ma
‑
mi”中包括“m”、“a”、“m”、“i”四个语音音素，和“m”、“a”、“i”三个音素单元。
73.具体地，一般来说，音频帧内的语音信号应该是平稳的，而口型的变化是导致信号不平稳的原因，因此，在一个音频帧的期间内口型不应有明显的变化，也即一个音频帧的帧长应小于一个语音音素的长度，所以一个语音音素一般对应于多个音频帧。例如，在待测评语音中首个语音音素的持续时间为200毫秒，音频帧的帧长为50毫秒时，音频帧序列中第1至第4个音频帧对应首个语音音素。
74.当获取得到时间对齐结果和每个音频帧各自对应的音频特征时，计算机设备可将时间对齐结果和音频特征作为语音测评模型中评分结构的输入，通过评分结构，并基于时间对齐结果，确定待测评语音中每个语音音素各自对应的音频帧，例如，确定音频帧序列中第1至第4个音频帧对应于待测评语音中的首个语音音素，确定音频帧序列中第5至第6个音频帧对应于待测评语音中的第二个语音音素。
75.进一步地，评分结构根据每个音频帧各自对应的音频特征、以及待测评语音中每个语音音素各自对应的音频帧，确定待测评语音中每个语音音素各自对应的初始音素特
征，例如，对于多个语音音素中的每个语音音素，评分结构均将当前语音音素所对应的至少一个音频帧的音频特征进行求和运算，得到当前语音音素的初始音素特征，并根据每个语音音素各自对应的初始音素特征，确定待测评语音中不重复的每个语音音素各自对应的目标音素特征，即确定待测评语音对应的每个音素单元各自对应的目标音素特征。
76.在一个实施例中，根据时间对齐结果和音频特征，确定与待测评语音对应的多个音素单元各自对应的目标音素特征，包括：根据每个语音音素的起止时间、预设帧长、及各音频帧在音频帧序列中的排列顺序，确定待测评语音中每个语音音素各自对应的音频帧；根据待测评语音中每个语音音素各自对应的音频帧、和每个音频帧的音频特征，得到每个语音音素各自对应的初始音素特征；基于属于相同音素单元的各语音音素的初始音素特征，确定与待测评语音对应的多个音素单元各自对应的目标音素特征。
77.具体地，当获取得到时间对齐结果时，评分结构可根据时间对齐结果确定待测评语音中每个语音音素的起止时间，并根据预设帧长和各音频帧在音频帧序列中的排列顺序，确定待测评语音中每个语音音素各自对应的音频帧。进一步地，评分结构根据每个音频帧各自对应的音频特征和每个语音音素各自对应的音频帧，确定每个语音音素各自对应的至少一个音频特征。对于多个语音音素中的每个语音音素，评分结构均综合当前语音音素所对应的至少一个音频特征，得到当前语音音素的初始音素特征。例如，在音频帧序列中第1至第4个音频帧对应于待测评语音中的首个语音音素，即可认为第1至第4个音频帧的音频特征也对应于首个语音音素，此时评分结构综合第1至第4个音频帧的音频特征，得到首个语音音素的初始音素特征。
78.由于当同一语音音素位于待测评语音中的不同位置时，会对应于不同的初始音素特征。例如，当待测评语音中的首个分词和末尾分词均包含有a语音音素时，由于首个分词的上下文与末尾分词的上下文不同，因此，首个分词中的a语音音素的初始音素特征与末尾分词中的a语音音素的初始音素特征并不相同。
79.进一步地，评分结构确定待测评语音中的不重复的语音音素，也即确定与待测评语音对应的语音单元，并根据每个语音音素各自对应的初始音素特征，确定每个语音单元各自对应的目标音素特征。例如，评分结构将首个分词中的a语音音素的初始音素特征与末尾分词中的a语音音素的初始音素特征，进行加权求平均运算，得到a音素单元的目标音素特征。
80.本实施例中，通过确定每个音频帧各自对应的音频特征，可基于音频特征确定每个语音音素各自对应的初始音素特征，通过确定每个语音音素各自对应的初始音素特征，可基于初始音素特征确定每个音素单元的目标音素特征，如此，后续便可基于目标音素特征确定测评得分。
81.步骤s206，获取每个音素单元分别对应的发音特征，并将发音特征与相应的目标音素特征进行第一融合处理，得到每个音素单元各自对应的融合特征。
82.具体地，为了对音素单元进行进一步的区分，评分结构可初始化每个音素单元分别对应的发音特征，并将发音特征与相应的目标音素特征进行第一融合处理，得到每个音素单元各自对应的融合特征。其中，评分结构可随机初始化每个音素单元分别对应的发音特征，也可根据预设的特征初始化规则生成每个音素单元分别对应的发音特征，本实施例在此不作限定。
83.在一个实施例中，对于多个目标音素特征中的每个目标音素特征，评分结构均将当前目标音素特征与相应发音特征进行叠加，得到融合特征。
84.步骤s208，确定待测评语音中每个整句所包括的语音音素，基于各整句各自包括的语音音素所属音素单元的融合特征进行第二融合处理，得到每个整句各自对应的语句特征。
85.具体地，待测评语音可为对一句或者多句语句进行跟读而得的语音，当获取得到待测评语音时，评分结构可确定待测评语音所包括的整句，以及确定各整句各自包括的语音音素。对于多个整句中的每个整句，评分结构均确定当前整句所包括的分词，并确定每个分词各自包括的语音音素，从而得到当前整句所包括的语音音素。进一步地，评分结构基于各整句各自包括的语音音素所属音素单元的融合特征进行第二融合处理，得到每个整句各自对应的语句特征。
86.在一个实施例中，由于整句与整句之间存在一段时间的静音，因此，评分结构可对待测评语音进行静音检测，识别待测评语音中的静音片段，并根据静音片段，对待测评与语音进行分段处理，以确定待测评语音所包括的整句，以及确定各整句各自对应的起止时间。进一步地，评分结构根据各整句各自对应的起止时间、以及时间对齐结果中的各音素的起止时间，确定各整句各自包括的音素。
87.在一个实施例中，当确定各整句各自包括的音素时，对于多个整句中的每个整句，评分结构均对当前整句所包括的语音音素所属音素单元的融合特征进行加权求和运算，得到当前整句所对应的语句特征。
88.在一个实施例中，确定待测评语音中每个整句所包括的语音音素，包括：获取与待测评语音对应的参考文本；根据参考文本，确定待测评语音所包括的至少一个整句，以及每个整句各自包括的分词；根据分词与语音音素之间的映射关系，确定待测评语音中每个整句各自包括的语音音素。
89.具体地，评分结构可获取与待测评语音对应的参考文本，并对参考文本进行文字识别，以确定参考文本所包括的语句，以及确定各语句各自包括的分词。评分结构获取分词与音素之间的映射关系，根据分词与音素之间的映射关系、以及各语句各自包括的分词，确定各语句各自包括的音素，并根据各语句各自包括的音素，确定待测评语音中每个整句各自包括的音素。例如，当确定参考文本包括语句1和语句2，其中，语句1包括音素1和音素2，语句2包括音素3和音素4时，由于待测评语音是对参考文本进行跟读而得的语音，因此，可将参考文本中各语句各自包括的音素，作为待测评语音中各整句各自包括的音素，也即确定待测评语音也包括语句1和语句2，其中语句1包括音素1和音素2，语句2包括音素3和音素4。
90.本实施例中，通过获取参考文本，可基于参考文本快速确定待测评语音中每个整句所包括的音素。
91.步骤s210，根据语句特征确定待测评语音的测评分值
92.其中，测评分值指的是用于指示待测评语音的跟读质量的分数。该测评分值可以采用分数表示，如百分制、十分制或五分制等，分数越高表示跟读质量越高。测评分值也可以采用星级表示，如总共五颗星，获得星星的数量越多表示跟读质量越高。当然，该评分还可以采用其它方式，本发明实施例对此不作限定。
93.具体地，当获取得到每个整句各自对应的语句特征时，评分结构可对语句特征进行非线性变换，得到与语句特征相对应的语句评分，并根据待测评语音中每个整句的语句评分，确定待测评语音的测评分值。容易理解地，当待测评语音仅包含有一个整句时，可直接将该整句的语句评分作为待测评语音的测评分值。
94.在一个实施例中，评分结构包括全连层，评分结构可通过全连层对语句特征进行非线性变换，得到对应的语句评分。
95.在一个实施例中，当待测评语音包括多个整句时，评分结构可对每个整句各自对应的语句评分进行加权求平均，得到待测评语音的测评分值。
96.现有的语音测评方法，在确定音频帧的音频特征时，还需要对各音频帧进行进一步计算，以确定发音置信度(gop)，并根据发音置信度确定待测评语音的测评分值。而发音置信度的计算往往较为复杂，是对置信度的近似计算，因此会引入噪声，且发音置信度是基于音素级别提取的单一特征，表示较为单一，从而导致基于发音置信度所确定的测评分值的准确性较低。而本技术无需确定发音置信度，仅需基于音频帧的音频特征，即可确定相应的测评分值，如此，提升了测评分值的准确性，大大简化了测评分值的确定复杂度，提升了测评分值的确定效率。
97.上述语音测评方法中，通过获取待测评语音，可对待测评语音进行语音处理，得到时间对齐结果和音频特征。通过获取时间对齐结果和音频特征，可基于时间对齐结果和音频特征确定目标音素特征。通过确定目标音素特征以及获取发音特征，可将发音特征与相应的目标音素特征进行第一融合处理，得到每个音素单元各自对应的融合特征，从而可基于融合特征进一步区分每个音素单元之间的不同之处。通过获取融合特征，可基于融合特征进行第二融合处理，得到待测评语音中整句的语句特征，如此，便可基于语句特征确定待测评语音的测评分值。相比于传统的需要基于发音置信度确定测评分值，本技术利用迁移学习，将语音识别模型中的声学特征迁移至语音评测领域，进行语音评测，从而避免了复杂的发音置信度的特征计算，仅需确定语句特征即可得到测评分值，从而在保障语音测评效果的前提下，提升了测评分值的测评效率。
98.在一个实施例中，时间对齐结果包括每个音素的起止时间，对待测评语音进行语音处理，得到时间对齐结果和待测评语音的音频特征，包括：根据预设帧长对待测评语音进行分帧处理，得到对应的音频帧序列；提取音频帧序列中每个音频帧各自对应的音频特征，并通过预设的音素识别算法识别音频帧序列所包括的每个语音音素各自对应的起止时间。
99.具体地，当获取得到待测评语音时，计算机设备可根据预设帧长对待测评语音进行分帧处理，得到音频帧序列。对于音频帧序列中的多个音频帧中的每个音频帧，计算机设备均提取每个音频帧的初始特征，并将初始特征输入至声学结构，通过声学结构根据每个音频帧各自对应的初始特征，确定相应音频帧的音频特征。进一步地，声学结构通过预设的时间对齐算法识别待测评语音所包括的音素，以及确定待测评语音中每个音素各自对应的起止时间，例如，声学结构可通过维特比算法确定每个音素各自对应的起止时间。
100.在其中一个实施例中，当获取得到待测评语音时，计算机设备可对音频帧进行分帧处理，得到音频帧序列。计算机设备可以根据需求自由设定采集音频帧的采样频率以及每个音频帧的帧长和帧移。比如，可以采用16khz的采样频率，25ms的帧长、10ms的帧移对待测评语音进行分帧处理，得到音频帧序列。对于音频帧序列中的多个音频帧中的每个音频
帧，计算机设备均提取当前音频帧的初始特征，并将初始特征输入至声学结构。其中，初始特征具体可为fbank特征，或者mfcc特征。fbank(filter bank，滤波组)是语音特征参数提取方法之一，因其独特的基于倒谱的提取方式，更加的符合人类的听觉原理，因而也是最为普遍、最有效的特征提取算法。mfcc(mel frequency cepstrum coefficient，mel频率倒谱系数)是在mel标度频率域提取出来的倒谱参数，mel标度描述了人耳频率的非线性特征。
101.在其中一个实施例中，计算机设备可将音频帧的fbank特征输入至声学结构中，通过声学结构输出音频帧的音频特征。其中，fbank特征提取方法相当于mfcc去掉最后一步的离散余弦变换(有损变换)，对比mfcc特征，fbank特征保留了更多的原始语音数据。
102.在其中一个实施例中，语音测评模型中的声学结构具体可为语音识别模型中的声学结构。其中，语音识别模型包括声学结构和语言结构。语音识别模型中的声学结构用于将声学和发音学技术进行整合，以特征提取模块提取的初始特征作为输入，来计算音频对应音素之间的概率。语音识别模型中的语言结构用于将语法和字词知识整合，以计算字词在句子里出现的概率。其中，语音识别模型具体可为gmm
‑
hmm模型，或者可为dnn
‑
hmm模型。
103.上述实施例中，将待测评语音进行分帧处理，可得到语音信号变化幅度较小的音频帧，从而可基于分帧处理后的音频帧序列保证音频特征的提取准确性。
104.在一个实施例中，基于属于相同音素单元的各语音音素的初始音素特征，确定与待测评语音对应的多个音素单元各自对应的目标音素特征，包括：确定待测评语音所包括的不重复的音素单元，并确定每个不重复音素单元各自对应的至少一个初始音素特征；对于多个不重复音素单元中的每个音素单元，均对音素单元所对应的至少一个初始音素特征进行第三融合处理，得到相应音素单元的目标音素特征。
105.具体地，评分结构确定待测评语音所包括的不重复语音音素，即确定待测评语音所对应的音素单元，并根据每个语音音素各自对应的初始音素特征，确定每个音素单元各自对应的至少一个初始音素特征，例如，当分词a中的语音音素“m”对应于初始音素特征a，分词b中的语音音素“m”对应于初始音素特征b时，即可确定音素单元“m”对应于初始音素特征a和b。进一步地，对于多个音素单元中的每个音素单元，评分结构均对当前音素单元所对应的至少一个初始音素特征进行第三融合处理，例如，在上述举例中，将初始音素特征a和b进行求平均运算，得到当前音素单元的目标音素特征。
106.在其中一个实施例中，当获取得到初始音素特征时，声学结构可根据初始音素特征进行音素识别，得到待测评语音中每个音素各自对应的音素标识，从而评分结构可根据音素标识，确定待测评语音所对应的音素单元。其中，音素标识指的是唯一标识一个语音音素的信息，例如，“ma”包含两个语音音素“m”和“a”，其中“m”即为音素标识。
107.在其中一个实施例中，声学结构可通过维特比算法识别待测评语音中的每个语音音素，从而根据识别出的每个语音音素，确定待测评语音所对应的音素单元。例如，声学结构可通过维特比算法确定待测评语音中的首个语音音素为音素a，且首个语音音素的起止时间为0毫秒至50毫秒，待测评语音中的第二个语音音素为音素b，且第二个语音音素的起止时间为50毫秒至150毫秒，待测评语音中的末尾语音音素为音素a，且末尾语音音素的起止时间为150毫秒至250毫秒，此时，声学结构可确定待测评语音中音素单元为音素a和音素b。容易理解地，声学结构也可通过时间对齐工具peech
‑
aligner对语音音素进行识别，以确定待测评语音所对应的音素单元。
108.上述实施例中，通过对初始音素特征进行第三融合处理，可以得到音素单元的目标音素特征，从而后续仅需对音素单元的目标音素特征进行处理，即可确定相应的测评分值，如此，便减少了对重复语音音素的处理过程，从而提升了语音音素的处理效率，进而提升了语音测评的测评效率。
109.在一个实施例中，基于各整句各自包括的语音音素所属音素单元的融合特征进行第二融合处理，得到每个整句各自对应的语句特征，包括：对于至少一个整句中的每个整句，均根据分词与语音音素之间的映射关系确定当前整句中的每个分词各自包括的语音音素；对于当前整句所包括的至少一个分词中的每个分词，均对当前分词所包括的至少一个语音音素所属音素单元的融合特征进行音素融合处理，得到当前分词的分词特征；对当前整句所包括的各分词的分词特征进行分词融合处理，得到当前整句的语句特征。
110.其中，第二融合处理包括音素融合处理和分词融合处理。
111.具体地，对于至少一个整句中的每个整句，评分结构均确定当前整句所包括的分词，以及根据分词与音素之间的映射关系，确定当前整句中每个分词各自包括的语音音素。进一步地，对于当前整句所包括的至少一个分词中的每个分词，评分结构均确定当前分词中每个语音音素各自对应的音素单元，并对当前分词中每个语音音素各自对应的音素单元的融合特征进行音素融合处理，例如，进行加权求和处理，得到当前分词的分词特征。
112.进一步地，对于至少一个整句中的每个整句，评分结构均对当前整句所包括的每个分词的分词特征进行分词融合处理，例如，进行加权求和处理，得到当前证据的语句特征。
113.在其中一个实施例中，由于分词中的每个语音音素对分词特征的影响程度不同，因此，可采用自注意力机制，为分词中每个语音音素各自对应的音素单元的融合特征分配相应的自注意力权重。对于多个分词中的每个分词，评分结构均根据当前分词所包括的语音音素的数量值、以及中每个语音音素各自对应的音素单元的融合特征的特征维度，确定当前分词中每个语音音素的自注意力权重。例如，在当前分词包括三个语音音素，且各语音音素所对应的融合特征的特征维度为d时，可计算当前分词与当前分词之间的相似度，得到3*d*d*3的矩阵，最终得到3*3的权重矩阵，容易理解地，该权重矩阵与当前分词中的三个语音音素相对应。将3*3的权重矩阵进行归一化处理，即得到当前分词中每个语音音素的自对应的自注意力权重。
114.在其中一个实施例中，当确定当前分词所包括的每个语音音素各自对应的自注意力权重，评分结构可根据自注意力权重，对当前分词所包括的至少一个语音音素所属音素单元的融合特征进行加权求和处理，得到当前分词的分词特征。例如，在当前分词包括音素1和音素2，音素1所对应的融合特征为(0.3,0.4,0.9)，音素2所对应的融合特征为(0.4,0.4,0.95)，且音素1所对应的自注意力权重为0.6，音素2所对应的自注意力权重为0.4时，当前分词所对应的分词特征即为0.4*(0.3,0.4,0.9)+0.6*(0.4,0.4,0.95)＝(0.34,0.4,0.92)。
115.上述实施例中，通过采用自注意力机制，可以通过自注意力权重调整音素和分词对测评分值的影响程度，从而提升测评分值的准确性。
116.在一个实施例中，对当前整句所包括的各分词的分词特征进行分词融合处理，得到当前整句的语句特征，包括：根据当前整句所包括的分词数量和分词特征的特征维度，确
定当前整句中每个分词各自对应的自注意力权重；根据当前整句中每个分词各自对应的自注意力权重，对当前整句中每个分词各自对应的分词特征进行加权求和处理，得到所述整句的语句特征。
117.具体地，由于整句中每个分词对最终的测评分值的影响程度不同，因此，可确定每个分词各自对应的自注意力权重，并根据自注意力权重，确定整句的语句特征。对于至少一个整句中的每个整句，评分结构均确定当前整句所包括的分词的分词数量，以及确定当前整句中分词所对应的分词特征的特征维度，并根据分词特征的特征维度和分词数量，确定当前整句与当前整句之间的相似度。例如，在当前整句包括三个分词，且每个分词的分词特征的特征维度为d维时，评分结构确定当前整句与当前整句之间的相似度为3*d*d*3，即得到一个3*3的权重矩阵，并对3*3的权重矩阵进行归一化处理，得到当前整句中每个分词各自对应的自注意力权重。
118.进一步地，评分结构根据自注意力权重，对当前整句所包括的每个分词各自对应的分词特征进行加权求和处理，得到当前整句的语句特征。
119.本实施例中，通过确定各分词各自对应的自注意力权重，可基于自注意力权重调节每个分词对测评分值的影响程度，从而提升测评分值的准确性。
120.在一个实施例中，参考图4，当获取得到待测评语音时，语音测评模型中的声学结构可对待测评语音中的语音音素进行识别，得到音素序列，并将音素序列输入至评分结构中，通过评分结构确定音素序列中不重复的音素单元，并根据语音音素的初始音素特征，确定音素单元的目标音素特征。例如，音素序列中的语音音素a1(0.1,0.2,0.5)和语音音素a2(0.3,0.2,0.5)均对应于音素单元1时，评分结构即可对(0.1,0.2,0.5)和(0.3,0.2,0.5)进行求平均运算，得到音素单元1的目标音素特征(0.2,0.2,0.5)。进一步地，评分结构确定每个不重复音素单元各自对应的发音特征，并将发音特征与对应音素单元的目标音素特征进行第一融合处理，得到音素单元的融合特征，例如，将音素单元1的目标音素特征(0.2,0.2,0.5)与相应的发音特征(0.1,0.2,0.4)进行叠加，得到音素单元1的融合特征(0.3,0.4,0.9)。
121.进一步地，评分结构确定各分词所包括的语音音素，并基于自注意力机制，确定每个语音音素的自注意力权重，根据自注意力权重确定相应的分词特征。例如，分词1由语音音素a3和语音音素a4构成，且语音音素a3对应于音素单元1，语音音素a4对应于音素单元2时，评分结构可基于自注意力机制，确定语音音素a3的自注意力权重为0.6，语音音素a4的自注意力权重为0.4，评分结构基于自注意力权重和融合特征，得到分词1的分词特征(0.3,0.4,0.9)*0.6+(0.4，0.4,0.95)*0.4＝(0.34,0.4,0.92)。
122.进一步地，评分结构根据自注意力机制，确定整句中所包括的各分词各自对应的自注意力权重，并根据自注意力权重和分词特征，确定语句特征。例如，在整句1包括分词1和分词2，且当分词1的自注意力权重为0.4，分词2的自注意力权重为0.6时，整句1的语句特征为(0.34,0.4,0.92)*0.4+(0.55,0.3,0.85)*0.6＝(0.466,0.34,0.878)。评分模块对语句特征进行非线性变换，得到语句评分。当待测评语音中仅包含有一个整句时，该语句评分即为待测评语音的测评分值。图4示出了一个实施例中测评分值的确定示意图。
123.在一个实施例中，参考图5，语音测评方法由语音测评模型执行，语音测评模型通过模型训练步骤训练获得，模型训练步骤包括：
124.步骤s502，获取第一样本语音、第二样本语音、以及对第一样本语音进行语音测评而得的第一标准分值。
125.具体地，第一样本语音和第二样本语音是用于进行模型训练时所需的训练数据。对第一样本语音进行语音测评而得的第一标准分值是用于进行模型训练时所需的标签数据。研发人员可获取第一样本语音，并对第一样本语音进行人工评分，得到对应的第一标准分值。计算机设备可将一个第一样本语音和对应的第一标准分值作为训练集中的一个训练对，这样，便能基于训练集中的多个训练对对语音测评模型进行训练。其中，由于人工评分的耗时性，第一样本语音的数量可少于第二样本语音的数量。
126.步骤s504，通过第一样本语音和第一标准分值对发音评分模型进行第一训练，直至达到第一训练停止条件时停止，得到训练完成的发音评分模型；其中，发音评分模型为基于发音置信度进行语音测评的机器学习模型。
127.其中，发音评分模型指的是基于发音置信度进行语音测评的传统的机器学习模型。发音评分模型可识别待测评语音的发音置信度，基于发音置信度确定待测评语音的测评分值。
128.由于第一标准分值的稀缺性，因此，本实施例预先构建一个传统的发音评分模型，并根据第一样本语音和第一标准分值对发音评分模型进行训练，得到训练好的发音评分模型，之后再将大量的不具备标准分值的第二样本语音输入至训练好的发音评分模型，通过训练好的发音评分模型对第二样本语音进行语音测评处理，得到第二样本语音的第一预测分值。本实施例将第一预测分值作为第二样本语音的标签，通过第二样本语音以及第一预测分值，对语音测评模型进行训练，得到训练完成的语音测评模型。如此，便能实现基于少量的人工评分而得的第一标准分值对语音测评模型进行训练的目的。
129.具体地，计算机设备可将第一样本语音输入至发音评分模型，通过发音评分模型对第一样本语音进行语音测评处理，输出对第一样本语音进行评分而得的预测训练分值。计算机设备根据预测训练分值与第一标准分值，构建发音评分损失函数，并通过发音评分损失函数对发音评分模型进行第一训练，直至达到第一训练停止条件时停止。其中，第一训练停止条件可根据需求自由设置，例如，当预测训练分值与第一标准分值之间的差异达到预设标准时，确定达到第一训练停止条件，或者完成预设次数的迭代训练后，确定达到第一训练停止条件。
130.步骤s506，通过发音评分模型对第二样本语音进行语音测评处理，得到第二样本语音的第一预测分值；
131.步骤s508，通过第二样本语音和第一预测分值，对待训练的语音测评模型进行第二训练，直至达到第二训练停止条件时停止，得到训练完成的语音测评模型。
132.具体地，将大量的第二样本语音输入至训练好的发音评分模型，通过训练好的发音评分模型对第二样本语音进行语音测评处理，得到与第二样本语音对应的第一预测分值。进一步地，计算机设备将第一预测分值作为第二样本语音的标签，将第二样本语音输入至语音测评模型，通过语音测评模型对第二样本语音进场语音测评处理，得到第二样本语音的第二预测分值。计算机设备根据第一预测分值和第二预测分值，构建第二损失函数，并通过第二损失函数对语音测评模型进行第二训练，直至达到第二训练停止条件时停止，得到训练完成的语音测评模型。容易理解地，第二训练停止条件可根据需求自由设置。
133.在其中一个实施例中，计算机设备还可通过第一样本语音、第一标准分值、第二样本语音和第一预测分值，对语音测评模型进行第二训练，得到练完成的语音测评模型。
134.本实施例中，通过获取第一样本语音和第一标准分值，可基于第一样本语音和第一标准分值对发音评分模型进行训练，得到训练好的发音评分模型。通过得到训练好的发音评分模型，可基于发音评分模型对大量的第二样本语音进行语音测评处理，得到大量的第一预测分值，如此，便可将第一预测分值作为第二样本语音的标签，基于大量的第一预测分值和大量的第二样本语音的标签对语音测评模型进行训练，从而实现了基于少量的人工评分而得的第一标准分值，对语音测评模型进行训练的目的。
135.在一个实施例中，语音测评模型包括声学结构，通过第二样本语音和第一预测分值，对待训练的语音测评模型进行第二训练之前，还包括对声学结构进行预训练，声学结构预训练的步骤包括：获取语音识别模型、第三样本语音、和与第三样本语音对应的样本文本；通过语音识别模型对第三样本语音进行语音识别处理，得到第三样本语音的预测文本；根据预测文本以及与第三样本语音对应的样本文本，构建语音识别模型的第一损失函数，并通过第一损失函数对语音识别模型进行第三训练，直至达到第三训练停止条件时停止；将停止训练所得到的语音识别模型中的声学结构，作为语音测评模型中的声学结构。
136.具体地，在对待训练的语音测评模型进行第二训练之前，还可对声学结构进行预训练。计算机设备获取语音识别模型、第三样本语音和与第三样本语音对应的样本文本，计算机设备将第三样本语音输入至语音识别模型中，通过语音识别模型对第三样本语音进行文本识别处理，得到第三样本文本的预测文本。计算机设备根据样本文本和预测文本，构建第一损失函数，并通过第一损失函数对语音识别模型进行第三训练，直至达到第三训练停止条件时停止。其中，语音识别模型包括声学结构和语言结构，计算机设备将语音识别模型中的声学结构作为语音测评模型中的声学结构。
137.在其中一个实施例中，当获取得到第三样本语音时，计算机设备对第三样本语音进行分帧处理，得到音频帧序列，并提取音频帧序列中的每一音频帧的fbank特征，将fbank特征输入到语音识别模型中的声学结构中。语音识别模型中的声学结构可由多层非线性网络构成，通过多层非线性网络，并基于fbank特征，可输出每一音频帧的后验概率，将音频帧的后验概率进行贝叶斯变换，即可得到隐马尔可夫hmm的输出概率，从而可基于输出概率对语音识别模型进行第三训练。其中，后验概率指的是：t时间下的音频帧o包括语音音素s的概率。输出概率指的是：得知是语音音素s的情况下，音频帧o能够代表语音音素s的概率。
138.上述实施例中，通过对语音识别模型进行训练，可将训练完成的语音识别模型中的声学结构作为语音测评模型中的声学结构。
139.在一个实施例中，语音测评模型包括声学结构和评分结构，通过第二样本语音和第一预测分值，对待训练的语音测评模型进行第二训练，直至达到第二训练停止条件时停止，包括：通过声学结构对第二样本语音进行语音处理，得到预测对齐结果和第二样本语音的预测音频特征；通过评分结构，并根据预测对齐结果和预测音频特征，确定与第二样本语音对应的多个音素单元各自对应的预测音素特征；通过评分结构，获取每个音素分别对应的预测发音特征，并将预测发音特征与相应的预测音素特征进行第四融合处理，得到每个音素单元各自对应的预测融合特征；通过评分结构，确定第二样本语音中每个整句所包括的语音音素，基于各整句各自包括的语音音素所属音素单元的预测融合特征进行第五融合
处理，得到每个整句各自对应的预测语句特征；通过评分结构，并根据预测语句特征确定第二样本语音的第二预测分值；根据第一预测分值和第二预测分值，构建第二损失函数，并通过第二损失函数对语音测评模型进行第二训练，直至达到第二训练停止条件时停止，得到训练完成的语音测评模型。
140.具体地，当获取得到第二样本语音时，计算机设备可对第二样本语音进行分帧处理，得到音频帧序列，并将音频帧序列输入至语音测评模型中的声学结构，通过声学结构输出第二样本语音的预测音频特征以及预测对齐结果。计算机设备将第二样本语音的预测音频特征以及预测对齐结果输入至语音测评模型的评分结构，通过评分结构，并根据预测对齐结果和预测音频特征，得到第二样本语音中多个音素单元各自对应的预测音素特征。其中，生成音素单元所对应的预测音素特征的具体方法，可参考上述生成音素单元所对应的目标音素特征的方法。
141.进一步地，评分结构获取每个音素分别对应的预测发音特征，并将预测发音特征与相应的预测音素特征进行叠加处理，得到每个音素单元各自对应的预测融合特征。评分结构确定第二样本语音中每个整句所包括的语音音素，对于至少一个整句中的每个整句，评分结构均基于当前整句所包括的语音音素所属音素单元的预测融合特征进行第五融合处理，得到当前整句所对应的预测语句特征。其中，生成预测语句特征的具体方法，可参考上述生成语句特征的方法。
142.进一步地，评分结构根据预测语句特征确定第二样本语音的第二预测分值，并根据第一预测分值和第二预测分值，构建第二损失函数，并通过第二损失函数对语音测评模型进行第二训练，直至达到第二训练停止条件时停止，得到训练完成的语音测评模型。其中，第二训练停止条件可根据需求自由设置。
143.在一个实施例中，由于预先通过第三样本文本对声学结构进行了预训练，因此，通过第二损失函数对语音测评模型进行第二训练时，可固定声学结构的模型参数，调整评分结构的模型参数，直至达到第二训练停止条件时停止。
144.上述实施例中，通过对语音测评模型进行第二训练，可基于第二训练完成的语音测评模型对待测评语音进行测评，从而得到待测评语音的测评分值。
145.在一个实施例中，在对语音测评模型进行第二训练之后，还可对语音测评模型进行优化训练，优化训练的步骤包括：获取与目标任务相对应的第四样本语音、以及对第四样本语音进行语音测评而得的第二标准分值；通过第四样本语音和第二标准分值，对训练完成的语音测评模型进行优化训练，得到优化训练后的、且适合执行目标任务的语音测评模型。
146.具体地，由于不同任务的评分标准可能存在差异，因此，在采用语音测评模型执行目标任务时，还可基于与目标任务相对应的第四样本语音和第二标准分值，对语音测评模型进行优化训练，使得优化训练后的语音测评模型能够更适合执行目标任务。
147.计算机设备获取与目标任务对应的第四样本语音，以及对第四样本语音进行人工评分而得的第二标准分值，并将第四样本语音输入至完成第二训练后的语音测评模型中，通过完成第二训练的语音测评模型对第四样本语音进行语音测评处理，得到对第四样本语音进行评分而得的预测优化分值。计算机设备确定预测优化分值与第二标准分值之间的差异，并根据预测优化分值与第二标准分值之间的差异构建优化损失函数，基于优化损失函
数对完成第二训练的语音测评模型进行优化训练，得到优化训练后的、且适合执行目标任务的语音测评模型。
148.在其中一个实施例中，计算机设备可固定声学结构的模型参数，基于优化损失函数调整评分结构的模型参数，从而得到优化训练后的语音识别模型。
149.本实施例中，通过对语音测评模型进行进一步地优化训练，使得优化训练后的语音测评模型能够更适合执行目标任务，从而提升了测评分值的准确性。
150.在一个实施例中，获取待测评语音包括：显示参考文本；响应于针对参考文本所触发的跟读操作，触发语音采集，获得对参考文本进行跟读所获得的待测评语音；根据语句特征确定待测评语音的测评分值之后，方法还包括：展示待测评语音的测评分值。
151.具体地，终端中运行有口语测评应用，通过此口语测评应用，可对应展示显示参考文本。示例性地，参考图3，当确定用户点击口语测评图标时，终端可对应展示如图3所示的跟读页面，并通过跟读页面展示参考文本302。当确定用户针对参考文本触发跟读操作时，终端采集用户对参考文本进行跟读所产生的音频内容，并将此音频内容作为待测评语音。示例性地，参考图3，跟读页面中可展示有“开始朗读”控件，当获取得到对“开始朗读”控件的触发信号时，终端对应展示包含有“结束朗读”控件的跟读页面，并调用录音模块对用户语音进行录制，直至获取得到对“结束朗读”控件的触发信号，得到待测评语音。
152.当获取得到待测评语音时，参考图6，终端将待测评语音发送至口语测评应用的后台服务器，通过后台服务器获取与待测评语音相对应的参考文本，并将待测评语音和参考文本输入至语音测评模型，通过语音测评模型输出待测评语音的测评分值，并将测评分值返回至终端展示。图6示出了一个实施例中，语音测评的整体流程示意图。
153.在其中一个实施例中，参考图7，终端可以采用星级在测评结果页面展示待测评语音的测评分值702，如总共五颗星，获得星星的数量越多表示跟读质量越高。图7示出了一个实施例中测评分值的展示示意图。
154.上述实施例中，通过展示参考文本，可响应于对参考文本所触发的跟读操作，采集待测评语音；通过采集待测评语音，确定待测评语音的测评分值，通过确定测评分值，可对测评分值进行展示，从而用户可基于所展示的测评分值得知语音跟读的跟读结果。
155.本技术还提供一种应用场景，该应用场景应用上述的语音测评方法。具体地，该语音测评方法在该应用场景的应用如下：
156.参考图8，当用户开启口语测评应用时，可对口语测评应用所展示的跟读文本进行跟读，从而终端可对用户的跟读内容进行捕获，得到相应的待测评语音，并将待测评语音发送至口语测评应用的后台服务器。后台服务器接收待测评语音，并对待测评语音进行fank特征提取，得到待测评语音中每个音频帧各自对应的fank特征。后台服务器将fank特征输入至语音测评模型中，通过语音测评模型中的声学模块输入待测评语音中每个音频帧各自应的音频特征和时间对齐结果，并将音频特征和时间对齐结果输入至评分结构，通过评分结构输出待测评语音的测评分值，并将测评分值返回至终端展示。图8示出了一个实施例中基于语音测评模型输出测评分值的示意图。
157.上述应用场景仅为示意性的说明，可以理解，本技术各实施例所提供的语音测评方法的应用不局限于上述场景。
158.如图9所示，在一个具体的实施例中，语音测评方法包括以下步骤：
159.s902，根据预设帧长对待测评语音进行分帧处理，得到对应的音频帧序列；提取音频帧序列中每个音频帧各自对应的音频特征，并通过预设的音素识别算法识别音频帧序列所包括的每个语音音素各自对应的起止时间。
160.s904，根据每个语音音素的起止时间、预设帧长、及各音频帧在音频帧序列中的排列顺序，确定待测评语音中每个语音音素各自对应的音频帧。
161.s906，根据待测评语音中每个语音音素各自对应的音频帧、和每个音频帧的音频特征，得到每个语音音素各自对应的初始音素特征。
162.s908，确定待测评语音所包括的不重复的音素单元，并确定每个不重复音素单元各自对应的至少一个初始音素特征。
163.s910，对于多个不重复音素单元中的每个音素单元，均对音素单元所对应的至少一个初始音素特征进行第三融合处理，得到相应音素单元的目标音素特征。
164.s912，获取每个音素单元分别对应的发音特征，并将发音特征与相应的目标音素特征进行第一融合处理，得到每个音素单元各自对应的融合特征。
165.s914，获取与待测评语音对应的参考文本；根据参考文本，确定待测评语音所包括的至少一个整句，以及每个整句各自包括的分词。
166.s916，根据分词与语音音素之间的映射关系，确定待测评语音中每个整句各自包括的语音音素。
167.s918，对于至少一个整句中的每个整句，均根据分词与语音音素之间的映射关系确定当前整句中的每个分词各自包括的语音音素。
168.s920，对于当前整句所包括的至少一个分词中的每个分词，均对当前分词所包括的至少一个语音音素所属音素单元的融合特征进行音素融合处理，得到当前分词的分词特征。
169.s922，根据当前整句所包括的分词数量和分词特征的特征维度，确定当前整句中每个分词各自对应的自注意力权重。
170.s924，根据当前整句中每个分词各自对应的自注意力权重，对当前整句中每个分词各自对应的分词特征进行加权求和处理，得到整句的语句特征。
171.s926，根据语句特征确定待测评语音的测评分值。
172.上述语音测评方法中，通过获取待测评语音，可对待测评语音进行语音处理，得到时间对齐结果和音频特征。通过获取时间对齐结果和音频特征，可基于时间对齐结果和音频特征确定目标音素特征。通过确定目标音素特征以及获取发音特征，可将发音特征与相应的目标音素特征进行第一融合处理，得到每个音素单元各自对应的融合特征，从而可基于融合特征进一步区分每个音素单元之间的不同之处。通过获取融合特征，可基于融合特征进行第二融合处理，得到待测评语音中整句的语句特征，如此，便可基于语句特征确定待测评语音的测评分值。相比于传统的需要基于发音置信度确定测评分值，本技术利用迁移学习，将语音识别模型中的声学特征迁移至语音评测领域，进行语音评测，从而避免了复杂的发音置信度的特征计算，仅需确定语句特征即可得到测评分值，从而在保障语音测评效果的前提下，提升了测评分值的测评效率。
173.如图10所示，在一个具体的实施例中，语音测评方法包括以下步骤：
174.s1002，获取第一样本语音、第二样本语音、以及对第一样本语音进行语音测评而
得的第一标准分值。
175.s1004，通过第一样本语音和第一标准分值对发音评分模型进行第一训练，直至达到第一训练停止条件时停止，得到训练完成的发音评分模型；其中，发音评分模型为基于发音置信度进行语音测评的机器学习模型。
176.s1006，通过发音评分模型对第二样本语音进行语音测评处理，得到第二样本语音的第一预测分值；语音测评模型包括声学结构和评分结构。
177.s1008，获取语音识别模型、第三样本语音、和与第三样本语音对应的样本文本；通过语音识别模型对第三样本语音进行语音识别处理，得到第三样本语音的预测文本。
178.s1010，根据预测文本以及与第三样本语音对应的样本文本，构建语音识别模型的第一损失函数，并通过第一损失函数对语音识别模型进行第三训练，直至达到第三训练停止条件时停止；将停止训练所得到的语音识别模型中的声学结构，作为语音测评模型中的声学结构。
179.s1012，通过声学结构对第二样本语音进行语音处理，得到预测对齐结果和第二样本语音的预测音频特征；通过评分结构，并根据预测对齐结果和预测音频特征，确定与第二样本语音对应的多个音素单元各自对应的预测音素特征。
180.s1014，通过评分结构，获取每个音素分别对应的预测发音特征，并将预测发音特征与相应的预测音素特征进行第四融合处理，得到每个音素单元各自对应的预测融合特征。
181.s1016，通过评分结构，确定第二样本语音中每个整句所包括的语音音素，基于各整句各自包括的语音音素所属音素单元的预测融合特征进行第五融合处理，得到每个整句各自对应的预测语句特征。
182.s1018，通过评分结构，并根据预测语句特征确定第二样本语音的第二预测分值；根据第一预测分值和第二预测分值，构建第二损失函数，并通过第二损失函数对语音测评模型进行第二训练，直至达到第二训练停止条件时停止，得到训练完成的语音测评模型。
183.s1020，获取与目标任务相对应的第四样本语音、以及对第四样本语音进行语音测评而得的第二标准分值；通过第四样本语音和第二标准分值，对训练完成的语音测评模型进行优化训练，得到优化训练后的、且适合执行目标任务的语音测评模型。
184.s1022，获取待测评语音，并对待测评语音进行语音处理，得到时间对齐结果和待测评语音的音频特征；根据时间对齐结果和音频特征，确定与待测评语音对应的多个音素单元各自对应的目标音素特征。
185.s1024，获取每个音素单元分别对应的发音特征，并将发音特征与相应的目标音素特征进行第一融合处理，得到每个音素单元各自对应的融合特征。
186.s1026，确定待测评语音中每个整句所包括的语音音素，基于各整句各自包括的语音音素所属音素单元的融合特征进行第二融合处理，得到每个整句各自对应的语句特征；根据语句特征确定待测评语音的测评分值。
187.应该理解的是，虽然图2、图5、图9
‑
图10的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、图5、图9
‑
图10中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并
不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
188.在一个实施例中，如图11所示，提供了一种语音测评装置1100，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：音素特征确定模块1102、语句特征确定模块1104和分值确定模块1106，其中：
189.音素特征确定模块1102，用于获取待测评语音，并对待测评语音进行语音处理，得到时间对齐结果和待测评语音的音频特征；根据时间对齐结果和音频特征，确定与待测评语音对应的多个音素单元各自对应的目标音素特征。
190.语句特征确定模块1104，用于获取每个音素单元分别对应的发音特征，并将发音特征与相应的目标音素特征进行第一融合处理，得到每个音素单元各自对应的融合特征；确定待测评语音中每个整句所包括的语音音素，基于各整句各自包括的语音音素所属音素单元的融合特征进行第二融合处理，得到每个整句各自对应的语句特征。
191.分值确定模块1106，用于根据语句特征确定待测评语音的测评分值。
192.在一个实施例中，音素特征确定模块1102还包括对齐结果确定模块1121，用于根据预设帧长对待测评语音进行分帧处理，得到对应的音频帧序列；提取音频帧序列中每个音频帧各自对应的音频特征，并通过预设的音素识别算法识别音频帧序列所包括的每个语音音素各自对应的起止时间。
193.在一个实施例中，音素特征确定模块1102还包括目标特征确定模块1122，用于根据每个语音音素的起止时间、预设帧长、及各音频帧在音频帧序列中的排列顺序，确定待测评语音中每个语音音素各自对应的音频帧；根据待测评语音中每个语音音素各自对应的音频帧、和每个音频帧的音频特征，得到每个语音音素各自对应的初始音素特征；基于属于相同音素单元的各语音音素的初始音素特征，确定与待测评语音对应的多个音素单元各自对应的目标音素特征。
194.在一个实施例中，目标特征确定模块1122还用于确定待测评语音所包括的不重复的音素单元，并确定每个不重复音素单元各自对应的至少一个初始音素特征；对于多个不重复音素单元中的每个音素单元，均对音素单元所对应的至少一个初始音素特征进行第三融合处理，得到相应音素单元的目标音素特征。
195.在一个实施例中，语句特征确定模块1104还包括语句确定模块1141，用于获取与待测评语音对应的参考文本；根据参考文本，确定待测评语音所包括的至少一个整句，以及每个整句各自包括的分词；根据分词与语音音素之间的映射关系，确定待测评语音中每个整句各自包括的语音音素。
196.在一个实施例中，语句确定模块1141还用于对于至少一个整句中的每个整句，均根据分词与语音音素之间的映射关系确定当前整句中的每个分词各自包括的语音音素；对于当前整句所包括的至少一个分词中的每个分词，均对当前分词所包括的至少一个语音音素所属音素单元的融合特征进行音素融合处理，得到当前分词的分词特征；对当前整句所包括的各分词的分词特征进行分词融合处理，得到当前整句的语句特征。
197.在一个实施例中，语句特征确定模块1141还用于根据当前整句所包括的分词数量和分词特征的特征维度，确定当前整句中每个分词各自对应的自注意力权重；根据当前整
句中每个分词各自对应的自注意力权重，对当前整句中每个分词各自对应的分词特征进行加权求和处理，得到整句的语句特征。
198.在一个实施例中，语音测评装置1100还包括训练模块1108，用于获取第一样本语音、第二样本语音、以及对第一样本语音进行语音测评而得的第一标准分值；通过第一样本语音和第一标准分值对发音评分模型进行第一训练，直至达到第一训练停止条件时停止，得到训练完成的发音评分模型；其中，发音评分模型为基于发音置信度进行语音测评的机器学习模型；通过发音评分模型对第二样本语音进行语音测评处理，得到第二样本语音的第一预测分值；通过第二样本语音和第一预测分值，对待训练的语音测评模型进行第二训练，直至达到第二训练停止条件时停止，得到训练完成的语音测评模型。
199.在一个实施例中，语音测评模型包括声学结构，训练模块1108还用于获取语音识别模型、第三样本语音、和与第三样本语音对应的样本文本；通过语音识别模型对第三样本语音进行语音识别处理，得到第三样本语音的预测文本；根据预测文本以及与第三样本语音对应的样本文本，构建语音识别模型的第一损失函数，并通过第一损失函数对语音识别模型进行第三训练，直至达到第三训练停止条件时停止；将停止训练所得到的语音识别模型中的声学结构，作为语音测评模型中的声学结构。
200.在一个实施例中，语音测评模型包括声学结构和评分结构，训练模块1108还用于通过声学结构对第二样本语音进行语音处理，得到预测对齐结果和第二样本语音的预测音频特征；通过评分结构，并根据预测对齐结果和预测音频特征，确定与第二样本语音对应的多个音素单元各自对应的预测音素特征；通过评分结构，获取每个音素分别对应的预测发音特征，并将预测发音特征与相应的预测音素特征进行第四融合处理，得到每个音素单元各自对应的预测融合特征；通过评分结构，确定第二样本语音中每个整句所包括的语音音素，基于各整句各自包括的语音音素所属音素单元的预测融合特征进行第五融合处理，得到每个整句各自对应的预测语句特征；通过评分结构，并根据预测语句特征确定第二样本语音的第二预测分值；根据第一预测分值和第二预测分值，构建第二损失函数，并通过第二损失函数对语音测评模型进行第二训练，直至达到第二训练停止条件时停止，得到训练完成的语音测评模型。
201.在一个实施例中，训练模块1108还用于获取与目标任务相对应的第四样本语音、以及对第四样本语音进行语音测评而得的第二标准分值；通过第四样本语音和第二标准分值，对训练完成的语音测评模型进行优化训练，得到优化训练后的、且适合执行目标任务的语音测评模型。
202.在一个实施例中，语音测评装置1100还用于显示参考文本；响应于针对参考文本所触发的跟读操作，触发语音采集，获得对参考文本进行跟读所获得的待测评语音；展示待测评语音的测评分值。
203.上述语音测评装置，通过获取待测评语音，可对待测评语音进行语音处理，得到时间对齐结果和音频特征。通过获取时间对齐结果和音频特征，可基于时间对齐结果和音频特征确定目标音素特征。通过确定目标音素特征以及获取发音特征，可将发音特征与相应的目标音素特征进行第一融合处理，得到每个音素单元各自对应的融合特征，从而可基于融合特征进一步区分每个音素单元之间的不同之处。通过获取融合特征，可基于融合特征进行第二融合处理，得到待测评语音中整句的语句特征，如此，便可基于语句特征确定待测
评语音的测评分值。相比于传统的需要基于发音置信度确定测评分值，本技术利用迁移学习，将语音识别模型中的声学特征迁移至语音评测领域，进行语音评测，从而避免了复杂的发音置信度的特征计算，仅需确定语句特征即可得到测评分值，从而在保障语音测评效果的前提下，提升了测评分值的测评效率。
204.关于语音测评装置的具体限定可以参见上文中对于语音测评方法的限定，在此不再赘述。上述语音测评装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
205.在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音测评数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音测评方法。
206.本领域技术人员可以理解，图12中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
207.在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
208.在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
209.在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。
210.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read
‑
only memory，rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory，ram)或外部高速缓冲存储器。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。
211.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
212.以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并
不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林炳怀;王丽园
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人