语音质量评估方法、训练语音质量评估模型的方法及装置与流程

文档序号：38036078发布日期：2024-05-17 13:21阅读：29来源：国知局

本技术涉及人工智能，特别是涉及语音质量评估方法、训练语音质量评估模型的方法及装置。

背景技术：

1、在当今通信、多媒体处理以及智能语音交互等领域，语音音质评估是确保用户体验和语音系统性能的关键环节。优良的语音质量不仅能提升语音通信的清晰度与效率，还能在语音识别、语音合成等技术中发挥至关重要的作用。

2、语音质量的评估是衡量音质的一个重要手段，然而，现有的语音音质评价模型多依赖于传统信号处理方法，这些方法往往受限于特定的噪声类型和环境，难以适应多变的实际应用场景。在复杂的语音处理场景下，面临着准确性不足和适应性差等问题，无法全面反映人耳对语音音质的真实感受。此外，这些模型往往需要手动调整参数，导致评价过程繁琐、效率低下。

技术实现思路

1、本技术提供了一种语音质量评估方法、训练语音质量评估模型的方法及装置，以便于提升语音质量评估的效率和准确率。

2、本技术提供了如下方案：

3、第一方面，提供了一种语音质量评估方法，所述方法包括：

4、获取待评估语音信号及其对应的参考语音信号；

5、利用语音质量评估模型提取所述参考语音信号的隐特征表示，以及提取所述待评估语音信号的隐特征表示，对所述参考语音信号的隐特征表示和所述待评估语音信号的隐特征表示进行融合得到融合特征表示，利用所述融合特征表示映射得到所述待评估语音信号的语音质量评估结果；

6、其中，所述语音质量评估模型是利用神经网络预先训练得到的。

7、根据本技术实施例中一可实现的方式，所述方法还包括：对所述参考语音信号和所述待评估语音信号分别进行特征提取，得到所述参考语音信号的频谱特征和所述待评估语音信号的频谱特征；

8、所述利用语音质量评估模型提取所述参考语音信号的隐特征表示，以及提取所述待评估语音信号的隐特征表示包括：利用所述语音质量评估模型对所述参考语音信号的频谱特征进行降采样，得到所述参考语音信号的隐特征表示，以及对所述待评估语音信号的频谱特征进行降采样，得到所述待评估语音信号的隐特征表示。

9、根据本技术实施例中一可实现的方式，所述频谱特征包括梅尔频谱特征；

10、对所述参考语音信号和所述待评估语音信号分别进行特征提取，得到所述参考语音信号的频谱特征和所述待评估语音信号的频谱特征包括：

11、将所述参考语音信号和所述待评估语音信号分别转换为梅尔频谱；

12、将所述参考语音信号对应的梅尔频谱切分为一个以上预设长度的频谱片段，相邻频谱片段之间部分重叠，将该一个以上预设长度的频谱片段作为所述参考语音信号的频谱特征；以及，

13、将所述待评估语音信号对应的梅尔频谱切分为一个以上预设长度的频谱片段，相邻频谱片段之间部分重叠，将该一个以上预设长度的频谱片段作为所述待评估语音信号的频谱特征。

14、根据本技术实施例中一可实现的方式，对所述参考语音信号的隐特征表示和所述待评估语音信号的隐特征表示进行融合得到融合特征表示包括：

15、对所述参考语音信号的隐特征表示和所述待评估语音信号的隐特征表示进行点乘；

16、将所述点乘得到的特征表示与所述待评估语音信号的隐特征表示进行拼接，得到所述融合特征表示。

17、根据本技术实施例中一可实现的方式，利用所述融合特征表示映射得到所述待评估语音信号的语音质量评估结果包括：

18、对所述融合特征表示进行池化处理，所述池化处理包括基于注意力机制的池化；

19、将所述池化处理得到的特征表示映射到语音质量评分空间得到所述待评估语音信号的语音质量评分，或者，将所述池化处理得到的特征表示映射到语音质量评级空间得到所述待评估语音信号的语音质量评级。

20、第二方面，提供了一种测试方法，所述方法包括：

21、获取参考语音信号；

22、将所述参考语音信号输入待测试系统，获取所述待测试系统输出的语音信号作为待评估语音信号；

23、利用如上任一项所述的方法得到所述待评估语音信号的语音质量评估结果；

24、利用所述语音质量评估结果确定所述待测试系统的测试结果。

25、第三方面，提供了一种训练语音质量评估模型的方法，所述方法包括：

26、获取包括多个训练样本的训练数据，所述训练样本包括受损语音信号样本及其对应的参考语音信号样本和语音质量评估标签；

27、利用所述训练数据训练基于神经网络的语音质量评估模型，其中，所述语音质量评估模型提取所述参考语音信号样本的隐特征表示，以及提取所述受损语音信号样本的隐特征表示，对所述参考语音信号样本的隐特征表示和所述受损语音信号样本的隐特征表示进行融合得到融合特征表示，利用所述融合特征表示映射得到所述受损语音信号样本的语音质量评估结果；所述训练的目标包括：最小化所述受损语音信号样本的语音质量评估结果与对应语音质量评估标签之间的差异。

28、根据本技术实施例中一可实现的方式，所述方法还包括：对所述参考语音信号样本和所述受损语音信号样本分别进行特征提取，得到所述参考语音信号样本的频谱特征和所述受损语音信号样本的频谱特征，所述频谱特征包括梅尔频谱；

29、所述语音质量评估模型提取所述参考语音信号样本的隐特征表示，以及提取所述受损语音信号样本的隐特征表示包括：所述语音质量评估模型对所述参考语音信号样本的频谱特征进行降采样，得到所述参考语音信号样本的隐特征表示，以及对所述受损语音信号样本的频谱特征进行降采样，得到所述所述受损语音信号样本的隐特征表示。

30、根据本技术实施例中一可实现的方式，对所述参考语音信号样本的隐特征表示和所述受损语音信号样本的隐特征表示进行融合得到融合特征表示包括：

31、对所述参考语音信号样本的隐特征表示和所述受损语音信号样本的隐特征表示进行点乘；

32、将所述点乘得到的特征表示与所述受损语音信号样本的隐特征表示进行拼接，得到所述融合特征表示。

33、根据本技术实施例中一可实现的方式，利用所述融合特征表示映射得到所述受损语音信号样本的语音质量评估结果包括：

34、对所述融合特征表示进行池化处理，所述池化处理包括基于注意力机制的池化；

35、将所述池化处理得到的特征表示映射到语音质量评分空间得到所述受损语音信号样本的语音质量评分，或者，将所述池化处理得到的特征表示映射到语音质量评级空间得到所述受损语音信号样本的语音质量评级。

36、第四方面，提供了一种语音质量评估装置，所述装置包括：

37、信号获取单元，被配置为获取待评估语音信号及其对应的参考语音信号；

38、质量评估单元，被配置为利用语音质量评估模型提取所述参考语音信号的隐特征表示，以及提取所述待评估语音信号的隐特征表示，对所述参考语音信号的隐特征表示和所述待评估语音信号的隐特征表示进行融合得到融合特征表示，利用所述融合特征表示映射得到所述待评估语音信号的语音质量评估结果；

39、其中，所述语音质量评估模型是利用神经网络预先训练得到的。

40、第五方面，提供了一种训练语音质量评估模型的装置，所述装置包括：

41、样本获取单元，被配置为获取包括多个训练样本的训练数据，所述训练样本包括受损语音信号样本及其对应的参考语音信号样本和语音质量评估标签；

42、模型训练单元，被配置为利用所述训练数据训练基于神经网络的语音质量评估模型，其中，所述语音质量评估模型提取所述参考语音信号样本的隐特征表示，以及提取所述受损语音信号样本的隐特征表示，对所述参考语音信号样本的隐特征表示和所述受损语音信号样本的隐特征表示进行融合得到融合特征表示，利用所述融合特征表示映射得到所述受损语音信号样本的语音质量评估结果；所述训练的目标包括：最小化所述受损语音信号样本的语音质量评估结果与对应语音质量评估标签之间的差异。

43、根据第六方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面、第二方面和第三方面中任一项所述的方法的步骤。

44、根据第七方面，提供了一种电子设备，包括：

45、一个或多个处理器；以及

46、与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行上述第一方面、第二方面和第三方面中任一项所述的方法的步骤。

47、根据本技术提供的具体实施例，本技术公开了以下技术效果：

48、1)本发明利用由神经网络训练得到的语音质量评估模型进行语音质量评估，该模型提取待评估语音信号和参考语音信号的隐特征表示，并将隐特征表示进行融合，根据融合特征得到质量评估结果。该方法提取两种语音信号的在较低维度下的关键特征，降低了语音质量评估的复杂度，并将两种语音信号的关键特征进行融合，增加了特征之间的关联程度，从而提高了语音质量评估的效率和准确率。

49、2)本技术通过对语音信号进行特征提取得到频谱特征，频谱特征相比较时域特征而言，提高了语音信号特征的鲁棒性。对频谱特征进行降采样处理，在保留重要特征的前提下减少了数据的维度，降低了计算复杂度，提高了语音评估的效率。

50、3)本技术采用梅尔频谱特征作为频谱特征，梅尔频谱特征是一种更加符合人耳听觉特征的频域表示，因此，能够使得对语音质量的评估更加符合人耳的真实感知。

51、4)本技术对梅尔频谱进行切分得到预设长度的频谱片段，频谱片段更便于对频谱进行特征提取。同时，相邻频谱片段之间存在部分重叠，避免了频谱切分操作导致损失频谱信息。

52、5)本技术将参考语音信号的隐特征表示和待评估语音信号的隐特征表示进行点乘得到的特征表示与待评估语音信号的隐特征表示进行拼接，得到所述融合特征表示。这种融合方法一方面简单高效，另一方面能够充分体现参考语音信号和待评估语音信号之间的差异，从而使得后续基于融合特征表示得到的语音质量评估结果更加准确。

53、6)本技术对融合特征表示进行池化处理，进一步降低了融合特征表示的维度，并提取出更有代表性的信息，降低了生成语音质量评分的复杂度和准确率。

54、7)本技术可以基于注意力机制进行池化处理，一方面可降低融合特征表示的维度，另一方面可充分考虑参考语音信号和待评估语音信号的特征之间的关联对语音质量评价的影响，提高了语音评估的效率和准确率。

55、当然，实施本技术的任一产品并不一定需要同时达到以上所述的所有优点。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郝一亚,叶军
技术所有人：钉钉（中国）信息技术有限公司
我是此专利的发明人

上一篇：一种轨道交通巡逻检测车
上一篇：显示面板的伽马调节方法、装置、电子设备及存储介质与流程