语音质量评估方法、系统、存储介质及电子设备与流程

文档序号：38031849发布日期：2024-05-17 13:12阅读：16来源：国知局

本发明属于深度学习的，特别是涉及一种语音质量评估方法、系统、存储介质及电子设备。

背景技术：

1、语音质量评估就是通过专家或自动化的方法评估语音质量。现有技术中，语音质量评估方法通常包括以下两种：

2、(1)主观语音质量评估方法

3、其中，基于大量听音人员对原始声音信号和失真声音信号进行对比测听的基础上，根据某种预先规定的尺度对失真信号进行质量等级划分，它反映了听音人员对声音质量好坏程度的一种主观印象，这种评价是用户对音频质量的真实反映。但是，该方法依赖于听音人员的主观判断，准确度不高。

4、(2)客观语音质量评估方法

5、其中，采用某个特定的参数去表征声音通过数字音频系统后的失真程度，并以此来评估处理系统的性能优劣。但是，该方法多用于声音信号相关参数的性能评测，不能全面进行语音质量评估。

技术实现思路

1、鉴于以上所述现有技术的缺点，本发明的目的在于提供一种语音质量评估方法、系统、存储介质及电子设备，能够基于大语言模型实现语音质量的精准评估，快速高效。

2、第一方面，本发明提供一种语音质量评估方法，所述方法包括以下步骤：获取待评估语音的语音特征和mfcc特征；获取第一输入文本提示，所述第一输入文本提示用于指示质量评估结果未知；基于所述第一输入文本提示获取文本特征；将所述语音特征、所述mfcc特征和所述文本特征输入大语言模型，获取第一分数嵌入向量、第一压缩嵌入向量和第一声学嵌入向量，并基于所述第一分数嵌入向量获取第一质量评分；获取第二输入文本提示，所述第二输入文本提示用于提供第一质量评分，指示获取最终质量评分；将所述第二输入文本提示、所述第一压缩嵌入向量和所述第一声学嵌入向量输入所述大语言模型，获取第二分数嵌入向量、第二压缩嵌入向量和第二声学嵌入向量；基于所述第二分数嵌入向量、所述第二压缩嵌入向量和所述第二声学嵌入向量进行交叉注意力操作；基于所述交叉注意力操作的结果获取第二质量评分，并将所述第二质量评分作为所述最终质量评分。

3、在第一方面的一种实现方式中，获取待评估语音的语音特征和mfcc特征包括以下步骤：

4、将所述待评估语音输入自编码器，获取所述语音特征；

5、提取所述待评估语音的mfcc特征。

6、在第一方面的一种实现方式中，将所述语音特征、所述mfcc特征和所述文本特征输入大语言模型，获取第一分数嵌入向量、第一压缩嵌入向量和第一声学嵌入向量，并基于所述第一分数嵌入向量获取第一质量评分包括以下步骤：

7、将所述文本特征、所述语音特征和所述mfcc特征依次拼接后输入所述大语言模型；

8、将所述大语言模型的输出对应拆分为第一分数嵌入向量、所述第一压缩嵌入向量和所述第一声学嵌入向量；

9、将所述第一分数嵌入向量输入sigmoid函数，获取所述第一质量评分。

10、在第一方面的一种实现方式中，基于所述第二分数嵌入向量、所述第二压缩嵌入向量和所述第二声学嵌入向量进行交叉注意力操作包括以下步骤：

11、将所述第二分数嵌入向量作为k向量，将所述第二压缩嵌入向量作为v向量，将所述第二声学嵌入向量经过全局平均池化后作为q向量；

12、对所述k向量、所述v向量和所述q向量进行交叉注意力操作。

13、在第一方面的一种实现方式中，基于所述第一输入文本提示获取文本特征包括：将所述第一输入文本提示输入多层感知机，获取所述文本特征。

14、在第一方面的一种实现方式中，还包括：

15、将所述第二输入文本提示提供的第一质量评分替换为所述第二质量评分；

16、基于更新的第二输入文本提示获取更新的第二质量评分，并将所述更新的第二质量评分作为所述最终质量评分。

17、在第一方面的一种实现方式中，还包括：

18、根据所述第二质量评分设定质量评估结果；

19、将所述第一输入文本提示中的质量评估结果未知替换为所述质量评估结果；

20、基于更新的第一输入文本提示获取更新后的第一质量评分；

21、基于更新后的第一质量评分获取更新后的第二质量评分，并将所述更新的第二质量评分作为所述最终质量评分。

22、第二方面，本发明提供一种语音质量评估系统，所述系统包括第一获取模块、第二获取模块、第三获取模块、第一处理模块、第四获取模块、第二处理模块、注意力模块和评分模块；

23、所述第一获取模块用于获取待评估语音的语音特征和mfcc特征；

24、所述第二获取模块用于获取第一输入文本提示，所述第一输入文本提示用于指示质量评估结果未知；

25、所述第三获取模块用于基于所述第一输入文本提示获取文本特征；

26、所述第一处理模块用于将所述语音特征、所述mfcc特征和所述文本特征输入大语言模型，获取第一分数嵌入向量、第一压缩嵌入向量和第一声学嵌入向量，并基于所述第一分数嵌入向量获取第一质量评分；

27、所述第四获取模块用于获取第二输入文本提示，所述第二输入文本提示用于提供第一质量评分，指示获取最终质量评分；

28、所述第二处理模块用于将所述第二输入文本提示、所述第一压缩嵌入向量和所述第一声学嵌入向量输入所述大语言模型，获取第二分数嵌入向量、第二压缩嵌入向量和第二声学嵌入向量；

29、所述注意力模块用于基于所述第二分数嵌入向量、所述第二压缩嵌入向量和所述第二声学嵌入向量进行交叉注意力操作；

30、所述评分模块用于基于所述交叉注意力操作的结果获取第二质量评分，并将所述第二质量评分作为所述最终质量评分。

31、第三方面，本发明提供一种电子设备，所述电子设备包括：处理器和存储器；

32、所述存储器用于存储计算机程序；

33、所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行上述的语音质量评估方法。

34、第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被电子设备执行时实现上述的语音质量评估方法。

35、如上所述，本发明所述的语音质量评估方法、系统、存储介质及电子设备，具有以下有益效果：

36、(1)能够基于大语言模型实现语音质量的精准评估，快速高效；

37、(2)智能化程度高，极具实用性。

技术特征：

1.一种语音质量评估方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的语音质量评估方法，其特征在于：获取待评估语音的语音特征和mfcc特征包括以下步骤：

3.根据权利要求1所述的语音质量评估方法，其特征在于：将所述语音特征、所述mfcc特征和所述文本特征输入大语言模型，获取第一分数嵌入向量、第一压缩嵌入向量和第一声学嵌入向量，并基于所述第一分数嵌入向量获取第一质量评分包括以下步骤：

4.根据权利要求1所述的语音质量评估方法，其特征在于：基于所述第二分数嵌入向量、所述第二压缩嵌入向量和所述第二声学嵌入向量进行交叉注意力操作包括以下步骤：

5.根据权利要求1所述的语音质量评估方法，其特征在于：基于所述第一输入文本提示获取文本特征包括：将所述第一输入文本提示输入多层感知机，获取所述文本特征。

6.根据权利要求1所述的语音质量评估方法，其特征在于：还包括：

7.根据权利要求1所述的语音质量评估方法，其特征在于：还包括：

8.一种语音质量评估系统，其特征在于，所述系统包括第一获取模块、第二获取模块、第三获取模块、第一处理模块、第四获取模块、第二处理模块、注意力模块和评分模块；

9.一种电子设备，其特征在于，所述电子设备包括：处理器和存储器；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被电子设备执行时实现权利要求1至7中任一项所述的语音质量评估方法。

技术总结
本发明提供一种语音质量评估方法、系统、存储介质及电子设备，包括：基于第一输入文本提示获取文本特征，将待评估语音的语音特征、MFCC特征和文本特征输入大语言模型，获取第一分数嵌入向量、第一压缩嵌入向量和第一声学嵌入向量，并基于所述第一分数嵌入向量获取第一质量评分；将第二输入文本提示、第一压缩嵌入向量和第一声学嵌入向量输入大语言模型，获取第二分数嵌入向量、第二压缩嵌入向量和第二声学嵌入向量；基于第二分数嵌入向量、第二压缩嵌入向量和第二声学嵌入向量进行交叉注意力操作，并获取第二质量评分作为所述最终质量评分。本发明的语音质量评估方法、系统、存储介质及电子设备基于大语言模型实现语音质量的精准评估，快速高效。

技术研发人员：张俊杰,孔欧,刘益东
受保护的技术使用者：上海蜜度数字科技有限公司
技术研发日：
技术公布日：2024/5/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张俊杰,孔欧,刘益东
技术所有人：上海蜜度数字科技有限公司
我是此专利的发明人

上一篇：基于计算机视觉的钢材表面缺陷检测方法及系统与流程
上一篇：一种景点要素游览路径规划方法及系统