语音通信质量的评估方法、装置、服务器及存储介质与流程

文档序号：38019461发布日期：2024-05-17 12:47阅读：22来源：国知局

本申请涉及人工智能，特别涉及一种语音通信质量的评估方法、装置、服务器及存储介质。

背景技术：

1、mos(mean opinion score，语音质量分数)用于量化语音通信质量，可以通过用户主观听力测试获得。mos分数从1分到5分，5分表示语音通信质量最好，1分表示语音通信质量最差。随着5g(5th generation mobile communication technology，第五代移动通信技术)网络和移动设备的发展，全球每天有数十亿次音视频通信，为保障音视频通信质量，需要对音视频通信场景下的语音通信质量进行评估。

2、目前，在对语音通信质量进行评估时，获取用户的待评估语音片段，并获取该用户的干净语音片段，该干净语音片段的mos最高，且内容、时长等与该待评估语音片段完全相同，进而基于干净语音片段，对待评估语音片段进行打分，得到待评估语音片段的mos分数。

3、然而，在音视频通信场景下，很难获取到待评估语音片段对应的干净语音片段，因而无法评估音视频通信场景下的语音通信质量。为此，亟需提供一种语音通信质量的评估方法，以对音视频通信场景下的语音通信质量进行评估。

技术实现思路

1、本申请实施例提供了一种语音通信质量的评估方法、装置、服务器及存储介质，能够对音视频通信场景下的语音通信质量进行评估。所述技术方案如下：

2、第一方面，提供了一种语音通信质量的评估方法，所述方法包括：

3、在目标用户进行音视频通信过程中，获取所述目标用户的待评估语音片段；

4、对所述待评估语音片段进行处理，得到第一嵌入式特征向量，所述第一嵌入式特征向量用于表征在当前音视频通信场景下所述待评估语音片段在频域上的声纹特征分布；

5、获取第二嵌入式特征向量，所述第二嵌入式特征向量为对所述目标用户的干净语音片段进行处理得到的特征向量，所述第二嵌入式特征向量用于表征在无干扰的音视频通信场景下所述干净语音片段在频域上的声纹特征分布，所述干净语音片段的语音质量分数mos最高；

6、对所述第一嵌入式特征向量和所述第二嵌入式特征向量进行拼接，得到第三嵌入式特征向量；

7、调用语音通信质量评估模型，对所述第三嵌入式特征向量进行处理，得到所述待评估语音片段的mos，所述语音通信质量评估模型用于将第三嵌入式特征向量中干净语音片段对应的声纹特征与待评估语音片段对应的声纹特征进行比对，基于比对结果与干净语音片段的mos，对待评估语音片段进行评分。

8、第二方面，提供了一种语音通信质量的评估装置，所述装置包括：

9、获取模块，用于在目标用户进行音视频通信过程中，获取所述目标用户的待评估语音片段；

10、处理模块，用于对所述待评估语音片段进行处理，得到第一嵌入式特征向量，所述第一嵌入式特征向量用于表征在当前音视频通信场景下所述待评估语音片段在频域上的声纹特征分布；

11、所述获取模块，用于获取第二嵌入式特征向量，所述第二嵌入式特征向量为对所述目标用户的干净语音片段进行处理得到的特征向量，所述第二嵌入式特征向量用于表征在无干扰的音视频通信场景下所述干净语音片段在频域上的声纹特征分布，所述干净语音片段的语音质量分数mos最高；

12、拼接模块，用于对所述第一嵌入式特征向量和所述第二嵌入式特征向量进行拼接，得到第三嵌入式特征向量；

13、所述处理模块，用于调用语音通信质量评估模型，对所述第三嵌入式特征向量进行处理，得到所述待评估语音片段的mos，所述语音通信质量评估模型用于将第三嵌入式特征向量中干净语音片段对应的声纹特征与待评估语音片段对应的声纹特征进行比对，基于比对结果与干净语音片段的mos，对待评估语音片段进行评分。

14、第三方面，提供了一种服务器，所述服务器包括处理器以及存储器；所述存储器存储至少一条程序代码；所述至少一条程序代码用于被所述处理器调用并执行，以实现第一方面所述的语音通信质量的评估方法。

15、第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序被处理器执行时能够实现第一方面所述的语音通信质量的评估方法。

16、第五方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时能够实现第一方面所述的语音通信质量的评估方法。

17、本申请实施例提供的技术方案带来的有益效果是：

18、本申请实施例在目标用户进行音视频通信过程中，获取表征目标用户声纹特征分布的嵌入式特征向量，由于声纹特征分布与语音通信质量有关，与语音内容无关，因此，采用本申请实施例提供的方法能够实现对音视频通信场景下语音通信质量的评估。为提高语音评估质量，本申请实施例预先存储目标用户的第二嵌入式特征向量，该第二嵌入式特征向量用于表征在无干扰的音视频通信场景下用户的干净语音片段在频域上的声纹特征分布，当获取到表征目标用户在当前音视频通信场景下待评估语音片段在频域上的声纹特征分布的第一嵌入式特征向量之后，将目标用户对应的第一嵌入式特征向量和第二嵌入式特征向量进行拼接，得到目标用户对应的第三嵌入式特征向量，该第三嵌入式特征向量同时包含目标用户在当前音视频通信场景下及无干扰的音视频通信场景下的声纹特征分布，然后调用预先训练的语音通信质量评估模型，对目标用户对应的第三嵌入式特征向量进行处理，得到待评估语音片段的mos。相比于第一嵌入式特征向量，第三嵌入式特征向量包含了更为丰富的信息，在实际应用时，语音通信质量评估模型，以干净语音片段对应的第二嵌入式特征向量为先验特征，将第三嵌入式特征向量中干净语音片段对应的声纹特征与待评估语音片段对应的声纹特征进行比对，然后基于比对结果与干净语音片段的mos，对待评估语音片段进行评分，得到的mos更准确。

技术特征：

1.一种语音通信质量的评估方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述调用语音通信质量评估模型，对所述第三嵌入式特征向量进行处理，得到所述待评估语音片段的mos之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述样本待评估语音片段标注有mos，所述基于所述第一样本嵌入式特征向量、所述第二样本嵌入式特征向量、所述第三样本嵌入式特征向量及总目标损失函数，对初始语音通信质量评估模型进行训练，得到所述语音通信质量评估模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述总目标损失函数包括余弦相似度损失函数和质量分数损失函数，所述基于所述第一样本声纹特征向量与所述第二样本声纹特征向量、所述样本待评估语音片段对应的生成mos和标注mos、所述总目标损失函数，对所述初始语音通信质量评估模型的模型参数进行调整，得到所述语音通信质量评估模型，包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述待评估语音片段进行处理，得到第一嵌入式特征向量，包括：

6.根据权利要求5所述的方法，其特征在于，所述调用语音通信质量评估模型，对所述第三嵌入式特征向量进行处理，得到所述待评估语音片段的mos之前，还包括：

7.一种语音通信质量的评估装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.根据权利要求8所述的装置，其特征在于，所述样本待评估语音片段标注有mos，所述训练模块，用于将所述第一样本嵌入式特征向量和所述第二样本嵌入式特征向量分别输入到所述初始语音通信质量评估模型中，经过所述初始语音通信质量评估模型的线性映射层处理后，输出第一样本声纹特征向量和第二样本声纹特征向量；将所述第三样本嵌入式特征向量输入到所述初始语音通信质量评估模型中，输出所述样本待评估语音片段对应的生成mos；基于所述第一样本声纹特征向量与所述第二样本声纹特征向量、所述样本待评估语音片段对应的生成mos和标注mos、所述总目标损失函数，对所述初始语音通信质量评估模型的模型参数进行调整，得到所述语音通信质量评估模型。

10.根据权利要求9所述的装置，其特征在于，所述总目标损失函数包括余弦相似度损失函数和质量分数损失函数，所述训练模块，用于计算所述第一样本声纹特征向量和所述第二样本声纹特征向量的余弦相似度，得到余弦相似度值；将所述余弦相似度值输入到所述余弦相似度损失函数，得到余弦相似度损失函数值；将所述样本待评估语音片段对应的生成mos和标注mos输入到所述质量分数损失函数中，得到质量分数损失函数值；对所述余弦相似度损失函数值和所述量分数损失函数值进行加权计算，得到总损失函数值；基于所述总损失函数的函数值，对初始语音通信质量评估模型的模型参数进行调整，得到所述语音通信质量评估模型。

11.根据权利要求7所述的装置，其特征在于，所述处理模块，用于调用特征提取模型，对所述待评估语音片段进行特征提取，得到第一梅尔频谱特征向量；调用降采样模型，对所述第一梅尔频谱特征向量进行降采样，得到所述第一嵌入式特征向量。

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

13.一种服务器，其特征在于，所述服务器包括处理器以及存储器；所述存储器存储至少一条程序代码；所述至少一条程序代码用于被所述处理器调用并执行，以实现如权利要求1至6中任一项所述的语音通信质量的评估方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序被处理器执行时能够实现如权利要求1至6中任一项所述的语音通信质量的评估方法。

技术总结
本申请提供了一种语音通信质量的评估方法、装置、服务器及存储介质，属于人工智能技术领域。所述方法包括：对目标用户的待评估语音片段进行处理，得到第一嵌入式特征向量；获取目标用户的干净语音片段对应的第二嵌入式特征向量；对第一嵌入式特征向量和第二嵌入式特征向量进行拼接，得到第三嵌入式特征向量；调用语音通信质量评估模型，对第三嵌入式特征向量进行处理，得到待评估语音片段的MOS。本申请将目标用户的待评估语音片段对应的第一嵌入式特征向量和干净语音片段对应的第二嵌入式特征向量进行拼接，然后调用语音通信质量评估模型，对拼接得到的第三嵌入式特征向量进行处理，实现了对音视频通信场景下的语音通信质量的评估。

技术研发人员：郝一亚,熊飞飞,刘粉婷,周柯辰颖,冯津伟
受保护的技术使用者：钉钉（中国）信息技术有限公司
技术研发日：
技术公布日：2024/5/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郝一亚,熊飞飞,刘粉婷,周柯辰颖,冯津伟
技术所有人：钉钉（中国）信息技术有限公司
我是此专利的发明人