音频质量的分析方法和装置、电子设备以及存储介质与流程

文档序号：33942118发布日期：2023-04-26 02:17阅读：74来源：国知局

本申请涉及音频处理，尤其涉及音频质量的分析方法和装置、用于音频分析的神经网络模型的处理方法和装置、语音质量的分析方法和装置、电子设备以及存储介质。

背景技术：

1、近年来，随着实时通信技术(rtc，real-time communication)在教育、办公、娱乐以及社交等场景中的广泛应用，在线教育、视频会议、直播等应用呈现爆发式增长。在实时通信的应用场景下，音频质量的优劣对用户体验产生直接影响。然而，相关技术对音频质量分析的普适性、准确性均有待提高。

2、因此，如何提供具有普适性的音频质量的分析方法，从而客观、准确地评价实时通信中的音频质量对于进一步推动实时通信技术的发展具有研究意义。

技术实现思路

1、本申请实施例提供一种音频质量的分析方法和装置、电子设备及存储介质，以解决上述一个或多个技术问题。

2、第一方面，本申请实施例提供了一种音频质量的分析方法，所述方法包括：

3、获取待分析的目标音频数据；

4、对所述目标音频数据进行音频信号处理，获得频带宽度扩大后的目标音频数据；

5、使用神经网络模型对所述目标音频数据进行音频分析，得到所述目标音频数据的音频分析信息，所述音频分析信息包括多个质量分析维度下的分析结果。

6、第二方面，本申请实施例提供了一种用于音频分析的神经网络模型的处理方法，所述方法包括：

7、获取音频数据样本，所述音频数据样本标记有对应的音频分析信息；

8、对所述音频数据样本进行音频信号处理，获得频带宽度扩大后的音频数据样本；

9、基于所述音频数据样本训练神经网络模型，所述神经网络模型用于通过音频分析确定音频分析信息，所述音频分析信息包括多个质量分析维度下的分析结果。

10、第三方面，本申请实施例提供了一种语音质量的分析方法，所述方法包括：

11、获取音视频会话中实时传输的语音数据；

12、对所述语音数据进行音频信号处理，获得频带宽度扩大后的语音数据；

13、使用神经网络模型对所述语音数据进行音频分析，得到所述语音数据的音频分析信息，所述音频分析信息包括多个质量分析维度下的分析结果；

14、向参与所述音视频会话至少一个客户端提供所述音频分析信息。

15、第四方面，本申请实施例提供了一种音频质量的分析方法，所述方法包括：

16、获取对目标音频数据的音频分析信息，所述音频分析信息使用神经网络模型对所述目标音频数据进行音频分析得到，所述目标音频数据已通过音频信号处理扩大频带宽度，所述音频分析信息包括多个质量分析维度下的分析结果；

17、基于客户端提供所述音频分析信息。

18、第五方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器在执行所述计算机程序时实现上述任一项所述的方法。

19、第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法。

20、与相关技术相比，本申请具有如下优点：

21、依据本申请实施例，首先获取待分析的目标音频数据，目标音频数据可以是实时通信中的时域音频信号，或是音频文件。由于神经网络模型可以对目标音频数据直接进行分析，而不需要除了音频信号以外的数据，如由实时通信程序内的sdk(softwaredevelopment kit，软件开发工具包)埋点监测的丢包率、信噪比等数据，因此，本申请实施例提供的音频质量分析方法的应用灵活性更强，应用范围更广，具有更高的普适性。

22、通过对所获取的目标音频数据进行音频信号处理，以获得频带宽度扩大后的目标音频数据，从而恢复低采样率的目标音频数据在较高频段中丢失的信息，以实现对于多种频带宽度音频的质量分析。若将目标音频数据通过音频信号处理，上采样(upsampling)为48khz的音频数据，则可以实现窄带、宽带、超宽带的全频带音频质量分析，适用于窄带通话以及高质量直播、会议、教育等应用场景，提升了音频质量分析方法的普适性和易用性。

23、通过使用神经网络模型对目标音频数据进行音频分析，得到多个质量分析维度下的分析结果，以实现对目标音频数据的多角度分析，并可以在音频质量出现问题的情况下根据分析结果排查导致问题出现的维度。由于质量分析维度与影响音频质量的因素具有对应关系，因此还可以根据所获得的分析结果定位影响音频质量的根本原因，并根据所定位的原因提供改善音频质量的建议。

24、在使用神经网络模型对目标音频数据进行音频分析前，还可以对目标音频数据做分频处理，然后分别提取对应不同频带范围的多个子带频谱的音频特征。在分频后得到的各子带频谱携带的信息量不同时，可以为携带信息量更多的频段分配提取更多维度的音频特征，以提高音频质量分析的准确度。在提取音频特征时，可以选择更符合人耳的听觉特性的梅尔谱特征，以使音频质量分析结果更贴近人类的听感。

25、在构建用于音频分析的神经网络模型时，可以首先根据初始音频数据样本及其对应的音频质量分析信息，构建音频数据参数与音频质量分析信息之间的拟合函数，然后通过拟合函数为调整参数后的初始音频数据标记对应的音频质量分析信息，以获得新增音频数据样本，从而扩大了音频数据样本的数据量，同时还减轻了对音频数据样本标记音频质量分析信息的人工成本。使用扩大数据量后的音频数据样本训练用于音频分析的神经网络模型，可以提高模型的准确性。

26、上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，可依照说明书的内容予以实施，并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

技术特征：

1.一种音频质量的分析方法，包括：

2.根据权利要求1所述的方法，其中，所述使用神经网络模型对所述目标音频数据进行音频分析包括：

3.根据权利要求2所述的方法，其中，在所述使用神经网络模型对所述目标音频数据进行音频分析，得到所述目标音频数据的音频分析信息之前，所述方法还包括：

4.根据权利要求1所述的方法，其中，在所述使用神经网络模型对所述目标音频数据进行音频分析，得到所述目标音频数据的音频分析信息之前，所述方法还包括：

5.根据权利要求1所述的方法，其中，所述音频分析信息包括问题分析信息；

6.根据权利要求1所述的方法，其中，所述方法还包括：

7.根据权利要求1所述的方法，其中，所述获取待分析的目标音频数据包括如下至少一种：

8.根据权利要求1所述的方法，其中，所述质量分析维度包括音频连续性、噪声、音频着色或响度，所述音频分析信息还包括所述目标音频数据在多个质量分析维度下的综合分析结果。

9.根据权利要求1所述的方法，其中，从所述目标音频数据中分割出干扰音频数据，所述干扰音频数据包括噪声、空白音频和音乐中至少一种；

10.根据权利要求1所述的方法，其中，所述方法还包括：

11.一种用于音频分析的神经网络模型的处理方法，包括：

12.根据权利要求11所述的方法，其中，所述获取音频数据样本包括：

13.根据权利要求12所述的方法，其中，所述确定与所述新增音频数据样本对应的音频分析信息包括：

14.根据权利要求11所述的方法，其中，所述音频分析信息还包括综合分析结果；

15.一种语音质量的分析方法，包括：

16.一种音频质量的分析方法，包括：

17.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器在执行所述计算机程序时实现权利要求1-16中任一项所述的方法。

18.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-16中任一项所述的方法。

技术总结
本申请提供了一种音频质量的分析方法和装置、电子设备以及存储介质，依据本申请实施例，可以从多个维度直接对音频本身的质量进行准确分析。首先获取待分析的目标音频数据，然后对所获取的目标音频数据进行音频信号处理，以获得频带宽度扩大后的目标音频数据，从而可以提高质量分析的准确度，并实现多种频带宽度音频的质量分析。最后使用神经网络模型对目标音频数据进行音频分析，得到目标音频数据的音频分析信息，其中，音频分析信息包括多个质量分析维度下的分析结果。由于质量分析维度与影响音频质量的因素具有对应关系，因此可以根据所获得的分析结果排查影响音频质量的问题，定位影响音频质量的原因。

技术研发人员：方博伟,朋尔
受保护的技术使用者：阿里巴巴（中国）有限公司
技术研发日：
技术公布日：2024/1/11

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：方博伟朋尔
技术所有人：阿里巴巴（中国）有限公司
我是此专利的发明人

上一篇：数据查询方法及其装置、设备、介质及产品与流程
上一篇：资源的收益预测方法、装置、电子设备及存储介质与流程