音频处理方法、设备及存储介质与流程

文档序号：33034663发布日期：2023-01-24 18:58阅读：28来源：国知局

1.本技术涉及计算机技术领域，尤其涉及一种音频处理方法、设备及存储介质。

背景技术：

2.在音频处理的相关场景中，由于对歌声类型的音频和说话声类型的音频有着不同的处理需求，例如，需要对说话声类型的音频进行说话声增强，以使说话声更加突出，又如，需要对歌声类型的音频进行修音，以使歌声更加优美动听；基于此，能够准确判别音频为歌声类型还是说话声类型是非常重要的，但现有的判别方案中，通常基于音频的频宽来进行判别，即由于说话声的频率一般在300至3400赫兹之间，而歌声的频率涵盖了人耳所能听到的20至20千赫兹，所以可以在音频的频率处于300至3400赫兹时，将该音频判别为说话声类型，在音频的频率处于20至20千赫兹时，将该音频判别为歌声类型，判别准确度低。

技术实现要素：

3.本技术实施例提供一种音频处理方法、装置、设备、存储介质及计算机程序产品，可以准确判别音频的音频类型。
4.一方面，本技术实施例提供了一种音频处理方法，包括：
5.对目标音频进行特征提取处理，得到所述目标音频的类型判别特征；所述类型判别特征至少包括以下任一种：语速特征、基频波动特征以及能量占比特征，所述基频波动特征用于指示所述目标音频在持续的目标时间段内的基频的波动情况，所述能量占比特征用于指示所述目标音频处于预设频段内的能量与所述目标音频在所处全频段内的能量之间的差异；
6.根据所述目标音频的类型判别特征与所述类型判别特征对应的预设特征值范围的比较结果，确定所述目标音频的音频类型；所述音频类型为歌声类型或说话声类型。
7.一方面，本技术实施例提供了一种音频处理装置，包括：
8.提取单元，用于对目标音频进行特征提取处理，得到所述目标音频的类型判别特征；所述类型判别特征至少包括以下任一种：语速特征、基频波动特征以及能量占比特征，所述基频波动特征用于指示所述目标音频在持续的目标时间段内的基频的波动情况，所述能量占比特征用于指示所述目标音频处于预设频段内的能量与所述目标音频在所处全频段内的能量之间的差异；
9.判别单元，用于根据所述目标音频的类型判别特征与所述类型判别特征对应的预设特征值范围的比较结果，确定所述目标音频的音频类型；所述音频类型为歌声类型或说话声类型。
10.一方面，本技术实施例提供了一种音频处理设备，其特征在于，所述音频处理设备包括输入接口和输出接口，还包括：
11.处理器，适于实现一条或多条指令；以及，
12.计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条
指令适于由所述处理器加载并执行上述音频处理方法。
13.一方面，本技术实施例提供了一种计算机存储介质，其特征在于，所述计算机存储介质中存储有计算机程序指令，所述计算机程序指令被处理器执行时，用于执行上述音频处理方法。
14.一方面，本技术实施例提供了一种计算机程序产品，计算机程序产品包括计算机程序，该计算机程序存储在计算机存储介质中；音频处理设备的处理器从计算机存储介质中读取该计算机程序，处理器执行该计算机程序，使得音频处理设备执行上述音频处理方法。
15.本技术实施例中，可以基于目标音频的语速特征、目标音频的基频波动特征以及目标音频的能量占比特征中的一种或多种类型判别特征，来对目标音频的音频类型进行判别。目标音频的语速特征可以用于指示目标音频的语速快慢，当基于目标音频的语速特征来对目标音频的音频类型进行判别时，即可以根据说话和唱歌时的物理发声区别所导致的语速的快慢来进行音频类型的判别，根据语速快慢的区别可以准确判别音频的音频类型。目标音频的基频波动特征可以用于指示，目标音频在持续的目标时间段内的基频的波动情况，由于基频决定了声音的音调，当基于目标音频的基频波动特征来对目标音频的音频类型进行判别时，即可以根据说话和唱歌时的物理发声区别所导致的音调的波动情况来进行音频类型的判别，根据音调波动大小的区别可以准确判别音频的音频类型。目标音频的能量占比特征可以用于指示，目标音频处于预设频段内的能量，与目标音频在所处全频段内的能量之间的差异，当预设频段被设定为用于指示说话声所处频率的说话声频段，当基于目标音频的能量占比特征来对目标音频的音频类型进行判别时，即可以根据说话和唱歌时的物理发声区别所导致的说话声频段的能量的显著情况来进行音频类型的判别，根据频段能量的显著情况可以准确判别音频的音频类型。并且，当基于目标音频的语速特征、目标音频的基频波动特征以及目标音频的能量占比特征中的多种类型判别特征，来对目标音频的音频类型进行判别时，可以充分利用多种类型判别特征，使得可进一步提高音频类型的判别准确性。
附图说明
16.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
17.图1是本技术实施例提供的一种对音频的音频类型进行判别的判别流程图；
18.图2是本技术实施例提供的另一种对音频的音频类型进行判别的判别流程图；
19.图3是本技术实施例提供的一种音频处理方法的流程示意图；
20.图4是本技术实施例提供的另一种音频处理方法的流程示意图；
21.图5a是本技术实施例提供的一种对目标音频进行语音识别处理的结果示意图；
22.图5b是本技术实施例提供的一种对目标音频进行语音识别处理的结果示意图；
23.图6是本技术实施例提供的另一种音频处理方法的流程示意图；
24.图7a是本技术实施例提供的一种提取得到的目标音频的基频示意图；
25.图7b是本技术实施例提供的另一种提取得到的目标音频的基频示意图；
26.图8a是本技术实施例提供的一种有效采样点对应的音符映射结果的示意图；
27.图8b是本技术实施例提供的另一种有效采样点对应的音符映射结果的示意图；
28.图9是本技术实施例提供的另一种音频处理方法的流程示意图；
29.图10是本技术实施例提供的一种平均功率谱的对比示意图；
30.图11是本技术实施例提供的另一种音频处理方法的流程示意图；
31.图12是本技术实施例提供的另一种对音频的音频类型进行判别的判别流程图；
32.图13是本技术实施例提供的音频处理装置的结构示意图；
33.图14是本技术实施例提供的音频处理设备的结构示意图。
具体实施方式
34.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
35.本技术实施例提供了一种音频处理方案，可以对目标音频进行特征提取处理，得到目标音频的类型判别特征；进而根据目标音频的类型判别特征与类型判别特征对应的预设特征值范围的比较结果，确定目标音频的音频类型为歌声类型或说话声类型；其中，目标音频的类型判别特征用于判别目标音频的音频类型为歌声类型或说话声类型，类型判别特征至少包括以下任一种：语速特征、基频波动特征以及能量占比特征，目标音频的基频波动特征用于指示：目标音频在持续的目标时间段内的基频的波动情况，目标音频的能量占比特征用于指示：目标音频处于预设频段内的能量，与目标音频在所处全频段内的能量之间的差异。
36.在具体实现中，本技术实施例提出的音频处理方案可以由音频处理设备执行，该音频处理设备可以为终端设备或者服务器；此处的终端设备可包括但不限于：计算机、智能手机、平板电脑、笔记本电脑、智能家电、车载终端、智能可穿戴设备等；此处的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。进一步可选的，本技术实施例提出的音频处理方案还可以由其他有计算力的电子设备单独或协同执行，本技术实施例不做限制。
37.在一个实施例中，音频处理设备根据目标音频的类型判别特征与类型判别特征对应的预设特征值范围的比较结果，确定目标音频的音频类型，可以包括：若目标音频的类型判别特征为一种，且目标音频的该类型判别特征符合相应类型判别特征对应的预设特征值范围，则将目标音频的音频类型判别为歌声类型；若目标音频的类型判别特征为一种，且目标音频的该类型判别特征不符合相应类型判别特征对应的预设特征值范围，则将目标音频的音频类型判别为说话声类型；若目标音频的类型判别特征为多种，且在目标音频的多种类型判别特征中，存在至少一种类型判别特征符合该至少一种类型判别特征对应的预设特征值范围，则将目标音频的音频类型判别为歌声类型；若目标音频的类型判别特征为多种，
且在目标音频的多种类型判别特征中，每种类型判别特征均不符合每种类型判别特征对应的预设特征值范围，则将目标音频的音频类型判别为说话声类型。
38.在一个实施例中，在目标音频的类型判别特征为一种的情况下，参见图1，为本技术实施例提供的一种对音频的音频类型进行判别的判别流程图；其步骤可以包括：
①
对目标音频进行特征提取处理，得到目标音频的类型判别特征；
②
判断目标音频的该类型判别特征是否不符合相应类型判别特征对应的预设特征值范围，即判断目标音频的该类型判别特征是否处于相应类型判别特征对应的预设特征值范围外；
③
若目标音频的该类型判别特征不符合相应类型判别特征对应的预设特征值范围，即目标音频的该类型判别特征处于相应类型判别特征对应的预设特征值范围外，则将目标音频的音频类型判别为说话声类型；
④
否则，将目标音频的音频类型判别为歌声类型。
39.在一个实施例中，在目标音频的类型判别特征为多种的情况下，参见图2，为本技术实施例提供的另一种对音频的音频类型进行判别的判别流程图；其步骤可以包括：
①
对目标音频进行特征提取处理，得到目标音频的多种类型判别特征；
②
判断在目标音频的多种类型判别特征中，是否每种类型判别特征均不符合每种类型判别特征对应的预设特征值范围，即判断在目标音频的多种类型判别特征中，是否每种类型判别特征均处于每种类型判别特征对应的预设特征值范围外；
③
若在目标音频的多种类型判别特征中，每种类型判别特征均不符合每种类型判别特征对应的预设特征值范围，即在目标音频的多种类型判别特征中，每种类型判别特征均处于每种类型判别特征对应的预设特征值范围外，则将目标音频的音频类型判别为说话声类型；
④
否则，将目标音频的音频类型判别为歌声类型。
40.特别需要说明的是，在本技术的具体实施方式中，涉及到对象相关的数据，例如目标音频为对象录入的音频等，当本技术实施例运用到具体产品或技术中时，需要获得对象许可或者同意，且相关数据的收集、使用和处理需要遵守当地法律法规和标准。
41.基于上述音频处理方案，本技术实施例提供了一种音频处理方法。参见图3为本技术实施例提供的一种音频处理方法的流程示意图。图3所示的音频处理方法可由音频处理设备执行，也可以由其他有计算力的电子设备单独或协同执行，本技术实施例以音频处理设备为例。图3所示的音频处理方法可包括如下步骤：
42.s301，对目标音频进行特征提取处理，得到目标音频的类型判别特征。
43.在一个实施例中，目标音频可以为待进行音频类型判别的任意原始音频，也可以为对原始音频进行语音增强、降噪等处理之后的音频；其中，对原始音频进行语音增强、降噪等处理时，可以通过现有工具实现，例如可以使用webrtc(即web real-time communication，网页实时通信)、speex等工具中的信号处理模块，rnnnoise等轻量级nn降噪工具；对原始音频进行语音增强、降噪等处理后，有利于提升判别效果的鲁棒性。
44.目标音频的类型判别特征用于判别目标音频的音频类型为歌声类型或说话声类型，类型判别特征至少包括以下任一种：语速特征、基频波动特征以及能量占比特征。其中，目标音频的语速特征可以用于指示：目标音频的语速快慢。目标音频的基频波动特征可以用于指示：目标音频在持续的目标时间段内的基频的波动情况；由于基频为音频中最低的频率，基频决定了声音的音调，所以目标音频的基频波动特征还可以用于指示：目标音频的音调的波动情况。目标音频的能量占比特征用于指示：目标音频处于预设频段内的能量，与目标音频在所处全频段内的能量之间的差异；其中，可以根据具体需求对预设频段进行设
定，例如，可以将预设频段设定为：用于指示说话声所处频率的说话声频段，由于说话声的频率一般在300至3400赫兹之间，所以说话声频段可以为300至3400赫兹之间的频段。
45.s302，根据目标音频的类型判别特征与类型判别特征对应的预设特征值范围的比较结果，确定目标音频的音频类型；音频类型为歌声类型或说话声类型。
46.在一个实施例中，音频处理设备根据目标音频的类型判别特征与类型判别特征对应的预设特征值范围的比较结果，确定目标音频的音频类型，可以包括：若目标音频的类型判别特征为一种，且目标音频的该类型判别特征符合相应类型判别特征对应的预设特征值范围，则将目标音频的音频类型判别为歌声类型；若目标音频的类型判别特征为一种，且目标音频的该类型判别特征不符合相应类型判别特征对应的预设特征值范围，则将目标音频的音频类型判别为说话声类型；若目标音频的类型判别特征为多种，且在目标音频的多种类型判别特征中，存在至少一种类型判别特征符合该至少一种类型判别特征对应的预设特征值范围，则将目标音频的音频类型判别为歌声类型；若目标音频的类型判别特征为多种，且在目标音频的多种类型判别特征中，每种类型判别特征均不符合每种类型判别特征对应的预设特征值范围，则将目标音频的音频类型判别为说话声类型。
47.本技术实施例中，可以基于目标音频的语速特征、目标音频的基频波动特征以及目标音频的能量占比特征中的一种或多种类型判别特征，来对目标音频的音频类型进行判别。目标音频的语速特征可以用于指示目标音频的语速快慢，当基于目标音频的语速特征来对目标音频的音频类型进行判别时，即可以根据说话和唱歌时的物理发声区别所导致的语速的快慢来进行音频类型的判别，根据语速快慢的区别可以准确判别音频的音频类型。目标音频的基频波动特征可以用于指示，目标音频在持续的目标时间段内的基频的波动情况，由于基频决定了声音的音调，当基于目标音频的基频波动特征来对目标音频的音频类型进行判别时，即可以根据说话和唱歌时的物理发声区别所导致的音调的波动情况来进行音频类型的判别，根据音调波动大小的区别可以准确判别音频的音频类型。目标音频的能量占比特征可以用于指示，目标音频处于预设频段内的能量，与目标音频在所处全频段内的能量之间的差异，当预设频段被设定为用于指示说话声所处频率的说话声频段，当基于目标音频的能量占比特征来对目标音频的音频类型进行判别时，即可以根据说话和唱歌时的物理发声区别所导致的说话声频段的能量的显著情况来进行音频类型的判别，根据频段能量的显著情况可以准确判别音频的音频类型。并且，当基于目标音频的语速特征、目标音频的基频波动特征以及目标音频的能量占比特征中的多种类型判别特征，来对目标音频的音频类型进行判别时，可以充分利用多种类型判别特征，使得可进一步提高音频类型的判别准确性。
48.基于上述音频处理方案，本技术实施例提供了另一种音频处理方法，该音频处理方法以目标音频的类型判别特征为一种，且目标音频的类型判别特征包括目标音频的语速特征来进行阐述。参见图4为本技术实施例提供的另一种音频处理方法的流程示意图。图4所示的音频处理方法可由音频处理设备执行，也可以由其他有计算力的电子设备单独或协同执行，本技术实施例以音频处理设备为例。图4所示的音频处理方法可包括如下步骤：
49.s401，对目标音频进行特征提取处理，得到目标音频的类型判别特征；类型判别特征包括语速特征。
50.在一个实施例中，音频处理设备对目标音频进行特征提取处理，得到目标音频的
语速特征，可以包括：对目标音频进行语音识别处理，得到目标音频对应的文字内容以及各个文字内容在目标音频中的发声开始时间和发声结束时间；基于各个文字内容的发声开始时间和发声结束时间，确定各个文字内容的平均发声时长；基于平均发声时长，确定目标音频的语速特征，其中，目标音频的语速特征与平均发声时长呈负相关关系。
51.具体实现中，音频处理设备对目标音频进行语音识别处理，得到目标音频对应的文字内容以及各个文字内容在目标音频中的发声开始时间和发声结束时间，可以是调用现有的开源语音识别(automatic speech recognition，asr)工具实现的，本技术实施例不做限制。进一步的，目标音频的语速特征可以用单位时间内所包括的文字内容的数量进行表征，此时，目标音频的语速特征可以由以下公式1示出：
[0052][0053]
其中，wpm可以表示单位时间内所包括的文字内容的数量，即1分钟内所包括的文字内容的数量，也即目标音频的语速特征；tw可以表示平均发声时长。
[0054]
举例来说，参见图5a，为本技术实施例提供的一种对目标音频进行语音识别处理的结果示意图，该目标音频为说话声类型的音频1，得到的目标音频对应的文字内容为：五、星、红、旗、迎、风、飘、扬，用拼音表示为：wu、xing、hong、qi、ying、feng、piao、yang，示例性的，文字内容“五”的发声开始时间可以如501标记所示，发声结束时间可以如502标记所示；参见表1，示出了该目标音频对应的各个文字内容的发声开始时间和发声结束时间，以及基于各个文字内容的发声开始时间和发声结束时间，确定出的各个文字内容对应的发声时长以及平均发声时长；其中，任一文字内容对应的发声时长为：该文字内容的发声结束时间，减该文字内容的发声开始时间；各个文字内容的平均发声时长由对各个文字内容对应的发声时长进行平均处理得到；进一步的，基于平均发声时长，确定出的目标音频的语速特征约为258.34(60
÷
0.23225)。
[0055]
表1
[0056][0057]
举例来说，参见图5b，为本技术实施例提供的另一种对目标音频进行语音识别处
理的结果示意图，该目标音频为歌声类型的音频2，得到的目标音频对应的文字内容为：五、星、红、旗、迎、风、飘、扬，用拼音表示为：wu、xing、hong、qi、ying、feng、piao、yang，示例性的，文字内容“五”的发声开始时间可以如511标记所示，发声结束时间可以如512标记所示；参见表2，示出了该目标音频对应的各个文字内容的发声开始时间和发声结束时间，以及基于各个文字内容的发声开始时间和发声结束时间，确定出的各个文字内容对应的发声时长以及平均发声时长；其中，任一文字内容对应的发声时长为：该文字内容的发声结束时间，减该文字内容的发声开始时间；各个文字内容的平均发声时长由对各个文字内容对应的发声时长进行平均处理得到；进一步的，基于平均发声时长，确定出的目标音频的语速特征约为93.60(60
÷
0.641)。
[0058]
表2
[0059][0060]
s402，若目标音频的语速特征符合语速特征对应的预设特征值范围，则将目标音频的音频类型判别为歌声类型。
[0061]
s403，若目标音频的语速特征不符合语速特征对应的预设特征值范围，则将目标音频的音频类型判别为说话声类型。
[0062]
步骤s402至步骤s403中，语速特征对应的预设特征值范围可以为小于第一语速阈值或大于第二语速阈值的范围，其中，第一语速阈值小于第二语速阈值；第一语速阈值和第二语速阈值可以根据具体需求进行设定。具体实现中，若目标音频的语速特征符合语速特征对应的预设特征值范围，则将目标音频的音频类型判别为歌声类型，可以包括：若目标音频的语速特征处于语速特征对应的预设特征值范围内，则将目标音频的音频类型判别为歌声类型；也就是说，若目标音频的语速特征小于第一语速阈值或大于第二语速阈值，则将目标音频的音频类型判别为歌声类型。
[0063]
进一步的，若目标音频的语速特征不符合语速特征对应的预设特征值范围，则将目标音频的音频类型判别为说话声类型，可以包括：若目标音频的语速特征处于语速特征对应的预设特征值范围外，则将目标音频的音频类型判别为说话声类型；也就是说，若目标音频的语速特征大于或等于第一语速阈值，且小于或等于第二语速阈值，则将目标音频的
音频类型判别为说话声类型。
[0064]
举例来说，说话时1分钟内所说文字内容的数量通常在150个文字至260个文字之间，即[150，260]，因此，可以将第一语速阈值设定为150，第二语速阈值设定为260；那么，表1所对应的音频1的音频类型被判别为说话声类型，表2所对应的音频2的音频类型被判别为歌声类型。
[0065]
在另一种可行的实施方式中，目标音频的语速特征也可以用平均发声时长表征；那么此时，语速特征对应的预设特征值范围可以为大于第一发声时长阈值或小于第二发声时长阈值的范围，其中，第一发声时长阈值大于第二发声时长阈值；第一发声时长阈值和第二发声时长阈值可以根据具体需求进行设定；更进一步的，第一发声时长阈值与第一语速阈值成反比例关系，第二发声时长阈值与第二语速阈值成反比例关系。
[0066]
具体实现中，若目标音频的语速特征符合语速特征对应的预设特征值范围，则将目标音频的音频类型判别为歌声类型，可以包括：若目标音频的语速特征处于语速特征对应的预设特征值范围内，则将目标音频的音频类型判别为歌声类型；也就是说，若目标音频的语速特征大于第一发声时长阈值或小于第二发声时长阈值，则将目标音频的音频类型判别为歌声类型。
[0067]
进一步的，若目标音频的语速特征不符合语速特征对应的预设特征值范围，则将目标音频的音频类型判别为说话声类型，可以包括：若目标音频的语速特征处于语速特征对应的预设特征值范围外，则将目标音频的音频类型判别为说话声类型；也就是说，若目标音频的语速特征小于或等于第一发声时长阈值，且大于或等于第二发声时长阈值，则将目标音频的音频类型判别为说话声类型。
[0068]
本技术实施例中，可以对目标音频进行特征提取处理，得到目标音频的语速特征；进而在目标音频的语速特征符合语速特征对应的预设特征值范围的情况下，将目标音频的音频类型判别为歌声类型，在目标音频的语速特征不符合语速特征对应的预设特征值范围的情况下，将目标音频的音频类型判别为说话声类型；也即在目标音频的语速特征小于第一语速阈值或大于第二语速阈值的情况下，将目标音频的音频类型判别为歌声类型，在目标音频的语速特征大于或等于第一语速阈值，并且小于或等于第二语速阈值的情况下，将目标音频的音频类型判别为说话声类型；可以根据目标音频的语速的快慢来对目标音频的音频类型进行判别，在语速过快或过慢时，将音频类型判别为歌声类型，否则将音频类型判别为说话声类型，即可以根据说话和唱歌时的物理发声区别所导致的语速的快慢来进行音频类型的判别，可以准确判别音频的音频类型。
[0069]
基于上述音频处理方案，本技术实施例提供了另一种音频处理方法，该音频处理方法以目标音频的类型判别特征为一种，且目标音频的类型判别特征包括目标音频的基频波动特征来进行阐述。参见图6为本技术实施例提供的另一种音频处理方法的流程示意图。图6所示的音频处理方法可由音频处理设备执行，也可以由其他有计算力的电子设备单独或协同执行，本技术实施例以音频处理设备为例。图6所示的音频处理方法可包括如下步骤：
[0070]
s601，对目标音频进行特征提取处理，得到目标音频的类型判别特征；类型判别特征包括基频波动特征。
[0071]
在一个实施例中，音频处理设备对目标音频进行特征提取处理，得到目标音频的
基频波动特征，可以包括：提取目标音频的基频；在目标时间段内，对目标音频的基频进行采样处理，得到各个采样点对应的基频；基于各个采样点对应的基频之间的差异，确定目标音频的基频波动特征。
[0072]
具体实现中，音频处理设备提取目标音频的基频时，可以调用现有的开源工具来实现，例如可以调用pyin，crepe，harvest等开源工具来实现；参见图7a，为本技术实施例提供的一种提取得到的目标音频的基频示意图，该目标音频为表1所对应的音频1，参见图7b，为本技术实施例提供的另一种提取得到的目标音频的基频示意图，该目标音频为表2所对应的音频2。进一步的，目标时间段为目标音频播放时所持续的时间段，相应时长为目标音频的时长；音频处理设备在目标时间段内，对目标音频的基频进行采样处理所采用的采样间隔可以根据具体需求进行设定，例如，该采样间隔可以被设定为5毫秒(ms)、10毫秒等，本技术实施例后续以该采样间隔为5毫秒为例进行阐述。
[0073]
进一步的，音频处理设备基于各个采样点对应的基频之间的差异，确定目标音频的基频波动特征，可以包括：对各个采样点对应的基频进行标准差计算处理，得到目标标准差；将目标标准差确定为目标音频的基频波动特征；此时，目标音频的基频波动特征可以由以下公式2.1示出：
[0074][0075]
其中，n表示在目标时间段内，对目标音频的基频进行采样处理，得到的采样点的数量；n为自变量，[voiced]表示由得到的各个采样点所构成的采样点集合，数量为n；f(n)表示第n个采样点对应的基频；表示各个采样点对应的基频的均值，具体可以由以下公式2.2示出：
[0076][0077]
在另一种可行的实施方式中，音频处理设备对各个采样点对应的基频进行标准差计算处理，得到目标标准差，可以包括：对各个采样点对应的基频进行音符映射处理，得到各个采样点对应的音符映射结果；对各个采样点对应的音符映射结果进行标准差计算处理，得到目标标准差；进而可以将目标标准差确定为目标音频的基频波动特征。
[0078]
具体实现中，音频处理设备对采样点对应的基频进行音符映射处理，得到采样点对应的音符映射结果，可以由以下公式3.1示出：
[0079]
c(n)＝12
·
log2(f(n)/440)+69
ꢀꢀ
(3.1)
[0080]
其中，f(n)表示第n个采样点对应的基频，c(n)表示第n个采样点对应的音符映射结果。
[0081]
进一步的，音频处理设备可以对各个采样点对应的音符映射结果进行标准差计算处理，得到目标标准差；将目标标准差确定为目标音频的基频波动特征，此时，目标音频的基频波动特征可以由以下公式3.2.1示出：
[0082][0083]
其中，n表示在目标时间段内，对目标音频的基频进行采样处理，得到的采样点的
数量；n为自变量，[voiced]表示由得到的各个采样点所构成的采样点集合，数量为n；表示各个采样点对应的音符映射结果的均值，具体可以由以下公式3.2.2示出：
[0084][0085]
在另一种可行的实施方式中，音频处理设备对各个采样点对应的基频进行音符映射处理时，可以将各个采样点对应的基频向参考音符进行映射，该参考音符可以为88个钢琴音符，可以用数字1至88表示；基于此，音频处理设备得到各个采样点对应的音符映射结果之后，还可以对各个采样点对应的音符映射结果中的有效采样点对应的音符映射结果进行标准差计算处理，得到目标标准差，将目标标准差确定为目标音频的基频波动特征。其中，有效采样点是指音符映射结果为参考音符的采样点，即音符映射结果属于[1，88]的采样点，目标音频的基频在有效采样点上表现为浊音；参见图8a，为本技术实施例提供的一种有效采样点对应的音符映射结果的示意图，该有效采样点对应的音符映射结果的示意图所指示的目标音频为表1所对应的音频1，其中，如801标记所示展现了目标音频中有效采样点对应的音符映射结果，如802标记所示展现了目标音频的浊音部分中，有效采样点对应的音符映射结果，由801和802对比可知，目标音频中有效采样点对应的音符映射结果，与目标音频的浊音部分中，有效采样点对应的音符映射结果相同，也可知目标音频的基频在有效采样点上表现为浊音；参见图8b，为本技术实施例提供的另一种有效采样点对应的音符映射结果的示意图，该有效采样点对应的音符映射结果的示意图所指示的目标音频为表2所对应的音频2，其中，如811标记所示展现了目标音频中有效采样点对应的音符映射结果，如812标记所示展现了目标音频的浊音部分中，有效采样点对应的音符映射结果。
[0086]
进一步的，目标音频的基频波动特征可以由以下公式3.3.1示出：
[0087][0088]
其中，n
′
表示各个采样点中，有效采样点的数量，即n个采样点中，有效采样点的数量；n为自变量，[voiced
′
]表示由得到的各个有效采样点所构成的有效采样点集合，数量为n
′
；表示各个有效采样点对应的音符映射结果的均值，具体可以由以下公式3.3.2示出：
[0089][0090]
s602，若目标音频的基频波动特征符合基频波动特征对应的预设特征值范围，则将目标音频的音频类型判别为歌声类型。
[0091]
s603，若目标音频的基频波动特征不符合基频波动特征对应的预设特征值范围，则将目标音频的音频类型判别为说话声类型。
[0092]
步骤s602至步骤s603中，基频波动特征对应的预设特征值范围为大于基频波动阈值的范围；基频波动阈值可以根据具体需求进行设定。具体实现中，若目标音频的基频波动特征符合基频波动特征对应的预设特征值范围，则将目标音频的音频类型判别为歌声类型，可以包括：若目标音频的基频波动特征处于基频波动特征对应的预设特征值范围内，则将目标音频的音频类型判别为歌声类型；也就是说，若目标音频的基频波动特征大于基频波动阈值，则将目标音频的音频类型判别为歌声类型。
[0093]
进一步的，若目标音频的基频波动特征不符合基频波动特征对应的预设特征值范
围，则将目标音频的音频类型判别为说话声类型，可以包括：若目标音频的基频波动特征处于基频波动特征对应的预设特征值范围外，则将目标音频的音频类型判别为说话声类型；也就是说，若目标音频的基频波动特征小于或等于基频波动阈值，则将目标音频的音频类型判别为说话声类型。
[0094]
在一种可行的实施方式中，可以从大量歌声类型的音频的基频波动特征中提取歌声类型的音频的基频波动特征经验值，从大量说话声类型的音频的基频波动特征中提取说话声类型的音频的基频波动特征经验值，进而基于歌声类型的音频的基频波动特征经验值，以及说话声类型的音频的基频波动特征经验值确定基频波动阈值，使得确定出的基频波动阈值大于说话声类型的音频的基频波动特征经验值，并且小于歌声类型的音频的基频波动特征经验值；举例来说，若提取得到的说话声类型的音频的基频波动特征经验值为1.38(表示为：δ
speech
＝1.38)，提取得到的歌声类型的音频的基频波动特征经验值为3.33(表示为：δ
sing
＝3.33)，则可选的，确定出的基频波动阈值可以为3(表示为：δ
thr
＝3)。
[0095]
本技术实施例中，可以对目标音频进行特征提取处理，得到目标音频的基频波动特征；进而在目标音频的基频波动特征符合基频波动特征对应的预设特征值范围的情况下，将目标音频的音频类型判别为歌声类型，在目标音频的基频波动特征不符合基频波动特征对应的预设特征值范围的情况下，将目标音频的音频类型判别为说话声类型；也即在目标音频的基频波动特征大于基频波动阈值的情况下，将目标音频的音频类型判别为歌声类型，在目标音频的基频波动特征小于或等于基频波动阈值的情况下，将目标音频的音频类型判别为说话声类型；可以根据目标音频在持续的目标时间段内的基频的波动情况来对目标音频的音频类型进行判别，由于基频决定了声音的音调，换言之，可以根据目标音频的音调的波动情况来对目标音频的音频类型进行判别；在基频波动剧烈时，将音频类型判别为歌声类型，否则将音频类型判别为说话声类型，即可以根据说话和唱歌时的物理发声区别所导致的音调的波动情况来进行音频类型的判别，可以准确判别音频的音频类型。
[0096]
基于上述音频处理方案，本技术实施例提供了另一种音频处理方法，该音频处理方法以目标音频的类型判别特征为一种，且目标音频的类型判别特征包括目标音频的能量占比特征来进行阐述。参见图9为本技术实施例提供的另一种音频处理方法的流程示意图。图9所示的音频处理方法可由音频处理设备执行，也可以由其他有计算力的电子设备单独或协同执行，本技术实施例以音频处理设备为例。图9所示的音频处理方法可包括如下步骤：
[0097]
s901，对目标音频进行特征提取处理，得到目标音频的类型判别特征；类型判别特征包括能量占比特征。
[0098]
在一个实施例中，目标音频的能量占比特征用于指示：目标音频处于预设频段内的能量，与目标音频在所处全频段内的能量之间的差异；其中，可以根据具体需求对预设频段进行设定，例如，可以将预设频段设定为：用于指示说话声所处频率的说话声频段，由于说话声的频率一般在300至3400赫兹之间，所以说话声频段可以为300至3400赫兹之间的频段；又如，也可以将预设频段设定为：目标音频所处全频段内除说话声频段之外的参考频段。
[0099]
在一个实施例中，在预设频段为用于指示说话声所处频率的说话声频段的情况下，音频处理设备对目标音频进行特征提取处理，得到目标音频的能量占比特征，可以包
括：确定目标音频在说话声频段内的平均功率谱，以及目标音频在全频段内的平均功率谱；对目标音频在说话声频段内的平均功率谱进行求和处理，得到第一能量值，以及对目标音频在全频段内的平均功率谱进行求和处理，得到第二能量值；将第一能量值与第二能量值的比值，作为目标音频的能量占比特征。
[0100]
具体实现中，音频处理设备确定目标音频在说话声频段内的平均功率谱，可以包括：对目标音频进行分帧处理，得到多个音频帧；确定各个音频帧的功率谱，并对各个音频帧的功率谱进行平均处理，将平均处理后的结果作为目标音频的平均功率谱；目标音频的平均功率谱中，处于说话声频段内的平均功率谱被确定为目标音频在说话声频段内的平均功率谱。
[0101]
进一步的，若用x(i)表示对目标音频进行时域采样处理后得到的第i个音频采样信号，其中，i表示对目标音频进行时域采样处理后得到的第i个时域采样点，i∈[0,l
′‑
1]，l
′
表示对目标音频进行时域采样处理后得到的时域采样点的数量；则音频处理设备对目标音频进行分帧处理，得到多个音频帧，可以由以下公式4示出：
[0102]
xh(i)＝x(h
·
m+i)
ꢀꢀ
(4)
[0103]
其中，xh(i)表示第h个音频帧中的第i个音频采样信号，h∈[0,h-1]，h表示对目标音频进行分帧处理得到的音频帧的数量，i∈[0,l-1]，l表示帧长，也即每个音频帧中的时域采样点的数量，m表示帧移，也即当前音频帧与下一音频帧重叠的时域采样点的数量；可以根据具体需求对帧长和帧移进行设定，例如，可以将帧长设定为0.05秒(表示为：t
frmhop1
＝0.05s)，则此时l＝fs*t
frmhop1
，其中，fs表示对目标音频进行时域采样处理时所采用的采样频率，采样频率可以根据具体需求进行设定；例如，可以将帧移设定为0.25秒(表示为：t
frmhop2
＝0.25s)，则此时m＝fs*t
frmhop2
；又如，可以将帧长设定为0.5秒，将帧移设定为0.25秒；等等。
[0104]
进一步的，音频处理设备确定各个音频帧的功率谱的过程中，首先可以分别对各个音频帧进行加窗处理，得到音频帧的加窗处理结果，进而可以分别对各个音频帧的加窗处理结果进行傅里叶变换，得到各个音频帧对应的傅里叶变换结果，进而可以基于各个音频帧对应的傅里叶变换结果得到各个音频帧的功率谱；其中，对目标音频帧进行的分帧、加窗以及傅里叶变换的过程即为对目标音频进行短时傅里叶变换(即short-time fourier transform，stft)的过程。具体实现中，音频处理设备对音频帧进行加窗处理，得到音频帧的加窗处理结果，可以由以下公式5.1示出：
[0105]
xwh(i)＝x
h(i)·
w(i)
ꢀꢀ
(5.1)
[0106]
其中，xh(i)表示第h个音频帧中的第i个音频采样信号，w(i)表示窗函数，xwh(i)表示第h个音频帧中的第i个音频采样信号的加窗处理结果，第h个音频帧的加窗处理结果包括：第h个音频帧中的各个音频采样信号的加窗处理结果；可以根据具体需求对窗函数进行选取，例如可以选取矩形窗、汉宁(hanning)窗、哈明窗等窗函数，本技术实施例以汉宁窗进行示例性说明，其中，汉宁窗可以由以下公式5.2示出：
[0107][0108]
进一步的，音频处理设备对音频帧的加窗处理结果进行傅里叶变换，得到音频帧对应的傅里叶变换结果，可以由以下公式6示出：
[0109][0110]
其中，xwh(i)表示第h个音频帧中的第i个音频采样信号的加窗处理结果；k表示傅里叶变换的点数，可以根据具体需求进行设定，当帧长l《k时，需要对xwh(i)补领，当l》k时则做截断处理(即截取k个点做傅里叶变换)；k表示第k个傅里叶变换的点数，也表示第k个傅里叶变换的点数所对应的频点；j表示虚数单位；x(h,k)表示第h个音频帧所对应的第k个傅里叶变换点的傅里叶变换结果，即第h个音频帧所对应的第k个频点的傅里叶变换结果，第h个音频帧对应的傅里叶变换结果包括：第h个音频帧所对应的各个频点的傅里叶变换结果。
[0111]
进一步的，音频处理设备基于音频帧对应的傅里叶变换结果得到音频帧的功率谱，可以由以下公式7示出：
[0112]
p(h,k)＝‖x(h,k)‖2ꢀꢀ
(7)
[0113]
其中，p(h,k)表示第h个音频帧所对应的第k个频点的功率谱，第h个音频帧的功率谱包括：第h个音频帧所对应的各个频点的功率谱。
[0114]
更进一步的，音频处理设备在得到各个音频帧的功率谱之后，可以对各个音频帧的功率谱进行平均处理，并将平均处理后的结果作为目标音频的平均功率谱，该过程可以由以下公式8示出：
[0115][0116]
其中，p(h,k)表示第h个音频帧所对应的第k个频点的功率谱，p(k)表示对分帧处理后得到的h个音频帧中，各个音频帧所对应的第k个频点的功率谱进行平均处理之后得到的结果，可以被作为目标音频所对应的第k个频点的平均功率谱，目标音频的平均功率谱包括：目标音频所对应的各个频点的平均功率谱。
[0117]
在得到目标音频的平均功率谱之后，目标音频的平均功率谱中，处于说话声频段内的平均功率谱被确定为目标音频在说话声频段内的平均功率谱，也就是说，目标音频所对应的各个频点的平均功率谱中，处于说话声频段内的频点的平均功率谱，被确定为目标音频在说话声频段内的平均功率谱；目标音频的平均功率谱中，处于目标音频所处全频段内的平均功率谱被确定为目标音频在全频段内的平均功率谱，也就是说，目标音频所对应的各个频点的平均功率谱中，处于目标音频所处全频段内的频点的平均功率谱，被确定为目标音频在全频段内的平均功率谱。进一步的，音频处理设备对目标音频在说话声频段内的平均功率谱进行求和处理，得到第一能量值，以及对目标音频在全频段内的平均功率谱进行求和处理，得到第二能量值，将第一能量值与第二能量值的比值，作为目标音频的能量占比特征的相关过程，可以由以下公式9示出：
[0118][0119]
其中，r
p
表示目标音频的能量占比特征；k
l
表示说话声频段内的最低频点，ku表示说话声频段内的最高频点，当说话声频段为300至3400赫兹之间时，k
l
可以表示300赫兹对应的频点，ku可以表示3400赫兹对应的频点；k/2表示目标音频所处全频段内的频点数量，当对目标音频进行时域采样处理所采用的采样频率为fs时，k/2可以表示fs/2对应的频点；
表示第一能量值，表示第二能量值。
[0120]
在一个实施例中，在确定目标音频在说话声频段内的平均功率谱的过程中，可以通过对目标音频中的有效发声部分进行分帧处理，得到多个音频帧，进而可以基于得到的多个音频帧确定目标音频在说话声频段内的平均功率谱；可以通过保留目标音频中的有效发声部分，舍弃目标音频中静音部分、非人声部分等非有效发声部分，来提高确定出的目标音频在说话声频段内的平均功率谱的准确性。
[0121]
具体实现中，音频处理设备可以对目标音频进行语音识别处理，得到目标音频对应的文字内容以及各个文字内容在目标音频中的发声开始时间和发声结束时间；基于各个文字内容的发声开始时间和发声结束时间对目标音频进行截取，得到各个文字内容对应的音频片段；将各个文字内容对应的音频片段进行拼接处理，得到拼接音频；然后可以对拼接音频进行分帧处理，得到多个音频帧；进而可以确定各个音频帧的功率谱，并对各个音频帧的功率谱进行平均处理，将平均处理后的结果作为目标音频的平均功率谱，目标音频的平均功率谱中，处于说话声频段内的平均功率谱被确定为目标音频在说话声频段内的平均功率谱。其中，音频处理设备对目标音频进行语音识别处理，得到目标音频对应的文字内容以及各个文字内容在目标音频中的发声开始时间和发声结束时间的相关过程已在步骤s401中进行阐述，在此不再赘述；对拼接音频进行分帧处理，进而确定出目标音频在说话声频段内的平均功率谱的相关过程，与上述对目标音频进行分帧处理，进而确定出目标音频在说话声频段内的平均功率谱的相关过程类似，在此不再赘述。
[0122]
s902，若目标音频的能量占比特征符合能量占比特征对应的预设特征值范围，则将目标音频的音频类型判别为歌声类型。
[0123]
s903，若目标音频的能量占比特征不符合能量占比特征对应的预设特征值范围，则将目标音频的音频类型判别为说话声类型。
[0124]
步骤s902至步骤s903中，在预设频段为用于指示说话声所处频率的说话声频段的情况下，能量占比特征对应的预设特征值范围为小于或等于能量占比阈值的范围；能量占比阈值可以根据具体需求进行设定。具体实现中，若目标音频的能量占比特征符合能量占比特征对应的预设特征值范围，则将目标音频的音频类型判别为歌声类型，可以包括：若目标音频的能量占比特征处于能量占比特征对应的预设特征值范围内，则将目标音频的音频类型判别为歌声类型；也就是说，若目标音频的能量占比特征小于或等于能量占比阈值，则将目标音频的音频类型判别为歌声类型。
[0125]
进一步的，若目标音频的能量占比特征不符合能量占比特征对应的预设特征值范围，则将目标音频的音频类型判别为说话声类型，可以包括：若目标音频的能量占比特征处于能量占比特征对应的预设特征值范围外，则将目标音频的音频类型判别为说话声类型；也就是说，若目标音频的能量占比特征大于能量占比阈值，则将目标音频的音频类型判别为说话声类型。
[0126]
在一种可行的实施方式中，可以从大量歌声类型的音频的能量占比特征中提取歌声类型的音频的能量占比特征经验值，从大量说话声类型的音频的能量占比特征中提取说话声类型的音频的能量占比特征经验值，进而基于歌声类型的音频的能量占比特征经验值，以及说话声类型的音频的能量占比特征经验值确定能量占比阈值，使得确定出的能量
占比阈值大于歌声类型的音频的能量占比特征经验值，并且小于说话声类型的音频的能量占比特征经验值；举例来说，若提取得到的歌声类型的音频的能量占比特征经验值为0.238(表示为：r
p_sing
＝0.238)，提取得到的说话声类型的音频的能量占比特征经验值为0.328(表示为：r
p_speech
＝0.328)，则可选的，确定出的能量占比阈值可以为0.3(表示为：r
thr
＝0.3)。
[0127]
在另一种可行的实施方式中，若预设频段被设定为：目标音频所处全频段内除说话声频段之外的参考频段；那么，能量占比特征对应的预设特征值范围可以为大于能量占比阈值的范围；能量占比阈值可以根据具体需求进行设定。
[0128]
参见图10，为本技术实施例提供的一种平均功率谱的对比示意图；其中，如1001标记的曲线表示说话声类型的音频1在全频段内的平均功率谱，如1002标记的曲线表示歌声类型的音频2在全频段内的平均功率谱，如1003标记的频段为说话声频段；其中，平均功率谱被转换为分贝(db)单位来表示，转换后的平均功率谱可以由以下公式10示出：
[0129]
p
db
(k)＝10
·
log
10
p(k)
ꢀꢀ
(10)
[0130]
其中，p(k)表示目标音频所对应的第k个频点的平均功率谱，p
db
(k)表示目标音频所对应的第k个频点的转换后的平均功率谱。
[0131]
本技术实施例中，可以对目标音频进行特征提取处理，得到目标音频的能量占比特征；进而在目标音频的能量占比特征符合能量占比特征对应的预设特征值范围的情况下，将目标音频的音频类型判别为歌声类型，在目标音频的能量占比特征不符合能量占比特征对应的预设特征值范围的情况下，将目标音频的音频类型判别为说话声类型；也即在目标音频的能量占比特征小于或等于能量占比阈值的情况下，将目标音频的音频类型判别为歌声类型，在目标音频的能量占比特征大于能量占比阈值的情况下，将目标音频的音频类型判别为说话声类型；可以根据目标音频处于预设频段内的能量，与目标音频在所处全频段内的能量之间的差异来对目标音频的音频类型进行判别，当预设频段为用于指示说话声所处频率的说话声频段时，可以在说话声频段的能量显著，即在说话声频段的能量占比高时，将音频类型判别为说话声类型，否则将音频类型判别为歌声类型；即可以根据说话和唱歌时的物理发声区别所导致的说话声频段的能量的显著情况来进行音频类型的判别，可以准确判别音频的音频类型。
[0132]
基于上述音频处理方案，本技术实施例提供了另一种音频处理方法，该音频处理方法以目标音频的类型判别特征为多种来进行阐述。参见图11为本技术实施例提供的另一种音频处理方法的流程示意图。图11所示的音频处理方法可由音频处理设备执行，也可以由其他有计算力的电子设备单独或协同执行，本技术实施例以音频处理设备为例。图11所示的音频处理方法可包括如下步骤：
[0133]
s1101,对目标音频进行特征提取处理，得到目标音频的多种类型判别特征。
[0134]
其中，目标音频的任一种类型判别特征用于判别目标音频的音频类型为歌声类型或说话声类型；多种类型判别特征可以包括语速特征、基频波动特征以及能量占比特征中的多种；目标音频的基频波动特征用于指示：目标音频在持续的目标时间段内的基频的波动情况，目标音频的能量占比特征用于指示：目标音频处于预设频段内的能量，与目标音频在所处全频段内的能量之间的差异。
[0135]
s1102，若在目标音频的多种类型判别特征中，存在至少一种类型判别特征符合该
至少一种类型判别特征对应的预设特征值范围，则将目标音频的音频类型判别为歌声类型。
[0136]
s1103，若在目标音频的多种类型判别特征中，每种类型判别特征均不符合每种类型判别特征对应的预设特征值范围，则将目标音频的音频类型判别为说话声类型。
[0137]
步骤s1102至步骤s1103中，举例来说，若目标音频的多种类型判别特征包括语速特征、基频波动特征以及能量占比特征；那么，将目标音频的音频类型判别为歌声类型时，需要满足以下三个条件中的任意一个：目标音频的语速特征符合语速特征对应的预设特征值范围，目标音频的基频波动特征符合基频波动特征对应的预设特征值范围，目标音频的能量占比特征符合能量占比特征对应的预设特征值范围；也即需要满足以下三个条件中的任意一个：目标音频的语速特征小于第一语速阈值或大于第二语速阈值；目标音频的基频波动特征大于基频波动阈值；目标音频的能量占比特征小于或等于能量占比阈值。
[0138]
将目标音频的音频类型判别为说话声类型时，需要同时满足以下三个条件：目标音频的语速特征不符合语速特征对应的预设特征值范围，目标音频的基频波动特征不符合基频波动特征对应的预设特征值范围，目标音频的能量占比特征不符合能量占比特征对应的预设特征值范围；也即需要同时满足以下三个条件：目标音频的语速特征大于或等于第一语速阈值，并且小于或等于第二语速阈值；目标音频的基频波动特征小于或等于基频波动阈值；目标音频的能量占比特征大于能量占比阈值。
[0139]
在一个实施例中，当采用语速特征、基频波动特征以及能量占比特征中的多种类型判别特征来对目标音频的音频类型进行判别时，可以先对目标音频进行特征提取处理，得到目标音频的一个类型判别特征，若该目标音频的一个类型判别特征符合相应类型判别特征对应的预设特征值范围，则将目标音频的音频类型判别为歌声类型；若该目标音频的一个类型判别特征不符合相应类型判别特征对应的预设特征值范围，则重复执行对目标音频进行特征提取处理的相关过程，以得到目标音频的另一个类型判别特征，直至能判别出目标音频的音频类型；可以节约计算资源，提高处理速率。举例来说，当采用语速特征、基频波动特征以及能量占比特征中的3种类型判别特征来对目标音频的音频类型进行判别时，参见图12，为本技术实施例提供的另一种对音频的音频类型进行判别的判别流程图；其步骤可以包括：音频处理设备对目标音频进行特征提取处理，得到目标音频的语速特征；判断目标音频的语速特征是否符合语速特征对应的预设特征值范围，即判断目标音频的语速特征是否小于第一语速阈值或大于第二语速阈值；若目标音频的语速特征符合语速特征对应的预设特征值范围，即目标音频的语速特征小于第一语速阈值或大于第二语速阈值，则将目标音频的音频类型判别为歌声类型；否则对目标音频进行特征提取处理，得到目标音频的基频波动特征；判断目标音频的基频波动特征是否符合基频波动特征对应的预设特征值范围，即判断目标音频的基频波动特征是否大于基频波动阈值；若目标音频的基频波动特征符合基频波动特征对应的预设特征值范围，即目标音频的基频波动特征大于基频波动阈值，则将目标音频的音频类型判别为歌声类型；否则对目标音频进行特征提取处理，得到目标音频的能量占比特征；判断目标音频的能量占比特征是否符合能量占比特征对应的预设特征值范围，即判断目标音频的能量占比特征是否小于或等于能量占比阈值；若目标音频的能量占比特征符合能量占比特征对应的预设特征值范围，即目标音频的能量占比特征小于或等于能量占比阈值，则将目标音频的音频类型判别为歌声类型；否则将目标音频的音
频类型判别为说话声类型。
[0140]
本技术实施例中，当采用语速特征、基频波动特征以及能量占比特征中的多种类型判别特征来对目标音频的音频类型进行判别时，若在目标音频的多种类型判别特征中，存在至少一种类型判别特征符合该至少一种类型判别特征对应的预设特征值范围，则将目标音频的音频类型判别为歌声类型；若在目标音频的多种类型判别特征中，每种类型判别特征均不符合每种类型判别特征对应的预设特征值范围，则将目标音频的音频类型判别为说话声类型；采用多种类型判别特征来对目标音频的音频类型进行判别时，可以使判别结果更加准确。并且，进一步的，当采用语速特征、基频波动特征以及能量占比特征中的多种类型判别特征来对目标音频的音频类型进行判别时，可以先对目标音频进行特征提取处理，得到目标音频的一个类型判别特征，若该目标音频的一个类型判别特征符合相应类型判别特征对应的预设特征值范围，则将目标音频的音频类型判别为歌声类型；若该目标音频的一个类型判别特征不符合相应类型判别特征对应的预设特征值范围，则重复执行对目标音频进行特征提取处理的相关过程，以得到目标音频的另一个类型判别特征，直至能判别出目标音频的音频类型；可以节约计算资源，提高处理速率。
[0141]
基于上述音频处理方法实施例，本技术实施例提供了一种音频处理装置。参见图13，为本技术实施例提供的一种音频处理装置的结构示意图，该音频处理装置可包括提取单元1301以及判别单元1302。图13所示的音频处理装置可运行如下单元：
[0142]
提取单元1301，用于对目标音频进行特征提取处理，得到所述目标音频的类型判别特征；所述类型判别特征至少包括以下任一种：语速特征、基频波动特征以及能量占比特征，所述基频波动特征用于指示所述目标音频在持续的目标时间段内的基频的波动情况，所述能量占比特征用于指示所述目标音频处于预设频段内的能量与所述目标音频在所处全频段内的能量之间的差异；
[0143]
判别单元1302，用于根据所述目标音频的类型判别特征与所述类型判别特征对应的预设特征值范围的比较结果，确定所述目标音频的音频类型；所述音频类型为歌声类型或说话声类型。
[0144]
在一个实施例中，所述判别单元1302根据所述目标音频的类型判别特征与所述类型判别特征对应的预设特征值范围的比较结果，确定所述目标音频的音频类型时，具体执行如下操作：
[0145]
若所述目标音频的类型判别特征为多种，且在所述目标音频的多种类型判别特征中，存在至少一种类型判别特征符合所述至少一种类型判别特征对应的预设特征值范围，则将所述目标音频的音频类型判别为歌声类型；
[0146]
若所述目标音频的类型判别特征为多种，且在所述目标音频的多种类型判别特征中，每种类型判别特征均不符合所述每种类型判别特征对应的预设特征值范围，则将所述目标音频的音频类型判别为说话声类型。
[0147]
在一个实施例中，所述提取单元1301对目标音频进行特征提取处理，得到所述目标音频的语速特征时，具体执行如下操作：
[0148]
对所述目标音频进行语音识别处理，得到所述目标音频对应的文字内容以及各个文字内容在所述目标音频中的发声开始时间和发声结束时间；
[0149]
基于所述各个文字内容的发声开始时间和发声结束时间，确定所述各个文字内容
的平均发声时长；
[0150]
基于所述平均发声时长，确定所述目标音频的语速特征；所述目标音频的语速特征与所述平均发声时长呈负相关关系。
[0151]
在一个实施例中，所述提取单元1301对目标音频进行特征提取处理，得到所述目标音频的基频波动特征时，具体执行如下操作：
[0152]
提取所述目标音频的基频；
[0153]
在所述目标时间段内，对所述目标音频的基频进行采样处理，得到各个采样点对应的基频；
[0154]
基于所述各个采样点对应的基频之间的差异，确定所述目标音频的基频波动特征。
[0155]
在一个实施例中，所述提取单元1301基于所述各个采样点对应的基频之间的差异，确定所述目标音频的基频波动特征时，具体执行如下操作：
[0156]
对所述各个采样点对应的基频进行标准差计算处理，得到目标标准差；
[0157]
将所述目标标准差确定为所述目标音频的基频波动特征。
[0158]
在一个实施例中，所述提取单元1301对所述各个采样点对应的基频进行标准差计算处理，得到目标标准差时，具体执行如下操作：
[0159]
对所述各个采样点对应的基频进行音符映射处理，得到所述各个采样点对应的音符映射结果；
[0160]
对所述各个采样点对应的音符映射结果进行标准差计算处理，得到所述目标标准差。
[0161]
在一个实施例中，所述预设频段为用于指示说话声所处频率的说话声频段；
[0162]
所述提取单元1301对目标音频进行特征提取处理，得到所述目标音频的能量占比特征时，具体执行如下操作：
[0163]
确定所述目标音频在所述说话声频段内的平均功率谱，以及所述目标音频在所述全频段内的平均功率谱；
[0164]
对所述目标音频在所述说话声频段内的平均功率谱进行求和处理，得到第一能量值，以及对所述目标音频在所述全频段内的平均功率谱进行求和处理，得到第二能量值；
[0165]
将所述第一能量值与所述第二能量值的比值，作为所述目标音频的能量占比特征。
[0166]
在一个实施例中，所述提取单元1301确定所述目标音频在所述说话声频段内的平均功率谱时，具体执行如下操作：
[0167]
对所述目标音频进行分帧处理，得到多个音频帧；
[0168]
确定各个音频帧的功率谱，并对所述各个音频帧的功率谱进行平均处理，将平均处理后的结果作为所述目标音频的平均功率谱；
[0169]
所述目标音频的平均功率谱中，处于所述说话声频段内的平均功率谱被确定为所述目标音频在所述说话声频段内的平均功率谱。
[0170]
在一个实施例中，所述提取单元1301对所述目标音频进行分帧处理，得到多个音频帧时，具体执行如下操作：
[0171]
对所述目标音频进行语音识别处理，得到所述目标音频对应的文字内容以及各个
文字内容在所述目标音频中的发声开始时间和发声结束时间；
[0172]
基于所述各个文字内容的发声开始时间和发声结束时间对所述目标音频进行截取，得到所述各个文字内容对应的音频片段；
[0173]
将所述各个文字内容对应的音频片段进行拼接处理，得到拼接音频；
[0174]
对所述拼接音频进行分帧处理，得到所述多个音频帧。
[0175]
在一个实施例中，所述语速特征对应的预设特征值范围为小于第一语速阈值或大于第二语速阈值的范围，其中，所述第一语速阈值小于所述第二语速阈值；
[0176]
所述基频波动特征对应的预设特征值范围为大于基频波动阈值的范围；
[0177]
所述能量占比特征对应的预设特征值范围为小于或等于能量占比阈值的范围。
[0178]
根据本技术的一个实施例，图3、图4、图6、图9以及图11所示的音频处理方法所涉及的各个步骤可以是由图13所示的音频处理装置中的各个单元来执行的。例如，图3所示的步骤s301可由图13所示的音频处理装置中的提取单元1301来执行；图3所示的步骤s302可由图13所示的音频处理装置中的判别单元1302来执行。又如，图4所示的步骤s401可由图13所示的音频处理装置中的提取单元1301来执行；图4所示的步骤s402至步骤s403可由图13所示的音频处理装置中的判别单元1302来执行。又如，图6所示的步骤s601可由图13所示的音频处理装置中的提取单元1301来执行；图6所示的步骤s602至步骤s603可由图13所示的音频处理装置中的判别单元1302来执行。又如，图9所示的步骤s901可由图13所示的音频处理装置中的提取单元1301来执行；图9所示的步骤s902至步骤s903可由图13所示的音频处理装置中的判别单元1302来执行。又如，图11所示的步骤s1101可由图13所示的音频处理装置中的提取单元1301来执行；图11所示的步骤s1102至步骤s1103可由图13所示的音频处理装置中的判别单元1302来执行。
[0179]
根据本技术的另一个实施例，图13所示的音频处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本技术的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本技术的其它实施例中，基于逻辑功能划分的音频处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。
[0180]
根据本技术的另一个实施例，可以通过在包括中央处理单元(cpu)、随机存取存储介质(ram)、只读存储介质(rom)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图3、图4、图6、图9以及图11所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图13中所示的音频处理装置，以及来实现本技术实施例音频处理方法。所述计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述计算设备中，并在其中运行。
[0181]
本技术实施例中，可以基于目标音频的语速特征、目标音频的基频波动特征以及目标音频的能量占比特征中的一种或多种类型判别特征，来对目标音频的音频类型进行判别。目标音频的语速特征可以用于指示目标音频的语速快慢，当基于目标音频的语速特征来对目标音频的音频类型进行判别时，即可以根据说话和唱歌时的物理发声区别所导致的语速的快慢来进行音频类型的判别，根据语速快慢的区别可以准确判别音频的音频类型。
目标音频的基频波动特征可以用于指示，目标音频在持续的目标时间段内的基频的波动情况，由于基频决定了声音的音调，当基于目标音频的基频波动特征来对目标音频的音频类型进行判别时，即可以根据说话和唱歌时的物理发声区别所导致的音调的波动情况来进行音频类型的判别，根据音调波动大小的区别可以准确判别音频的音频类型。目标音频的能量占比特征可以用于指示，目标音频处于预设频段内的能量，与目标音频在所处全频段内的能量之间的差异，当预设频段被设定为用于指示说话声所处频率的说话声频段，当基于目标音频的能量占比特征来对目标音频的音频类型进行判别时，即可以根据说话和唱歌时的物理发声区别所导致的说话声频段的能量的显著情况来进行音频类型的判别，根据频段能量的显著情况可以准确判别音频的音频类型。并且，当基于目标音频的语速特征、目标音频的基频波动特征以及目标音频的能量占比特征中的多种类型判别特征，来对目标音频的音频类型进行判别时，可以充分利用多种类型判别特征，使得可进一步提高音频类型的判别准确性。
[0182]
基于上述的音频处理方法实施例以及音频处理装置实施例，本技术还提供了一种音频处理设备。参见图14，为本技术实施例提供的一种音频处理设备的结构示意图。图14所示的音频处理设备可至少包括处理器1401、输入接口1402、输出接口1403以及计算机存储介质1404。其中，处理器1401、输入接口1402、输出接口1403以及计算机存储介质1404可通过总线或其他方式连接。
[0183]
计算机存储介质1404可以存储在音频处理设备的存储器中，计算机存储介质1404用于存储计算机程序，计算机程序包括程序指令，处理器1401用于执行计算机存储介质1404存储的程序指令。处理器1401(或称cpu(central processing unit，中央处理器))是音频处理设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现上述音频处理方法流程或相应功能。
[0184]
本技术实施例还提供了一种计算机存储介质(memory)，计算机存储介质是音频处理设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括终端中的内置存储介质，当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器1401加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速随机存取存储器(random access memory，ram)存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
[0185]
在一个实施例中，可由处理器1401加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关图3、图4、图6、图9以及图11的音频处理方法实施例中的方法的相应步骤，具体实现中，处理器1401用于：
[0186]
对目标音频进行特征提取处理，得到所述目标音频的类型判别特征；所述类型判别特征至少包括以下任一种：语速特征、基频波动特征以及能量占比特征，所述基频波动特征用于指示所述目标音频在持续的目标时间段内的基频的波动情况，所述能量占比特征用于指示所述目标音频处于预设频段内的能量与所述目标音频在所处全频段内的能量之间的差异；
[0187]
根据所述目标音频的类型判别特征与所述类型判别特征对应的预设特征值范围的比较结果，确定所述目标音频的音频类型；所述音频类型为歌声类型或说话声类型。
[0188]
在一个实施例中，所述处理器1401根据所述目标音频的类型判别特征与所述类型判别特征对应的预设特征值范围的比较结果，确定所述目标音频的音频类型时，具体执行如下操作：
[0189]
若所述目标音频的类型判别特征为多种，且在所述目标音频的多种类型判别特征中，存在至少一种类型判别特征符合所述至少一种类型判别特征对应的预设特征值范围，则将所述目标音频的音频类型判别为歌声类型；
[0190]
若所述目标音频的类型判别特征为多种，且在所述目标音频的多种类型判别特征中，每种类型判别特征均不符合所述每种类型判别特征对应的预设特征值范围，则将所述目标音频的音频类型判别为说话声类型。
[0191]
在一个实施例中，所述处理器1401对目标音频进行特征提取处理，得到所述目标音频的语速特征时，具体执行如下操作：
[0192]
对所述目标音频进行语音识别处理，得到所述目标音频对应的文字内容以及各个文字内容在所述目标音频中的发声开始时间和发声结束时间；
[0193]
基于所述各个文字内容的发声开始时间和发声结束时间，确定所述各个文字内容的平均发声时长；
[0194]
基于所述平均发声时长，确定所述目标音频的语速特征；所述目标音频的语速特征与所述平均发声时长呈负相关关系。
[0195]
在一个实施例中，所述处理器1401对目标音频进行特征提取处理，得到所述目标音频的基频波动特征时，具体执行如下操作：
[0196]
提取所述目标音频的基频；
[0197]
在所述目标时间段内，对所述目标音频的基频进行采样处理，得到各个采样点对应的基频；
[0198]
基于所述各个采样点对应的基频之间的差异，确定所述目标音频的基频波动特征。
[0199]
在一个实施例中，所述处理器1401基于所述各个采样点对应的基频之间的差异，确定所述目标音频的基频波动特征时，具体执行如下操作：
[0200]
对所述各个采样点对应的基频进行标准差计算处理，得到目标标准差；
[0201]
将所述目标标准差确定为所述目标音频的基频波动特征。
[0202]
在一个实施例中，所述处理器1401对所述各个采样点对应的基频进行标准差计算处理，得到目标标准差时，具体执行如下操作：
[0203]
对所述各个采样点对应的基频进行音符映射处理，得到所述各个采样点对应的音符映射结果；
[0204]
对所述各个采样点对应的音符映射结果进行标准差计算处理，得到所述目标标准差。
[0205]
在一个实施例中，所述预设频段为用于指示说话声所处频率的说话声频段；
[0206]
所述处理器1401对目标音频进行特征提取处理，得到所述目标音频的能量占比特征时，具体执行如下操作：
[0207]
确定所述目标音频在所述说话声频段内的平均功率谱，以及所述目标音频在所述全频段内的平均功率谱；
[0208]
对所述目标音频在所述说话声频段内的平均功率谱进行求和处理，得到第一能量值，以及对所述目标音频在所述全频段内的平均功率谱进行求和处理，得到第二能量值；
[0209]
将所述第一能量值与所述第二能量值的比值，作为所述目标音频的能量占比特征。
[0210]
在一个实施例中，所述处理器1401确定所述目标音频在所述说话声频段内的平均功率谱时，具体执行如下操作：
[0211]
对所述目标音频进行分帧处理，得到多个音频帧；
[0212]
确定各个音频帧的功率谱，并对所述各个音频帧的功率谱进行平均处理，将平均处理后的结果作为所述目标音频的平均功率谱；
[0213]
所述目标音频的平均功率谱中，处于所述说话声频段内的平均功率谱被确定为所述目标音频在所述说话声频段内的平均功率谱。
[0214]
在一个实施例中，所述处理器1401对所述目标音频进行分帧处理，得到多个音频帧时，具体执行如下操作：
[0215]
对所述目标音频进行语音识别处理，得到所述目标音频对应的文字内容以及各个文字内容在所述目标音频中的发声开始时间和发声结束时间；
[0216]
基于所述各个文字内容的发声开始时间和发声结束时间对所述目标音频进行截取，得到所述各个文字内容对应的音频片段；
[0217]
将所述各个文字内容对应的音频片段进行拼接处理，得到拼接音频；
[0218]
对所述拼接音频进行分帧处理，得到所述多个音频帧。
[0219]
在一个实施例中，所述语速特征对应的预设特征值范围为小于第一语速阈值或大于第二语速阈值的范围，其中，所述第一语速阈值小于所述第二语速阈值；
[0220]
所述基频波动特征对应的预设特征值范围为大于基频波动阈值的范围；
[0221]
所述能量占比特征对应的预设特征值范围为小于或等于能量占比阈值的范围。
[0222]
本技术实施例提供了一种计算机程序产品，计算机程序产品包括计算机程序，该计算机程序存储在计算机存储介质中；音频处理设备的处理器从计算机存储介质中读取该计算机程序，处理器执行该计算机程序，使得音频处理设备执行上述如图3、图4、图6、图9以及图11所示的方法实施例。其中，计算机可读存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)或随机存储记忆体(random access memory，ram)等。
[0223]
以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张超鹏陈梦赵伟峰
技术所有人：腾讯音乐娱乐科技（深圳）有限公司
我是此专利的发明人

上一篇：一种煤场在线煤质分析方法与流程
上一篇：一种基于图像处理的游戏数据测试系统的制作方法