音频处理方法、装置、计算设备及介质与流程

文档序号:31449155发布日期:2022-09-07 12:46阅读:101来源:国知局
音频处理方法、装置、计算设备及介质与流程

1.本公开的实施方式涉及音频处理技术领域,更具体地,本公开的实施方式涉及一种音频处理方法、装置、计算设备及介质。


背景技术:

2.本部分旨在为本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.调音是一种通过后期制作调整使音频更自然、更符合需要的音乐制作方式。
4.相关技术中,主要是由专业的调音师通过调音台来对音频进行调音,对调音师的专业要求极高,而且需要调音师手动操作,从而导致音频调音效率较低。


技术实现要素:

5.在本上下文中,本公开的实施方式期望提供一种音频处理方法、装置、计算设备及介质,以提高音频处理过程的调音效率。
6.在本公开实施方式的第一方面中,提供了一种音频处理方法,该方法包括:
7.获取待处理音频;
8.确定候选音频组中每个候选音频与待处理音频之间的音色相似度,候选音频组为从多个音频组中确定出的一个音频组,候选音频组所对应的音色相似度之和在各个音频组所对应的音色相似度之和中最小,音色相似度之和为音频组所包括的音频两两之间的相似度的和,每个候选音频对应有预设调音参数;
9.基于待处理音频与各个候选音频的音色相似度,从多个候选音频中确定目标音频;
10.基于目标音频的预设调音参数,对待处理音频进行调音处理。
11.在本公开的一个实施例中,确定候选音频组中每个候选音频与待处理音频之间的音色相似度,包括:
12.获取各个候选音频的音色特征以及待处理音频的音色特征;
13.对于任一候选音频,基于候选音频的音色特征与待处理音频的音色特征,确定候选音频与待处理音频之间的音色相似度。
14.在本公开的一个实施例中,获取各个候选音频的音频音色以及待处理音频的音色特征,包括:
15.对于任一音频,确定音频的人声部分;
16.从音频的人声部分中,抽取目标数量的音频帧;
17.基于目标数量的音频帧的音色特征,确定音频的音色特征。
18.在本公开的一个实施例中,从音频的人声部分中,抽取目标数量的音频帧,包括:
19.基于音频的人声部分的时长,确定采样频率;
20.按照采样频率,在音频的人声部分中进行音频帧抽取,得到目标数量的音频帧。
21.在本公开的一个实施例中,基于目标数量的音频帧的音色特征,确定音频的音色特征,包括:
22.获取各个音频帧的音色特征,得到目标数量的音色特征;
23.基于目标数量的音色特征进行取平均处理,得到音频的音色特征。
24.在本公开的一个实施例中,对于任一候选音频,基于候选音频的音色特征与待处理音频的音色特征,确定候选音频与待处理音频之间的音色相似度,包括:
25.对于任一候选音频,确定候选音频的音色特征与待处理音频的音色特征之间的余弦距离,将所确定出的余弦距离作为候选音频与待处理音频之间的音色相似度。
26.在本公开的一个实施例中,基于待处理音频与各个候选音频的音色相似度,从多个候选音频中确定目标音频,包括:
27.将多个候选音频中与待处理音频的音色相似度最大的候选音频,确定为目标音频。
28.在本公开的一个实施例中,候选音频组的确定过程包括:
29.获取多个样本音频;
30.获取各个样本音频的音色特征;
31.基于多个样本音频的音色特征,确定每两个样本音频之间的音色相似度;
32.将设定数量的样本音频作为一个音频组,确定各个音频组所包括的设定数量的样本音频两两之间的音色相似度之和;
33.将音色相似度之和最小的音频组作为候选音频组。
34.在本公开的一个实施例中,获取多个样本音频之后,该方法还包括:
35.对多个样本音频进行预处理,预处理包括降噪处理、去齿音处理和音量归一化处理中的至少一项。
36.在本公开的一个实施例中,将音色相似度之和最小的音频组作为候选音频组之后,该方法还包括:
37.获取候选音频组所包括的音频的动态eq调音参数和静态eq调音参数,作为预设调音参数。
38.在本公开的一个实施例中,音频为干声音频,音色特征由梅尔频率倒谱系数mfcc特征中目标维度的特征组成。
39.在本公开实施方式的第二方面中,提供了一种音频处理装置,该装置包括:
40.获取模块,用于获取待处理音频;
41.相似度确定模块,用于确定候选音频组中每个候选音频与待处理音频之间的音色相似度,候选音频组为从多个音频组中确定出的一个音频组,候选音频组所对应的音色相似度之和在各个音频组所对应的音色相似度之和中最小,音色相似度之和为音频组所包括的音频两两之间的相似度的和,每个候选音频对应有预设调音参数;
42.音频确定模块,用于基于待处理音频与各个候选音频的音色相似度,从多个候选音频中确定目标音频;
43.处理模块,用于基于目标音频的预设调音参数,对待处理音频进行调音处理。
44.在本公开的一个实施例中,相似度确定模块,在用于确定候选音频组中每个候选音频与待处理音频之间的音色相似度时,包括:
45.获取子模块,用于获取各个候选音频的音色特征以及待处理音频的音色特征;
46.确定子模块,用于对于任一候选音频,基于候选音频的音色特征与待处理音频的音色特征,确定候选音频与待处理音频之间的音色相似度。
47.在本公开的一个实施例中,获取子模块,在用于获取各个候选音频的音频音色以及待处理音频的音色特征时,包括:
48.确定单元,用于对于任一音频,确定音频的人声部分;
49.抽取单元,用于从音频的人声部分中,抽取目标数量的音频帧;
50.确定单元,还用于基于目标数量的音频帧的音色特征,确定音频的音色特征。
51.在本公开的一个实施例中,抽取单元,在用于从音频的人声部分中,抽取目标数量的音频帧时,用于:
52.基于音频的人声部分的时长,确定采样频率;
53.按照采样频率,在音频的人声部分中进行音频帧抽取,得到目标数量的音频帧。
54.在本公开的一个实施例中,确定单元,在用于基于目标数量的音频帧的音色特征,确定音频的音色特征时,用于:
55.获取各个音频帧的音色特征,得到目标数量的音色特征;
56.基于目标数量的音色特征进行取平均处理,得到音频的音色特征。
57.在本公开的一个实施例中,确定子模块,在用于对于任一候选音频,基于候选音频的音色特征与待处理音频的音色特征,确定候选音频与待处理音频之间的音色相似度时,用于:
58.对于任一候选音频,确定候选音频的音色特征与待处理音频的音色特征之间的余弦距离,将所确定出的余弦距离作为候选音频与待处理音频之间的音色相似度。
59.在本公开的一个实施例中,音频确定模块,在用于基于待处理音频与各个候选音频的音色相似度,从多个候选音频中确定目标音频时,用于:
60.将多个候选音频中与待处理音频的音色相似度最大的候选音频,确定为目标音频。
61.在本公开的一个实施例中,音频处理装置还包括音频组确定模块,用于从多个音频组中确定候选音频组;音频组确定模块,包括:
62.音频获取子模块,用于获取多个样本音频;
63.特征获取子模块,用于获取各个样本音频的音色特征;
64.相似度确定子模块,用于基于多个样本音频的音色特征,确定每两个样本音频之间的音色相似度;
65.相似度确定子模块,还用于将设定数量的样本音频作为一个音频组,确定各个音频组所包括的设定数量的样本音频两两之间的音色相似度之和;
66.音频组确定子模块,用于将音色相似度之和最小的音频组作为候选音频组。
67.在本公开的一个实施例中,音频组确定模块,还包括:
68.处理子模块,用于对多个样本音频进行预处理,预处理包括降噪处理、去齿音处理和音量归一化处理中的至少一项。
69.在本公开的一个实施例中,音频组确定模块,还包括:
70.参数获取子模块,用于获取候选音频组所包括的音频的动态eq调音参数和静态eq
调音参数,作为预设调音参数。
71.在本公开的一个实施例中,音频为干声音频,音色特征由梅尔频率倒谱系数mfcc特征中目标维度的特征组成。
72.在本公开实施方式的第三方面中,提供了一种计算设备,计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行程序时实现上述第一方面以及第一方面的任意实施例所提供的音频处理方法所执行的操作。
73.在本公开实施方式的第四方面中,提供了一种计算机可读存储介质,计算机可读存储介质上存储有程序,程序被处理器执行上述第一方面以及第一方面的任意实施例所提供的音频处理方法所执行的操作。
74.在本公开实施方式的第五方面中,提供了一种计算机程序产品,包括计算机程序,程序被处理器执行时实现上述第一方面以及第一方面的任意实施例所提供的音频处理方法所执行的操作。
75.根据本公开实施方式所提供的音频处理方法、装置、计算设备及介质,通过在获取到待处理音频后,确定候选音频组中每个候选音频与待处理音频之间的音色相似度,其中,候选音频组所包括的音频两两之间的相似度之和,是每个音频组所包括的音频两两之间的相似度之和中最小的,从而使得候选音频组所包括的候选音频的音色更加多样,从而使得可以从更加多样的候选音频中实现目标音频的确定,以提高所确定出的目标音频的准确性,进而基于目标音频的预设调音参数,对待处理音频进行调音处理,实现对待处理音频的自动调音过程,无需相关技术人员手动操作,从而可以提高音频处理过程的调音效率。
附图说明
76.通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
77.图1是本公开根据一示例性实施例示出的一种音频处理方法的流程图;
78.图2是本公开根据一示例性实施例示出的一种候选音频组的确定过程的流程图;
79.图3是本公开根据一示例性实施例示出的一种静态eq调音参数的示意图;
80.图4是本公开根据一示例性实施例示出的一种动态eq调音参数的示意图;
81.图5是本公开根据一示例性实施例示出的另一种动态eq调音参数的示意图;
82.图6是本公开根据一示例性实施例示出的一种音频处理装置的框图;
83.图7是本公开根据一示例性实施例示出的一种计算机可读存储介质的示意图;
84.图8是本公开根据一示例性实施例示出的一种计算设备的结构示意图;
85.在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
86.下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
87.本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
88.在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
89.根据本公开的实施方式,提出了一种音频处理方法、装置、计算设备及介质。上述方法可以由计算设备执行,用于在计算设备获取到待处理音频后,对所获取到的待处理音频进行调音处理。其中,计算设备可以为服务器,如一台服务器、多台服务器、服务器集群、云计算平台等,可选地,计算设备还可以为终端设备,如智能手机、平板电脑、台式计算机、便携式计算机、智能音箱,等等,本公开对计算设备的设备类型和设备数量不加以限定。
90.例如,可以通过音频录制组件,来录制演唱者的人声,进而将录制得到的人声作为待处理音频,以便计算设备可以通过本公开所提供的音频处理方法,来对待处理音频进行调音处理。
91.其中,音频录制组件可以为单独的音频录制设备,如录音机等,可选地,音频录制组件还可以为内置于其他设备中的组件,如话筒等,本公开对音频录制组件的具体类型不加以限定。
92.上述为有关本公开的应用场景的介绍,需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
93.在介绍了本公开的应用场景之后,下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
94.参见图1,图1是本公开根据一示例性实施例示出的一种音频处理方法的流程图,该方法包括:
95.步骤101、获取待处理音频。
96.步骤102、确定候选音频组中每个候选音频与待处理音频之间的音色相似度,候选音频组为从多个音频组中确定出的一个音频组,候选音频组所对应的音色相似度之和在各个音频组所对应的音色相似度之和中最小,音色相似度之和为音频组所包括的音频两两之间的相似度的和,每个候选音频对应有预设调音参数。
97.步骤103、基于待处理音频与各个候选音频的音色相似度,从多个候选音频中确定目标音频。
98.需要说明的是,由于候选音频组中的每个候选音频都是对应有预设调音参数的,因而,从这多个候选音频中确定出来的目标音频所对应的预设调音参数也是确定的。
99.步骤104、基于目标音频的预设调音参数,对待处理音频进行调音处理。
100.本公开通过在获取到待处理音频后,确定候选音频组中每个候选音频与待处理音频之间的音色相似度,其中,候选音频组所包括的音频两两之间的相似度之和,是每个音频组所包括的音频两两之间的相似度之和中最小的,从而使得候选音频组所包括的候选音频的音色更加多样,从而使得可以从更加多样的候选音频中实现目标音频的确定,以提高所确定出的目标音频的准确性,进而基于目标音频的预设调音参数,对待处理音频进行调音处理,实现对待处理音频的自动调音过程,无需相关技术人员手动操作,从而可以提高音频
处理过程的调音效率。
101.在介绍了本公开的基本原理之后,下面具体介绍本公开的各种非限制性实施方式。
102.在一些实施例中,计算设备可以内置或外接有音频录制组件,相应地,对于步骤101,在获取待处理音频时,可以有如下两种方式:
103.在音频录制组件内置在计算设备中的情况下,计算设备可以直接获取音频录制组件录制得到的待处理音频。
104.在音频录制组件外接于计算设备的情况下,音频录制组件在录制得到待处理音频后,可以将录制得到的待处理音频发送给计算设备,以便计算设备可以获取到待处理音频。
105.其中,待处理音频可以为干声音频,也即是未经任何音频后处理的录音音频,例如,无音乐的纯人声。
106.在获取到待处理音频后,即可对所获取到的待处理音频进行处理。
107.在一些实施例中,对于步骤102,在确定候选音频组中的每个候选音频与待处理音频之间的音色相似度时,可以包括如下步骤:
108.步骤1021、获取各个候选音频的音色特征以及待处理音频的音色特征。
109.对于多个候选音频以及待处理音频中的任一音频,可以通过如下步骤,来获取该音频的音色特征:
110.步骤1021-1、对于任一音频,确定音频的人声部分。
111.在一种可能的实现方式中,可以通过语音活动检测(voice activity detection,vad)算法,来从音频中筛选出所有包含人声的时间段,也即是音频的人声部分。
112.可选地,可以采用基于信噪比的vad算法、基于深度神经网络(deep neural networks,dnn)的vad算法、基于能量的vad算法、基于解码器(decoder)的vad算法,等等,本公开对具体采用哪种方法不加以限定。
113.步骤1021-2、从音频的人声部分中,抽取目标数量的音频帧。
114.在一种可能的实现方式中,可以基于音频的人声部分的时长,确定采样频率;进而按照采样频率,在音频的人声部分中进行音频帧抽取,以得到目标数量的音频帧。
115.可选地,在基于人声部分的时长确定采样频率时,可以将目标数量与人声部分的时长的比值,确定为采样频率。
116.其中,目标数量可以为任意取值。为计算一首完整音频的音色特征,一般需要获取足够时长的音频片段,以保证所确定出的音色特征可以代表整首音频的音频特征。在一种可能的实现方式中,可以通过需要抽取足够数量的音频帧,以保证可以获取到足够时长的音频片段用于音色特征的确定。例如,用于确定音色特征的音频片段可以为3秒或3秒以上,以保证基于时长为3秒或3秒以上的音频片段所确定出的音色特征可以代表整首音频的音频特征,而在音频片段时长为3秒的情况下,结合每个音频帧为0.023秒左右的音频片段,即可确定目标数量可以为130,可选地,目标数量还可以为大于130的其他取值,本公开对目标数量的具体取值不加以限定。
117.以目标数量为130为例,在音频的人声部分为a秒的情况下,可以将130/a作为抽取目标数量的音频帧时所采用的采样频率,也即是,可以在这a秒的人声部分中每隔a/130秒抽取一个音频帧,以使可以从a秒的音频中抽取到130个音频帧(每个音频帧为0.023秒左右
的音频,130个音频帧即为3秒左右的音频),从而基于抽取到的目标数量的音频帧,也即是130个音频帧,来进行音色特征的确定。
118.通过上述过程,可以抽取到位于不同时间点的多个音频帧,从而基于所抽取到的音频帧来进行音色特征的确定,这样做可以考虑到整个音频不同部分(包括主副歌、真假声、不同歌词)吐字所产生的音色差异,使后续确定出的音色特征更加准确。
119.步骤1021-3、基于目标数量的音频帧的音色特征,确定音频的音色特征。
120.在一种可能的实现方式中,可以获取各个音频帧的音色特征,得到目标数量的音色特征;从而基于目标数量的音色特征进行取平均处理,得到音频的音色特征。
121.其中,音色特征由梅尔频率倒谱系数(mel frequency cepstrum coefficient,mfcc)特征中目标维度的特征组成。可选地,音色特征还可以为其他类型的特征,本公开对音色特征的具体类型不加以限定。
122.以音色特征由mfcc特征中目标维度的特征组成为例,可以通过如下方式,来获取音色特征:
123.对于任一音频帧,确定该音频帧的mfcc特征,从而从所确定出的mfcc特征中获取目标维度的特征,作为该音频帧的音色特征。
124.其中,确定该音频帧的mfcc特征的过程可以为:
125.对该音频帧进行加窗,并对加窗后的音频帧进行快速傅里叶变换,以得到该音频帧的频谱;将获取到的频谱通过一组梅尔尺度的三角形滤波器组,以得到该音频帧在每个滤波器对应频段的能量值(例如,在滤波器组包括22个滤波器的情况下,即可获取到22个能量值);对获取到的能量值取对数,从而将每个滤波器对应的对数能量带入离散余弦变换,以得到梅尔阶系数(mel-scale cepstrum)参数;计算获取到的mel-scale cepstrum参数的一阶微分和二阶微分,从而将mel-scale cepstrum参数、mel-scale cepstrum参数的一阶微分以及mel-scale cepstrum参数的二阶微分的组合,作为该音频帧的mfcc特征。
126.通过上述过程,即可获取到39维的mfcc特征,从而可以基于获取到的mfcc特征,来进行音色特征的获取。
127.可选地,目标维度可以为任意维度,例如,目标维度可以为第2~14维(共13维)。以目标维度为第2~14维为例,则在通过上述过程获取到39维的mfcc特征后,可以从39维的mfcc特征中,获取第2~14维的特征,作为该音频帧的音色特征。
128.上述仅以一个音频帧的音色特征的获取过程为例来进行说明,其他音频帧的音色特征的获取过程与之同理,此处不再赘述。
129.需要说明的是,本公开以mfcc特征的第2~14维(共13维)作为音色特征,使得音色特征所包括的维数较少,也即是,采用较浅层的特征作为音色特征,以使后续基于音色特征进行处理的过程更加简单高效。另外,mfcc特征的第1维表示音量,音量不能作为音色特征,而一般mfcc特征的前十几维特征足以表示音色特征,因而,可以在保证音色特征的维数较少的情况下,实现对音频帧的音色的表达,在减少计算设备的计算压力的同时,保证所获取到的音色特征的准确性。而且,mfcc特征更能表示人声原本的音色和录制设备产生的音色裱花,更适用于调音,从而可以提高后续调音过程的准确性。
130.通过上述过程,即可获取到目标数量的音频帧各自对应的音色特征,也即是,目标数量的音色特征。在音色特征为mfcc特征的第2~14维的情况下,每个音色特征都是一个13
维的向量,从而可以对目标数量的音色特征进行算术平均,进而将算术平均所得到的结果,作为该音频的音色特征。
131.步骤1022、对于任一候选音频,基于候选音频的音色特征与待处理音频的音色特征,确定候选音频与待处理音频之间的音色相似度。
132.在一种可能的实现方式中,对于任一候选音频,可以确定候选音频的音色特征与待处理音频的音色特征之间的余弦距离,将所确定出的余弦距离作为候选音频与待处理音频之间的音色相似度。
133.其中,在以余弦距离作为音色相似度的情况下,音色相似度的取值区间为[-1,1]。完全相同的两个音频的音色相似度为1,两个音色截然不同的音频的音色相似度接近-1。两个音频之间的音色相似度越接近1,说明这两个音频的音色距离越小,也即是,这两个音频的音色越相似;反之,两个音频之间的音色相似度越接近-1,说明这两个音频的音色距离越大,也即是,这两个音频的音色越不相似。
[0134]
需要说明的是,上述仅为确定候选音频与待处理音频之间的音色相似度的一种示例性方式,在更多可能的实现方式中,还可以采用其他方式,来进行音色相似度的确定,本公开对具体采用哪种方式来确定音色相似度不加以限定。
[0135]
通过上述过程,即可确定出每个候选音频与待处理音频之间的音色相似度,从而即可基于所确定出的音色相似度,来进行目标音频的确定。
[0136]
在一些实施例中,对于步骤103,在基于待处理音频与各个候选音频的音色相似度,从多个候选音频中确定目标音频时,可以通过如下方式实现:
[0137]
在一种可能的实现方式中,将多个候选音频中与待处理音频的音色相似度最大的候选音频,确定为目标音频。
[0138]
而由于候选音频组所包括的每个候选音频的预设调音参数都是确定的,因而,所确定出的目标音频的预设调音参数也是确定的。因此,在通过上述步骤103确定出目标音频后,即可通过步骤104,来基于目标音频的预设调音参数,对待处理音频进行调音处理。
[0139]
需要说明的是,上述过程是关于获取到待处理音频后,如何从候选音频组中确定出与待处理音频的音色最为相似的目标音频,从而基于目标音频来对待处理音频进行调音处理的介绍,其中,候选音频组可以是预先确定出来的,参见图2,图2是本公开根据一示例性实施例示出的一种候选音频组的确定过程的流程图,候选音频组的确定过程包括:
[0140]
步骤201、获取多个样本音频。
[0141]
其中,样本音频可以为干声音频。也即是,可以获取n个干声音频,作为n个样本音频。
[0142]
需要说明的是,由于后续还要计算这n个样本音频两两之间的音色相似度,为了避免计算设备内存溢出,一般取n的值小于80。
[0143]
可选地,在获取到多个样本音频后,可以对多个样本音频进行预处理,其中,预处理可以包括降噪处理、去齿音处理和音量归一化处理中的至少一项。
[0144]
对于任一样本音频,在对该样本音频进行降噪处理时,可以采用基于线性滤波器的降噪算法、基于非线性滤波器的降噪算法或以神经网络算法为核心的降噪算法等,本公开对具体采用哪种降噪方式不加以限定。
[0145]
通过对样本音频进行降噪处理,可以去除样本音频中的环境噪音和录制底噪,从
而可以提高样本音频的音频质量,进而使得后续基于样本音频获取到的音色特征更加准确。
[0146]
在对该样本音频进行去齿音处理,可以通过计算设备的去齿音插件或动态均衡器实现。在一种可能的实现方式中,去齿音插件或动态均衡器可以自动识别样本音频中的齿音频段(一般为2~10khz的频段范围),在齿音频段的电平超过设定阈值的情况下,去齿音插件或动态均衡器可以自动对齿音频段进行衰减,以实现对样本音频的去齿音处理。其中,设定阈值为任意取值,本公开对设定阈值的具体取值不加以限定。
[0147]
通过对样本音频进行去齿音处理,可以减少样本音频中演唱干声的瑕疵,以提高样本音频的音频质量,进而使得后续基于样本音频获取到的音色特征更加准确。
[0148]
在对该样本音频进行音量归一化处理时,可以将样本音频的音量归一化到18lufs。例如,可以采用峰值标准化的方式,将样本音频的音量最大的位置调整到特定大小,也即是,将样本音频的最大音量调整到18flus,其他位置的音量做相应的增/减调整,从而实现样本音频的音量归一化。
[0149]
通过对样本音频进行归一化处理,可以统一多个样本音频的演唱干声的音量,方便后续操作。
[0150]
步骤202、获取各个样本音频的音色特征。
[0151]
需要说明的是,获取各个样本音频的音色特征的过程可以参见步骤1021中获取音频音色特征的过程,此处不再赘述。
[0152]
步骤203、基于多个样本音频的音色特征,确定每两个样本音频之间的音色相似度。
[0153]
在一种可能的实现方式中,对于多个样本音频中的任意两个样本音频,可以确定这两个样本音频的音色特征之间的余弦距离,从而将所确定出的余弦距离作为这两个样本音频之间的音色相似度。
[0154]
需要说明的是,以样本音频的数量为n为例,则在计算这n个样本音频两两之间的音色相似度时,一共需进行次计算。
[0155]
可选地,可以对这n个样本音频进行编号,例如,将这n个样本音频编号为0~n,则在计算出任意两个样本音频的音色相似度的情况下,可以记录这两个样本音频对应的编号,以便可以基于所记录的编号,确定该音色相似度是对应于哪两个样本音频的。例如,(2,27)表示第2个样本音频和第27个样本音频之间的音色相似度。
[0156]
步骤204、将设定数量的样本音频作为一个音频组,确定各个音频组所包括的设定数量的样本音频两两之间的音色相似度之和。
[0157]
其中,设定数量可以为任意取值,记设定数量为k,则n个样本音频可以组成个音频组。
[0158]
一般而言,为了避免计算设备的内存溢出,一般取设定数量为6,可选地,设定数量还可以为比6小的值,本公开对设定数量的具体取值不加以限定。
[0159]
可选地,在确定出各个音频组后,可以记录各个音频组所包括的样本音频的编号。例如,在设定数量为6的情况下,(2,11,17,32,35,48)表示以第2、11、17、32、35、48个样本音频所组成的音频组。
[0160]
需要说明的是,在设定数量为k的情况下,每个音频组均对应有个音色相似度。在一种可能的实现方式中,对于任一音频组,可以计算这个音色相似度的和,作为该音频组所对应的音色相似度之和。
[0161]
以设定数量为6为例,每个音频组对应有个音色相似度,则对于任一音频组,可以计算这15个音色相似度的和,作为该音频组所对应的音色相似度之和。
[0162]
步骤205、将音色相似度之和最小的音频组作为候选音频组。
[0163]
需要说明的是,音频组所对应的音色相似度之和越小,说明音频组所包括的样本音频两两之间的音色越不相似,因而,将音色相似度之和最小的音频组确定为候选音频组,可以保证候选音频组所包括的样本音频音色差异最大,从而使得候选音频组可以涵盖多种不同音色的音频,以使候选音频组的代表性更强。
[0164]
可选地,在确定出候选音频组之后,可以对所确定出的候选音频组所包括的样本音频(也即是候选音频)进行调音处理,以获取候选音频的预设调音参数。
[0165]
在一种可能的实现方式中,可以获取候选音频组所包括的音频的动态eq调音参数和静态eq调音参数,作为预设调音参数。
[0166]
其中,静态均衡器(equalizer,eq)调音参数指音频某频段的增益或衰减值不随信号电平动态变化,动态eq调音参数指音频某频段的增益或衰减值会根据信号电平动态变化。
[0167]
可选地,可以由专业人员(如调音师)对候选音频组所包括的候选音频分别进行eq调音,包括静态eq调音和动态eq调音。参见图3,图3是本公开根据一示例性实施例示出的一种静态eq调音参数的示意图,对于如图3所示的音频,该音频的静态eq调音参数为400hz为中心,q值为1,衰减为5db。参见图4,图4是本公开根据一示例性实施例示出的一种动态eq调音参数的示意图,对于如图4所示的音频,该音频的动态eq调音参数为500hz为中心,q值为1,实际衰减量(曲线401)根据频段内信号电平而变化,衰减量上限为曲线402,衰减量下限为曲线403;参见图5,图5是本公开根据一示例性实施例示出的另一种动态eq调音参数的示意图,对于如图5所示的音频,该音频的动态eq调音参数为500hz为中心,q值为1,实际衰减量(曲线501)根据频段内信号电平而变化,衰减量上限为曲线502,衰减量下限为曲线503,有所不同的是,图4中的信号电平较高,图5中的信号电平较低,因而,图4中的衰减量较大,图5中的衰减量较小。
[0168]
由于人声音色的复杂与多样,音色相似度只是一个值,对于不同频段的音色差异区分能力有限,而动态eq调音参数作为适合处理随频段电平变化产生的瑕疵的调音参数,可以实现对整体音色相似但不同频段音色有差异的音频的调音处理。而通过以静态eq调音参数和动态eq调音参数结合作为预设调音参数,静态eq调音参数适合处理音色固有的频段瑕疵,因而可以增加本公开的调音参数的普适性。
[0169]
需要说明的是,上述确定候选音频组以及获取候选音频的预设调音参数的过程均可以作为音频处理过程的准备阶段,也即是,可以预先确定出候选音频组,并获取到候选音频组所包括的候选音频的预设调音参数,以便在获取到待处理音频时,可以直接通过如图1所示的过程来对待处理音频进行调音处理。
[0170]
以设定数量为6为例,通过如图1所示的处理过程,可以分别确定待处理音频与这6
个候选音频之间的音色相似度,得到6个音色相似度,进而基于这6个音色相似度,从这6个候选音频中,找到与待处理音频的音色相似度最大的目标音频,将目标音频的预设调音参数作为待处理音频的预设调音参数,来对待处理音频进行调音,从而实现对待处理音频的自动调音。
[0171]
另外,需要注意的是,由于确定候选音频组以及获取候选音频的预设调音参数的过程属于音频处理过程的准备阶段,因而确定候选音频组以及获取候选音频的预设调音参数的过程不会影响如图1所示的音频处理过程的执行效率。
[0172]
基于上述各个实施例,本公开所提供的音频处理方法,至少可以带来如下效果:
[0173]
本公开利用了mfcc特征中目标维度的特征作为音色特征,兼容了不同人声音色和不同录制设备产生的音色差异,同时考虑了演唱过程中的主副歌、真假声、不同歌词吐字产生的音色差异,使音色特征的计算更为准确。
[0174]
另外,在所使用的调音参数中加入动态eq调音参数,可以兼容待处理音频和目标音频的音色相似,但不同频段有些许差异的情况。
[0175]
此外,优化了候选音频组的确定方案,对比了每个音频组所对应的音色相似度之和,从而选取音色相似度之和最小的音频组作为候选音频组,候选音频组中的候选音频两两之间的音色相似度最小,从而使得候选音频组可以涵盖多种不同音色的音频,以使候选音频组的代表性更强。
[0176]
在介绍了本公开示例性实施方式的音频处理方法之后,接下来,对本公开示例性实施方式的音频处理装置以及用于实现音频处理方法的计算设备的结构进行说明。
[0177]
参见图6,图6是本公开根据一示例性实施例示出的一种音频处理装置的框图,该装置包括:
[0178]
获取模块601,用于获取待处理音频;
[0179]
相似度确定模块602,用于确定候选音频组中每个候选音频与待处理音频之间的音色相似度,候选音频组为从多个音频组中确定出的一个音频组,候选音频组所对应的音色相似度之和在各个音频组所对应的音色相似度之和中最小,音色相似度之和为音频组所包括的音频两两之间的相似度的和,每个候选音频对应有预设调音参数;
[0180]
音频确定模块603,用于基于待处理音频与各个候选音频的音色相似度,从多个候选音频中确定目标音频;
[0181]
处理模块604,用于基于目标音频的预设调音参数,对待处理音频进行调音处理。
[0182]
在本公开的一个实施例中,相似度确定模块602,在用于确定候选音频组中每个候选音频与待处理音频之间的音色相似度时,包括:
[0183]
获取子模块,用于获取各个候选音频的音色特征以及待处理音频的音色特征;
[0184]
确定子模块,用于对于任一候选音频,基于候选音频的音色特征与待处理音频的音色特征,确定候选音频与待处理音频之间的音色相似度。
[0185]
在本公开的一个实施例中,获取子模块,在用于获取各个候选音频的音频音色以及待处理音频的音色特征时,包括:
[0186]
确定单元,用于对于任一音频,确定音频的人声部分;
[0187]
抽取单元,用于从音频的人声部分中,抽取目标数量的音频帧;
[0188]
确定单元,还用于基于目标数量的音频帧的音色特征,确定音频的音色特征。
[0189]
在本公开的一个实施例中,抽取单元,在用于从音频的人声部分中,抽取目标数量的音频帧时,用于:
[0190]
基于音频的人声部分的时长,确定采样频率;
[0191]
按照采样频率,在音频的人声部分中进行音频帧抽取,得到目标数量的音频帧。
[0192]
在本公开的一个实施例中,确定单元,在用于基于目标数量的音频帧的音色特征,确定音频的音色特征时,用于:
[0193]
获取各个音频帧的音色特征,得到目标数量的音色特征;
[0194]
基于目标数量的音色特征进行取平均处理,得到音频的音色特征。
[0195]
在本公开的一个实施例中,确定子模块,在用于对于任一候选音频,基于候选音频的音色特征与待处理音频的音色特征,确定候选音频与待处理音频之间的音色相似度时,用于:
[0196]
对于任一候选音频,确定候选音频的音色特征与待处理音频的音色特征之间的余弦距离,将所确定出的余弦距离作为候选音频与待处理音频之间的音色相似度。
[0197]
在本公开的一个实施例中,音频确定模块603,在用于基于待处理音频与各个候选音频的音色相似度,从多个候选音频中确定目标音频时,用于:
[0198]
将多个候选音频中与待处理音频的音色相似度最大的候选音频,确定为目标音频。
[0199]
在本公开的一个实施例中,音频处理装置还包括音频组确定模块,用于从多个音频组中确定候选音频组;音频组确定模块,包括:
[0200]
音频获取子模块,用于获取多个样本音频;
[0201]
特征获取子模块,用于获取各个样本音频的音色特征;
[0202]
相似度确定子模块,用于基于多个样本音频的音色特征,确定每两个样本音频之间的音色相似度;
[0203]
相似度确定子模块,还用于将设定数量的样本音频作为一个音频组,确定各个音频组所包括的设定数量的样本音频两两之间的音色相似度之和;
[0204]
音频组确定子模块,用于将音色相似度之和最小的音频组作为候选音频组。
[0205]
在本公开的一个实施例中,音频组确定模块,还包括:
[0206]
处理子模块,用于对多个样本音频进行预处理,预处理包括降噪处理、去齿音处理和音量归一化处理中的至少一项。
[0207]
在本公开的一个实施例中,音频组确定模块,还包括:
[0208]
参数获取子模块,用于获取候选音频组所包括的音频的动态eq调音参数和静态eq调音参数,作为预设调音参数。
[0209]
在本公开的一个实施例中,音频为干声音频,音色特征由梅尔频率倒谱系数mfcc特征中目标维度的特征组成。
[0210]
应当注意,尽管在上文详细描述中提及了音频处理装置的若干模块/单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块/单元的特征和功能可以在一个模块/单元中具体化。反之,上文描述的一个模块/单元的特征和功能可以进一步划分为由多个模块/单元来具体化。
[0211]
本公开实施例还提供了一种计算机可读存储介质。图7是本公开根据一示例性实
施例示出的一种计算机可读存储介质的示意图,如图7所示,该存储介质上存储有计算机程序701,该计算机程序701被处理器执行时可以执行本公开任一实施例所提供的音频处理方法。
[0212]
本公开实施例还提供了一种计算设备,该计算设备可以包括存储器、处理器,该存储器用于存储可在处理器上运行的计算机指令,该处理器用于在执行该计算机指令时实现本公开任一实施例所提供的音频处理方法。参见图8,图8是本公开根据一示例性实施例示出的一种计算设备的结构示意图,该计算设备800可以包括但不限于:处理器810、存储器820、连接不同系统组件(包括存储器820和处理器810)的总线830。
[0213]
其中,存储器820存储有计算机指令,该计算机指令可以被处理器810执行,使得处理器810能够执行本公开任一实施例所提供的音频处理方法。存储器820可以包括随机存取存储单元ram821、高速缓存存储单元822和/或只读存储单元rom823。该存储器820还可以包括:具有一组程序模块824的程序工具825,该程序模块824包括但不限于:操作系统、一个或多个应用程序、其他程序模块和程序数据,这些程序模块一种或多种组合可以包含网络环境的实现。
[0214]
总线830例如可以包括数据总线、地址总线和控制总线等。该计算设备800还可以通过i/o接口840与外部设备850通信,该外部设备850例如可以是键盘、蓝牙设备等。该计算设备800还可以通过网络适配器860与一个或多个网络通信,例如,该网络可以是局域网、广域网、公共网络等。如图8所示,该网络适配器860还可以通过总线830与计算设备800的其他模块进行通信。
[0215]
本公开实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,程序被计算设备800的处理器810执行时,可以实现本公开任一实施例所提供的音频处理方法。
[0216]
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
[0217]
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1