一种音频处理方法、设备及可读存储介质与流程

文档序号:25863618发布日期:2021-07-13 16:21阅读:132来源:国知局
一种音频处理方法、设备及可读存储介质与流程

本申请涉及声音处理技术领域,特别是涉及一种音频处理方法、设备及可读存储介质。



背景技术:

声音有三个特性:音调、响度和音色。其中,音色由发声体本身的材料、结构等因素决定的。而改变声音的音色,可以给用户带来全新的听觉体验,也可增加与声音相关的应用/设备的趣味性。

通过对声音进行变调操作,可以得到不同音色。但是,在利用变调操作改变音色时,会不可避免地将音调做同步修改,这就导致变化后的声音不仅仅是音色变化,还会存在音调变化,不符合用户期望。如,通过变调操作对某人的声音进行音色变化处理,由于音调也发生了同步变化,会使得音色变化后的声音失真,即音色变化后的声音完全不像本人声音,甚至不像人声的情况。

综上所述,如何有效地改变音频的音色等问题,是目前本领域技术人员急需解决的技术问题。



技术实现要素:

本申请的目的是提供一种音频处理方法、设备及可读存储介质,通过提前音频中音色对应的频谱包络,进而仅对音色对应的频谱包络伸缩处理,从而实现在不变化音调的情况下,改变音色。

为解决上述技术问题,本申请提供如下技术方案:

第一方面,本申请提供了一种音频处理方法,包括:

获取初始音频,提取所述初始音频的初始频谱及与音色对应的频谱包络;

对所述频谱包络进行伸缩处理,得到目标频谱包络;

利用所述目标频谱包络和所述频谱包络,得到权值系数;

利用所述权值系数,对所述初始频谱进行处理,得到目标频谱;

对所述目标频谱进行傅里叶反变换,得到音色变化后的目标音频。

在一种可选的具体实施方式中,对所述频谱包络进行伸缩处理,得到目标频谱包络,包括:

从客户端获取年龄模拟参数;

按照年龄模拟参数与展缩系数的负相关关系,确定所述年龄模拟参数对应的展缩系数;

按照所述展缩系数,对所述频谱包络进行伸缩处理,得到所述目标频谱包络。

在一种可选的具体实施方式中,所述从客户端获取年龄模拟参数,包括:

获取所述初始音频对应的参考年龄和音色模拟年龄;

基于所述参考年龄与所述音色模拟年龄的比值确定所述年龄模拟参数。

在一种可选的具体实施方式中,按照所述展缩系数,对所述频谱包络进行伸缩处理,得到所述目标频谱包络,包括:

若所述展缩系数大于1,则对所述频谱包络进行伸展处理,得到音色变亮的所述目标频谱包络;

若所述展缩系数小于1,则对所述频谱包络进行压缩处理,得到音色变暗的所述目标频谱包络。

在一种可选的具体实施方式中,利用所述目标频谱包络和所述频谱包络,得到权值系数,包括:

对所述目标频谱包络和所述频谱包络进行差分,得到初始掩码频谱系数;

将所述初始mask频谱系数映射到线性域,并利用三角窗卷积进行掩码平滑处理,得到所述权值系数。

在一种可选的具体实施方式中,对所述目标频谱包络和所述频谱包络进行差分,得到初始掩码频谱系数,包括:

所述目标频谱包络的有效数据区间在所述频谱包络的数据区间内,则对所述目标频谱包络和所述频谱包络进行差分,将差分值确定为所述初始掩码频谱系数;

若所述目标频谱包络的有效数据区间超出所述频谱包络的数据区间,则确定对应的初始掩码频谱系数为零。

在一种可选的具体实施方式中,利用所述权值系数,对所述初始频谱进行处理,得到目标频谱,包括:

将所述权值系数与所述初始频谱相乘,得到所述目标频谱。

在一种可选的具体实施方式中,对所述目标频谱进行傅里叶反变换,得到音色变化后的目标音频,包括:

对所述目标频谱补充对应海宁窗权系数;

对补充了所述海宁窗权系数的目标频谱进行短时傅里叶反变换,得到各帧变调;

对所述各帧变调进行重叠相加,得到所述目标音频。

第二方面,本申请提供了一种音频处理装置,包括:

频谱及频谱包络提取模块,用于获取初始音频,提取所述初始音频的初始频谱及与音色对应的频谱包络;

包络处理模块,用于对所述频谱包络进行伸缩处理,得到目标频谱包络;

权值系数确定模块,用于利用所述目标频谱包络和所述频谱包络,得到权值系数;

频谱处理模块,用于利用所述权值系数,对所述初始频谱进行处理,得到目标频谱;

频谱转换模块,用于对所述目标频谱进行傅里叶反变换,得到音色变化后的目标音频。

第三方面,本申请提供了一种电子设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现上述音频处理方法的步骤。

第四方面,本申请提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述音频处理方法的步骤。

应用本申请实施例所提供的方法,获取初始音频,提取初始音频的初始频谱及与音色对应的频谱包络;对频谱包络进行伸缩处理,得到目标频谱包络;利用目标频谱包络和频谱包络,得到权值系数;利用权值系数,对初始频谱进行处理,得到目标频谱;对目标频谱进行傅里叶反变换,得到音色变化后的目标音频。

获得初始音频,提取出初始音频的初始频谱以及与音色对应的频谱包络,通过对频谱包络进行伸缩处理,便可得到音色变化后对应的目标频谱包络。然后,基于频谱包络和目标频谱包络,确定出用于处理初始频谱进而实现音色变化的权值系数。将权值系数作用到初始频谱上,得到目标频谱。最终通过对目标频谱进行傅里叶反变换,便可得到音色变化后的目标音频。可见,在本申请中,改变音色并非是通过变调实现,而是直接对音色对应的频谱包络进行伸缩。由于对音色对应的频谱包络进行伸缩处理,不会导致音调出现同步变化,因而进行音色变化处理后得到的目标音频不会存在音调也发生同步变化的问题。即音色变化后的目标音频与初始音频之间的差异仅有音色变化,而无音调变化,因而该目标音频会更加真实。

相应地,本申请实施例还提供了与上述音频处理方法相对应的音频处理装置、设备和可读存储介质,具有上述技术效果,在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例中一种音频处理方法的实施流程图;

图2为本申请实施例中一种音频处理装置的结构示意图;

图3为本申请实施例中一种电子设备的结构示意图;

图4为本申请实施例中一种电子设备的具体结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请所提供的音频处理方法,可以应用于需要对声音进行音色变化处理的,包括但不限于服务器、pc端和移动终端的电子设备中,该电子设备的具体内部结构可参照图3和图4以及对应描述,在此不再一一赘述。具体的,由于本申请提供的音频处理方法可以在不改变音调的情况下,对音色进行变化,因而进一步可以通过有控制的改变的音色,能够展现或复原当前输入的人声在不同年龄段的音色差异,可应用于诸如全民k歌产品中。例如,应用虚拟人物展现上,当人物的年龄改变时,适应性改变音色,以对应不同年龄阶段的人声输出,从而更加贴近真实人物的展示。

请参考图1,图1为本申请实施例中一种音频处理方法的流程图,该方法包括以下步骤:

s101、获取初始音频,提取初始音频的初始频谱及与音色对应的频谱包络。

初始音频可以具体对应人声(包括真实人声或模拟人声),也可以对应其他声音,如乐器声音(如喇叭声等),或自然界声音(如虫鸣鸟叫声等)。在本实施例中,该初始音频即为需要进行音色变化处理的音频即可,对于初始音频具体对应何种声音并不做具体限定。

可以通过声音采集器件直接采集初始音频,也可以直接从存储介质中读取初始音频,还可以接收其他设备发送的初始音频。具体的,还可以通过接收请求的方式来获取初始音频音色变化请求可以具体为一些需要进行音色变化的终端或者应用发起。该音色变化请求中可以具体携带待进行音色变化的初始音频或初始音频的标记信息。也就是说,在接收到音色变化请求之后,可以通过对音色变化请求进行解析,从而得到待进行音色变化的初始音频。

得到初始音频之后,可以提取出初始音频的初始频谱,以及与音色对应的频谱包络。

声音包括音调、音色和响度三个特征,在本实施例中,重点关注音色特征。因而在本实施例中,在得到初始音频之后,会提取初始音频的初始频谱以及音色对应特征进行提取。具体的,音色对应的特征可以用音色相关的频谱包络来表征。因而,在本实施例中,需提取出初始音频中与音色相关的频谱包络。

对于提取初始音频可采用傅里叶变换对初始音频进行处理,将其从时域转换为频域,得到初始频谱。

对于如何提取初始音频与音色对应的频谱包络可以具体参照如何从一个信号中提取对应的频谱包络的方式进行。

为了更好地提取音色对应的频谱包络,在本申请中的一种具体实施方式中,可参照以下步骤,提取初始音频中与音色对应的频谱包络:

步骤一、提取初始音频的基频同步序列,并对基频同步序列进行分帧,添加海宁窗得到切分后的帧信号序列;

步骤二、对帧信号序列进行短时傅里叶变换,得到初始音频的频谱分布;

步骤三、利用频谱分布,得到功率谱曲线;

步骤四、提取功率谱曲线的信号包络,并利用信号包络确定出频谱包络。

为便于描述,下面将上述四个步骤结合起来进行说明。

其中,海宁窗,也称汉宁窗,是窗函数之一,是升余弦窗的一个特例。汉宁窗可以看作是3个矩形时间窗的频谱之和,或者说是3个sinc(t)型函数之和,而括号中的两项相对于第一个谱窗向左、右各移动了π/t,从而使旁瓣互相抵消,消去高频干扰和漏能。适用于非周期性的连续信号。

为便于处理,在本实施例中,首先提取出初始音频的基频同步序列。具体的,在实际应用中可以采用基频提取工具,如pyin开源工具、crepe,harvest具体来提取基频同步序列。其中,pyin开源工具、crepe,harvest均为已有的基频提取工具。

下面以使用pyin开源工具为例,对提取基频同步序列,以及对提取得到的基频同步序列进行处理,最终得到音色对应的频谱包络进行详细说明。

假设初始音频为:x(i),i=0,1,2,…表示样点索引,利用pyin开源工具首先对初始音频以5ms为间隔(当然,还可采用其他时长作为间隔,如4ms,6ms等)提取基频同步序列,即基频同步信息,简称f0序列(其中,f0对应pitch(f0),即基频、基音)。

基于信号的基频同步信息(即f0序列),基频周期序列3倍(3t0,当然在实际应用中,还可采用其他倍数作为窗长,在此不再一一列举)为窗长(左右各1.5t0),对信号分帧,添加hanning窗(汉宁窗)得到切分后的帧信号序列。通过stft(短时傅里叶变换)得到频谱分布:其中,n表示帧索引,ω表示该帧的数字角频率变量,f表示短时傅里叶变换,whannn(i)表示海宁窗。

其中,表示傅里叶变换,l表示帧间信号的偏移量,可选择5ms对应的样点数(需要注意的是,还可以选择其他数值作为样点数,在此不再一一列举)。hanning窗定义为:

此处n=3t0。

计算功率谱曲线:

p(ω,n)=||x(ω,n)||2

计算每帧信号功率谱,并利用矩形窗对功率谱做线性平滑,即:

其中,该矩形窗的基频特性长度为:

然后,在此基础上提取音色(即共振峰包络信息):将功率谱看作普通信号,求出信号包络。即找到低频部分。提升倒谱域内与基因周期(基音周期)相近倒谱段权重,从而得到更为真实的谱包络曲线,计算过程描述如下(为了描述的方便后续均省去帧索引参数n):

平滑后对数功率谱:

倒谱:

构造倒谱提升窗:

其中,sinc(·)表示抽样函数,其中,q可取经验值,如q=-0.09;倒谱加窗:频谱提升后的对数谱:其中:分别表示正反傅里叶变换。

通过上述处理,最后得到的对数功率谱即可视为信号对数共振峰包络。由于当前得到的包络信息实际表示的是对数功率谱,在此基础上,可直接通过0.5倍的加权得到幅度对数谱,即音色对应的频谱包络表示为:

s102、对频谱包络进行伸缩处理,得到目标频谱包络。

得到音色对应的频谱包络之后,便可以通过对频谱包络进行伸缩处理,进而得到目标频谱包络。

在本实施例中,对于具体对频谱包络进行延展或压缩处理,以及延展的程度,压缩的程度均不做限定。对频谱包络进行伸缩处理后得到的目标频谱包络即与频谱包络存在区别,即频谱包络与目标频谱包络对应了不同音色的频谱包络。

s103、利用目标频谱包络和频谱包络,得到权值系数。

得到目标频谱包络之后,由于目标频谱包络与频谱包络对应了不同的音色,因而基于该目标频谱包络与频谱包络,可以得到用于处理初始频谱使之与音色变化后的频谱包络匹配的权值系数。该权值系数即为能够将初始频谱处理后与该目标频谱包络对应的频谱。

s104、利用权值系数,对初始频谱进行处理,得到目标频谱。

得到权值系数之后,便可将权值系数作用到初始频谱上,进而得到目标频谱。该目标频谱即为与目标频谱包络匹配的频谱。

具体的,可将权值系数与初始频谱相乘,得到目标频谱。

s105、对目标频谱进行傅里叶反变换,得到音色变化后的目标音频。

得到目标频谱之后,便可通过傅里叶反变换,将目标频谱从频域转换为时域,从而得到音色变化后的目标音频。

在本实施例中,为了便于区别,将音色变化后的初始音频称之为目标音频,也就是所,目标音频与初始音频的区别仅在于对应的音色不同。

应用本申请实施例所提供的方法,获取初始音频,提取初始音频的初始频谱及与音色对应的频谱包络;对频谱包络进行伸缩处理,得到目标频谱包络;利用目标频谱包络和频谱包络,得到权值系数;利用权值系数,对初始频谱进行处理,得到目标频谱;对目标频谱进行傅里叶反变换,得到音色变化后的目标音频。

获得初始音频,提取出初始音频的初始频谱以及与音色对应的频谱包络,通过对频谱包络进行伸缩处理,便可得到音色变化后对应的目标频谱包络。然后,基于频谱包络和目标频谱包络,确定出用于处理初始频谱进而实现音色变化的权值系数。将权值系数作用到初始频谱上,得到目标频谱。最终通过对目标频谱进行傅里叶反变换,便可得到音色变化后的目标音频。可见,在本申请中,改变音色并非是通过变调实现,而是直接对音色对应的频谱包络进行伸缩。由于对音色对应的频谱包络进行伸缩处理,不会导致音调出现同步变化,因而进行音色变化处理后得到的目标音频不会存在音调也发生同步变化的问题。即音色变化后的目标音频与初始音频之间的差异仅有音色变化,而无音调变化,因而该目标音频会更加真实。

需要说明的是,基于上述实施例,本申请实施例还提供了相应的改进方案。在优选/改进实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考,相应的有益效果也可相互参照,在本文的优选/改进实施例中不再一一赘述。

在本申请的一种具体实施方式中,在对频谱包络进行伸缩处理时,可以有方向性有明确目标的对频谱包络进行伸缩处理,从而使得音色的变化也有方向性和目的性。具体的,上述步骤s102对频谱包络进行伸缩处理,得到目标频谱包络,具体包括:

步骤一、从客户端获取年龄模拟参数;

步骤二、按照年龄模拟参数与展缩系数的负相关关系,确定年龄模拟参数对应的展缩系数。

步骤三、按照展缩系数,对频谱包络进行伸缩处理,得到目标频谱包络为便于描述,下面将上述三个步骤结合起来进行说明。

可对频谱包络做stft(短时傅里叶变换处理),此处使用固定帧长2048点(采样率为44100时,对应46.4ms),帧移的帧移为5ms(与之前的包络提取帧移相同)。此时的hanning窗长度n=2048,然后,再计算幅度对数谱对应的展缩系数。

经研究发现,同一个人在不同的年龄段,其音色一般是变化的,且音色变化呈现出一定的规律,从听觉上感受年少时期人声相对轻量,整体音色特性比较偏向中高频方向,随着年龄的增长,发声越来越向低频段靠近。从音色对应频谱包络角度看,越年轻,对应的音色的频谱包络横向幅度越大;而越年老,对应的音色的频谱包络横向幅度越小。基于此,在本申请中,根据该特性,通过调整共振峰包络的频谱分布来修改人声的最终的音色表现。

具体的,可以从客户端中获取年龄模拟参数,然后基于年龄模拟参数与展缩系数对应的负相关关系,确定出展缩系数,然后再按照展缩系数对频谱包络进行伸缩处理,便可以得到与年龄模拟参数相匹配的目标频谱包络。

其中,年龄模拟参数越大,则展缩系数越小。

也就是说,在本实施例中,利用人声在不同年龄段的发生音色亮度特性对频谱包络做伸缩。具体的,由于年少时期人声相对轻量,整体音色特性比较偏向中高频方向,随着年龄的增长,发声越来越向低频段靠近。根据该特性,本实施例通过调整共振峰包络的频谱分布来修改人声的最终音色表现。

需要注意的是,在本申请中,经过研究发现,若用fshift来表征展缩系数,则为了避免出现音色改变过于夸张,一般地展缩系数在fshift∈[0.8655,1.1554],而fshift>1时曲线扩展;fshift<1曲线压缩,因此,压缩处理对应的系数区间可具体为[0.8655,1),而展宽处理对应的系数区间可具体为(1,1.1554]。也就是说,当要进行音色老龄化处理,则对应的展缩系数可以从[0.8655,1)中确定,具体的,可以采用随机选择方式确定出展缩系数,还可以通过设置不同的年龄段对应不同的数值的方式来确定展缩系数,也可以通过百分比的方式从此区间中确定出展缩系数,当然也可采取参考年龄与音色模拟年龄的比值进行确认。相应地,对于年轻化,也可参照老龄化的确定方式,在此不在一一赘述。

其中,从客户端获取年龄模拟参数,可具体包括:

步骤1、获取初始音频对应的参考年龄和音色模拟年龄;

步骤2、基于参考年龄与音色模拟年龄的比值确定年龄模拟参数。

该参考年龄可具体为对初始音频进行音色特征提取之后,对该音色特征进行识别,从而确定出的参考年龄。当然,该参考年龄也可以为用户自行输入的真实年龄。对应老龄化,则需对频率包络进行压缩处理,而对应年轻化,则需对频谱包络进行展宽处理。因而,可基于参考年龄与音色模拟年龄的比值确定年龄模拟参数。也就是说,参考年龄大于音色模拟年龄,即为年轻化,此时年龄模拟参数小于1,而展缩系数大于1;参考年龄小于音色模拟年龄,即为老龄化,此时年龄模拟参数大于1,而展缩系数小于1。在确定展缩系数时,可参照模拟参数与展缩系数的负相关关系,确定出展缩系数。即,年龄模拟参数越大,则展缩系数越小,在本申请中,当年龄模拟参数为负,则展缩系数为正,反之亦然,其中,对应的负相关的程度可根据实际需求进行设置。

其中,步骤三,按照展缩系数,对频谱包络进行伸缩处理,得到目标频谱包络。可分以下两种情况:

情况一、若展缩系数大于1,则对频谱包络进行伸展处理,得到音色变亮的目标频谱包络;

情况二、若展缩系数小于1,则对频谱包络进行压缩处理,得到音色变暗的目标频谱包络。

其中,按照展缩系数,对频谱包络进行伸缩处理,得到目标频谱包络,可具体为:按照展缩系数,对频谱包络进行插值伸缩处理,得到目标频谱包络。

曲线的展缩此处通过插值实现:ly(ω)=interp(lx(ω),fshift),其中符号interp(·)表示曲线的插值运算,可以使用开源工具进行线性插值或多项式插值。fshift表示展缩系数。

在本申请中的一种具体实施方式中,上述步骤s103利用目标频谱包络和频谱包络,得到权值系数,包括:

步骤一、对目标频谱包络和频谱包络进行差分,得到初始掩码频谱系数;

步骤二、将初始mask频谱系数映射到线性域,并利用三角窗卷积进行掩码平滑处理,得到权值系数。

为便于描述,下面将上述两个步骤结合起来进行说明。

首先利用对数谱差分,即对频谱包络和目标频谱包络进行差分,得到得到初始mask频谱系数(即初始掩码频谱系数):lm(ω)=ly(ω)-lx(ω);

然后再映射到线性域:mask(ω)=exp(lm(ω))。

具体的,上述步骤一具体包括以下两种情况:

情况一、目标频谱包络的有效数据区间在频谱包络的数据区间内,则对目标频谱包络和频谱包络进行差分,将差分值确定为初始掩码频谱系数;

情况二、若目标频谱包络的有效数据区间超出频谱包络的数据区间,则确定对应的初始掩码频谱系数为零。

也就是说,当fshift>1时,曲线扩展后曲线ly(ω)有效数据区间超出原始曲线lx(ω)数据区间的情况,此时定义mask(ω)=0。

为了防止权系数抖动过大,可以利用三角窗卷积实现mask平滑:m(ω)=conv(mask(ω),wtri(ω)),其中mask(ω)=conv(·)表示卷积处理,wtri(ω)表示三角窗函数,当前使用三个点构成的窗函数:wtri(ω)=[0.25,0.50,0.25]。

在本申请中的一种具体实施方式中,步骤s105对目标频谱进行傅里叶反变换,得到音色变化后的目标音频,具体包括:

步骤一、对目标频谱补充对应海宁窗权系数;

步骤二、对补充了海宁窗权系数的目标频谱进行短时傅里叶反变换,得到各帧变调;

步骤三、对各帧变调进行重叠相加,得到目标音频。

为便于描述,下面将上述三个步骤结合起来进行说明。

在将权值系数m(ω)作用到初始频谱上得到当前帧的加权后的目标频谱:y(ω,n)=m(ω,n)·x(ω,n)之后,可以利用短时傅里叶反变换,补充对应的hann窗权系数得到当前帧变调后输出:其中i表示时域(样点)序列,n表示帧序列。

最后,利用重叠相加ola(重叠相加)方式得到最终目标音频:y(i)=ola{y(i,n)}。

相应于上面的方法实施例,本申请实施例还提供了一种音频处理装置,下文描述的音频处理装置与上文描述的音频处理方法可相互对应参照。

参见图2所示,该装置包括以下模块:

频谱及频谱包络提取模块101,用于获取初始音频,提取初始音频的初始频谱及与音色对应的频谱包络;

包络处理模块102,用于对频谱包络进行伸缩处理,得到目标频谱包络;

权值系数确定模块103,用于利用目标频谱包络和频谱包络,得到权值系数;

频谱处理模块104,用于利用权值系数,对初始频谱进行处理,得到目标频谱;

频谱转换模块105,用于对目标频谱进行傅里叶反变换,得到音色变化后的目标音频。

应用本申请实施例所提供的装置,获取初始音频,提取初始音频的初始频谱及与音色对应的频谱包络;对频谱包络进行伸缩处理,得到目标频谱包络;利用目标频谱包络和频谱包络,得到权值系数;利用权值系数,对初始频谱进行处理,得到目标频谱;对目标频谱进行傅里叶反变换,得到音色变化后的目标音频。

获得初始音频,提取出初始音频的初始频谱以及与音色对应的频谱包络,通过对频谱包络进行伸缩处理,便可得到音色变化后对应的目标频谱包络。然后,基于频谱包络和目标频谱包络,确定出用于处理初始频谱进而实现音色变化的权值系数。将权值系数作用到初始频谱上,得到目标频谱。最终通过对目标频谱进行傅里叶反变换,便可得到音色变化后的目标音频。可见,在本申请中,改变音色并非是通过变调实现,而是直接对音色对应的频谱包络进行伸缩。由于对音色对应的频谱包络进行伸缩处理,不会导致音调出现同步变化,因而进行音色变化处理后得到的目标音频不会存在音调也发生同步变化的问题。即音色变化后的目标音频与初始音频之间的差异仅有音色变化,而无音调变化,因而该目标音频会更加真实。

在本申请的一种具体实施方式中,包络处理模块102,具体用于从客户端获取年龄模拟参数;按照年龄模拟参数与展缩系数的负相关关系,确定年龄模拟参数对应的展缩系数;按照展缩系数,对频谱包络进行伸缩处理,得到目标频谱包络。

在本申请的一种具体实施方式中,包络处理模块102,具体用于获取初始音频对应的参考年龄和音色模拟年龄;基于参考年龄与音色模拟年龄的比值确定年龄模拟参数。

在本申请的一种具体实施方式中,包络处理模块102,具体用于若展缩系数大于1,则对频谱包络进行伸展处理,得到音色变亮的目标频谱包络;若展缩系数小于1,则对频谱包络进行压缩处理,得到音色变暗的目标频谱包络。

在本申请的一种具体实施方式中,权值系数确定模块103,具体用于对目标频谱包络和频谱包络进行差分,得到初始掩码频谱系数;将初始mask频谱系数映射到线性域,并利用三角窗卷积进行掩码平滑处理,得到权值系数。

在本申请的一种具体实施方式中,权值系数确定模块103,具体用于目标频谱包络的有效数据区间在频谱包络的数据区间内,则对目标频谱包络和频谱包络进行差分,将差分值确定为初始掩码频谱系数;若目标频谱包络的有效数据区间超出频谱包络的数据区间,则确定对应的初始掩码频谱系数为零。

在本申请的一种具体实施方式中,频谱处理模块104,具体用于将权值系数与初始频谱相乘,得到目标频谱。

在本申请的一种具体实施方式中,频谱转换模块105,具体用于对目标频谱补充对应海宁窗权系数;对补充了海宁窗权系数的目标频谱进行短时傅里叶反变换,得到各帧变调;对各帧变调进行重叠相加,得到目标音频。

相应于上面的方法实施例,本申请实施例还提供了一种电子设备,下文描述的一种电子设备与上文描述的一种音频处理方法可相互对应参照。

参见图3所示,该电子设备包括:

存储器332,用于存储计算机程序;

处理器322,用于执行计算机程序时实现上述方法实施例的音频处理方法的步骤。

具体的,请参考图4,图4为本实施例提供的一种电子设备的具体结构示意图,该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessingunits,cpu)322(例如,一个或一个以上处理器)和存储器332,存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中,存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器322可以设置为与存储器332通信,在电子设备301上执行存储器332中的一系列指令操作。

电子设备301还可以包括一个或一个以上电源326,一个或一个以上有线或无线网络接口350,一个或一个以上输入输出接口358,和/或,一个或一个以上操作系统341。

上文所描述的音频处理方法中的步骤可以由电子设备的结构实现。

相应于上面的方法实施例,本申请实施例还提供了一种可读存储介质,下文描述的一种可读存储介质与上文描述的一种音频处理方法可相互对应参照。

一种可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的音频处理方法的步骤。

该可读存储介质具体可以为u盘、移动硬盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

本领域技术人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1