音频源分量及环境分量提取方法与流程

文档序号:17431204发布日期:2019-04-17 03:31阅读:757来源:国知局
音频源分量及环境分量提取方法与流程

本发明属于音频处理技术领域,具体涉及一种分解立体声声场景的技术。



背景技术:

基于通道的音频格式在实际生活中应用十分广泛,如手机、电脑、耳机中大多采用的都是该种格式。这种格式的音频通常需要特定的音响系统进行回放。对于当今多样化的音响系统,需要对音频信号进行分解和重构来满足不同的音响系统,以获取更好的空间质量(spatialquality)。例如为获取更优质的听觉体验,将手机中双通道立体声在多通道的耳机中进行回放。传统的惯用方式为:采用音频重新合成(audioremixing)和虚拟化技术(virtualization)来对双通道信号进行处理以得到多通道的音频输出。基于文献《upmixinganddownmixingtwo-channelstereoaudioforconsumerelectronic》和文献《spatialaudioprocessing:mpegsurroundandotherapplication》可知,传统的方法可以解决回放系统的适应性的问题,但重构的声场景的空间质量有待提高。

对于上述问题,一种改进的思路是将声场景考虑为源分量(primarycomponent)和环境分量(ambientcomponent)的线性组合。将立体声信号左右通道分别表示为xl和xr,于是有:xl=pl+al,xr=pr+ar,其中pl和pr分别代表左右通道的源分量,al和ar分别代表左右通道环境分量。在公开号为cn101902679a的中国专利申请中,其公开的一种声处理技术可将双声道输入信号转变为5.1通路的环绕声输出信号,该技术对左右通道信号求差,再对差值经过滤波和延迟处理得到声场景环境分量,但该方法对环境分量估计的误差较大。在通道音频格式下,可以作出如下合理假设:左右通道中源分量满足线性关系,即:pr=kpl,定义k为源声相因子;环境分量之间不相关等幅度,即:al⊥ar,|al|=|ar|。针对上述假设michaelm.goodwin和jean-marcjot提出的主成分分析(principalcomponentanalysis,pca)算法,对混合信号采用源环境提取的方法分别估计出源分量和环境分量。通过对源分量和环境分量采用不同的渲染(renderingschemes)方法进行处理可以提高声场景重构的质量。但pca存在源分量误差较大,环境分量之间不满足不相关性且响度失真的弊端。



技术实现要素:

本发明的发明目的在于:针对上述存在的问题,提供一种新的基于不相关环境分量的源环境分量提取方法,以进一步提高源分量和环境分量提取的精度,同时保证通道之间的响度均衡性。

本发明的音频源分量及环境分量提取方法包括下列步骤:

步骤1:对待进行分量提取的立体声音频信号的左、右通道信号分别进行分帧、以及将每帧信号变换到频域,并提取每一帧内的左、右通道信号的正频率点分量值xl[m,f]、xr[m,f],其中m表示帧数,f表示频率值;

步骤2:在信号复频域,根据每帧的正频率点分量值得到xl[m,f]的坐标(x1,y1),以及xr[m,f]的坐标(x2,y2);

步骤3:分别在两种情况下求解环境分量、源分量在每帧的各正频率点分量值:

(1)对于左环境分量比右环境分量落后90°的情况:

(2)对于左环境分量比右环境分量超前90°的情况:

其中,(a1,b1)、(a2,b2)分别表示左、右通道环境分量的正频率点分量值在信号复频域的坐标,pl、pr分别表示左、右通道源分量的正频率点分量值,k表示源声相因子;

步骤4:确定每帧的各正频率点的真实解:对两组求解结果,分别计算源分量能量和环境分量能量,判断是否存在源分量能量大于环境分量能量的解,若是,则当前正频率点的真实解为源分量能量大于环境分量能量的解;否则为环境分量能量大于源分量能量的解;

所述源分量能量为当前正频率点的左、右源分量值的能量之和,所述环境分量能量为当前正频率点的左、右环境分量值的能量之和;

步骤5:基于每帧的各正频率点的真实解,通过共轭对称关系构建左、右通道的源分量、环境分量在每帧的负频率点分量值;

步骤6:对每帧的各频率点分量值进行频域到时域的转换处理,得到待进行分量提取的立体声音频信号的左、右信道的环境分量信号和源分量信号。

综上所述,由于采用了上述技术方案,本发明的有益效果是:经本发明提取方法所提取出源分量、环境分量的时域波形与原始语音的左声道源分量、环境分量的波形具有高度一致性,且本发明提取方法提取出的左右环境分量不存在幅度失真的问题,可以保证左右通道环境分量响度的均衡性。此外,基于本发明提取出的源分量和环境分量能高度还原原始音频信号。

附图说明

图1为本发明的源环境提取方法的几何表示;

图2为本发明的源环境提取方法处理流程图;

图3为原始左声道源分量的时域波形;

图4为原始左声道环境分量的时域波形;

图5为本发明所述新方法提取出来的左声道源分量的时域波形;

图6为本发明所述新方法提取出来的左声道环境分量的时域波形;

图7为本发明所述新方法提取出来的右声道环境分量的时域波形。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。

本发明针对现有pca算法中存在的缺陷,基于环境分量之间具有不相关性,本发明针对环境分量在频域垂直这一情况,提出一种新的基于不相关环境分量的源环境分量提取方法(primaryandambientcomponentestimationbasedontheuncorrelatedambientcomponent,uapae),以提高源分量和环境分量提取的精度,同时保证通道之间的响度均衡性。

立体声信号可视为源分量和环境分量的线性组合,且源分量之间满足k倍的线性关系,环境分量之间不相关且等幅度。在上述条件下利用几何关系可以分离出环境分量和源分量。通过短时傅里叶变换将信号变换到频域,对于每一个时频点均有:

xl[m,f]=pl[m,f]+al[m,f](1)

xr[m,f]=pr[m,f]+ar[m,f](2)

其中m为帧数,f为频率值,xl[m,f]、xr[m,f]分别表示对应的左右通道信号,pl[m,f]、pr[m,f]分别表示对应的左、右通道的源分量,al[m,f]、ar[m,f]分别表示对应的左、右通道的环境分类。

在每一个时频点进行信号分解,由于实信号的傅里叶变换具有共轭对称性,仅在正频率部分进行求解,负频率分量通过共轭对称关系进行构造,从而得到信号的频谱,再通过傅里叶逆变换求出的时域解仍为实信号。

在信号复频域,根据频域值可建立如图1所示的坐标关系:对某一时频点,用(x1,y1)表示左通道信号xl的坐标,用(x2,y2)表示右通道信号xr的坐标,用(a1,b1)表示左通道环境分量al的坐标,用(a2,b2)表示右通道环境分量ar的坐标,图1中,im表示虚部,re表示实部;

由于al⊥ar且|al|=|ar|,则有:

从而可得:

式(4)和式(5)分别对应于al比ar落后90°,以及及al比ar超前90°两种情况。

不失一般性,本具体实施方式中,选取其中的一种进行求解,另一种情况的解用类似方法可以得到。

根据pr=kpl可得:(x2-a2,y2-b2)=k(x1-a1,y1-b1),结合式(4),可以解得:

而当al比ar超前90°时可得:

通过上述关系可以求得每帧信号正频率分量的频谱。

这种方法包含两个解,在没有附加条件的情况下无法确定是哪一个为真实解。本发明通过引入一个优化准则可以判断较为适宜的一种:当求解的信号中源分量的能量值高于环境分量时,选择对应源分量能量大于环境分量能量的解即为所求解,反之则选择环境分量能量大于源分量能量的解。

实施例

待分解的立体声音频制作:

左声道的源分量采用录制的单声道语音音频信号(时域波形如图3所示),右声道的源分量是将左声道的源分量乘以源声相因子k,此实例中k取值为2。取双声道海浪声的左声道音频信号为左声道环境分量(时域波形如图4所示),右声道的环境分量通过对左声道环境分量进行希尔伯特变换得到。

随后,计算出源分量和环境分量的功率,对左、右声道的源分量进行处理,使得总的源分量功率与总功率的比值为0.8。

再分别混合左、右声道的源分量、环境分量,得到左、右声道的输出信号,即获得待处理的立体声音频信号。

参见图2,对上述待处理的立体声音频信号采用本发明的提取方法实现声场景分解的具体操作步骤如下:

首先,对立体声音频信号的左、右输出信号分别进行分帧处理,本实施中,分帧处理后的每帧包含4096个采样点。

然后,对每帧音频信号进行4096点快速傅里叶变换(fastfouriertransform,fft),得到左、右声道输出信号的频谱。

遍历所有的帧,在每一帧内对于所有的正频率点xl[m,f]和xr[m,f],根据式(6)和(7),以及公式(8)和(9)分别求解两种情况下的左右环境分量正频率部分al=a1+jb1、ar=a2+jb2,以及源分量正频率部分pl=x1+jy1、pr=x2+jy2,j表示虚数单位。

再将两种情况下的求解结果进行源分量和环境分量的能量比较,以确定各帧不同正频率点下的真实解:对于每个正频率点的求解结果,若存在源分量能量(左右通道之和)大于环境分量能量(左右通道之和),则当前正频率点的真实解即为源分量能量大于环境分量能量的解;否则为环境分量能量大于源分量能量的解。

本实施例中,各正频率点的源分量的能量和环境分量的能量的计算方式为:ep=|pl|2+|pr|2,ea=|al|2+|ar|2

进而,基于每个正频率点下的真实解,通过共轭对称关系构建负频率分量值。

最后,将得到的左、右声道的源分量、环境分量的所有帧的频域信号逆变换为时域信号,最后连接起来,再将提取的各分量用于立体声的扩展。

本实例提取了左声道的源分量、左右声道环境分量,并画出了其时域波形,如图5-7所示;与图3所示的原始语音的左声道源分量、图4所示的环境分量进行对比分析可知,经本发明提取方法所提取出的左声道源分量、环境分量的时域波形与原始语音的左声道源分量、环境分量的波形具有高度一致性,且本发明提取方法提取出的左右环境分量不存在幅度失真的问题,可以保证左右通道环境分量响度的均衡性。此外,通过耳机回放还可发现,本发明提取出的源分量和环境分量与原始源分量及环境分量几乎分辨不出,能高度还原原始音频信号。综上可以看出,本发明所提出的分量提取方法有其实际的利用价值。

以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1