用于对音频帧丢失隐藏进行控制的方法和设备与流程

文档序号:16092381发布日期:2018-11-27 23:10阅读:182来源:国知局

技术领域

本申请涉及对用于接收音频信号的丢失音频帧的隐藏方法进行控制的方法和设备。



背景技术:

传统音频通信系统用帧来传输语音和音频信号,意味着发送侧首先将信号设置为例如20=40ms的短的段,该段随后被编码并作为例如逻辑单元在传输分组中传输。接收机对这些单元中的每个单元进行解码,并且重构相应的信号帧,该信号帧进而最后输出为重构信号采样的连续序列。在编码之前,通常存在将来自麦克风的模拟语音或音频信号转换成音频采样序列的模数(A/D)转换步骤。相反地,在接收端,通常存在将重构的数字信号采样序列转换成用于扬声器重放的时间连续模拟信号的最终D/A转换步骤。

然而,针对语音和音频信号的这种传输系统会受到传输错误的影响,这会导致传输帧中的一个或若干个在接收机处不可用于重构的情况。在那种情况下,解码器必须生成针对每个擦除的(即不可用的)帧的替代信号。这在接收机侧信号解码器的所谓的帧丢失或错误隐藏单元中完成。帧丢失隐藏的目的是使得尽可能听不到帧丢失,并且因此尽可能减轻帧丢失对重构信号质量造成的影响。

传统的帧丢失隐藏方法可以取决于编解码器的构造或结构,例如通过应用之前接收的编解码器参数的重复的形式。这种参数重复技术显然取决于使用的编解码器的具体参数,并且因此不容易适用于具有不同构造的其它编解码器。当前的帧丢失隐藏方法可以(例如)应用对先前接收帧的参数进行冻结和外插(extrapolate)的概念,以生成丢失帧的替代帧。

这些现有技术帧丢失隐藏方法包含一些突发丢失处理方案。通常,在接连多个帧丢失之后,合成的信号被衰减,直至在长的错误突发之后完全静音。此外,修改必须重复和推算的编码参数,以使衰减完成并使谱峰平滑掉。

当前现有帧丢失隐藏技术通常应用冻结和外插之前接收的帧的参数,以生成丢失帧的替代帧。许多参变的(parametric)语音编解码器(如像是AMR或AMR-WB的线性预测编解码器)通常冻结早先接收的参数或使用其某一外插,并一起使用解码器。本质上,该原理是取得用于编码/解码的给定模型,并且将冻结或外插后的参数应用到同一模块上。AMR和AMR-WB的帧丢失隐藏技术可以被认为是代表性的。在相应标准规范中对它们进行了详细说明。

音频编解码器类别中的很多编解码器用于编码频域技术。这意味着在一些频域变换之后,对谱参数应用编码模型。解码器根据接收参数来重构信号谱,并且最终将谱变换回时间信号。典型地,时间信号是逐帧重构的。这些帧通过重叠相加技术组合为最终的重构信号。甚至在音频编解码器的情况下,现有的错误隐藏针对丢失帧通常应用相同或至少部分类似的解码模型。来自之前接收的帧的频域参数被冻结或者适当地被外插,然后在频率到时间域转换中使用。这种技术的示例具备根据3GPP标准的3GPP音频编解码器。



技术实现要素:

帧丢失隐藏的当前现有技术解决方案通常经受质量减损。主要问题在于:参数冻结和外插技术和甚至对于丢失帧的同一解码器模型的再应用并不能总是保证从之前解码后的信号帧到丢失帧的平滑和可靠的信号演变。这通常导致具有相应质量影响的可听信号中断。

描述了用于语音和音频传输系统的帧丢失隐藏的新方案。新的方案提高了帧丢失情况下的质量,高于用现有的帧丢失隐藏技术可以获得的质量。

本实施例的目的是对优选地具有所描述的相关新方法的类型的帧丢失隐藏方案进行控制,以实现重构信号的最佳可能声音质量。所述实施例旨在关于所述信号的属性和帧丢失时间分布的属性两方面对该重构质量进行优化。具体地,对于提供良好质量的帧丢失隐藏的问题是音频信号具有强烈变化的属性时的情况,例如能量起始(onset)或结束(offset),或者音频信号在谱上非常波动的情况。在那种情况下,所描述的隐藏方法会重复起始、结束或谱波动,导致距离原始信号的大偏差和相应的质量损失。

另一种成问题的情况是如果接连发生帧丢失的突发。从概念上说,根据所描述的方法的帧丢失隐藏的方案可以处理这些情况,尽管结果是可能仍然发生恼人的音调上的人为损伤(tonal artifact)。本发明实施例的另一个目的是将这种人为损伤减轻到最大可能程度。

根据第一方面,一种解码器用于隐藏丢失音频帧的方法包括:在先前接收的和重构的音频信号的属性中或在观察到的帧丢失的统计属性中检测丢失帧的替代提供相对降低的质量的条件。在检测到所述条件时,通过选择性地调整替代帧谱的相位或谱幅度来修改所述隐藏方法。

根据第二方面,解码器被配置为实现对丢失音频帧的隐藏,并且包括控制器,该控制器被配置为:在先前接收的和重构的音频信号的属性中或在观察到的帧丢失的统计属性中检测丢失帧的替代提供相对降低的质量的条件。当检测到所述条件时,通过选择性地调整替代帧谱的相位或谱幅度来修改所述隐藏方法。

解码器可以在设备(例如移动电话)中实现。

根据第三方面,接收机包括根据上述第二方面的解码器。

根据第四方面,一种计算机程序被定义为用来隐藏丢失音频帧,并且所述计算机程序包括指令,当处理器运行该指令时,使处理器如上述第一方面所述隐藏丢失音频帧。

根据第五方面,计算机程序产品包括存储了根据上述第四方面的计算机程序的计算机可读介质。

实施例的优点解决了对适配帧丢失隐藏方法的控制,所述控制允许减轻对编码语音和音频信号的传输中的帧丢失的听得见的影响,甚至超过仅用所描述的隐藏方法获得的质量。实施例的主要益处在于:提供了甚至对于丢失帧的重构信号的平滑且可靠的演变。与使用现有技术相比大大地减小了帧丢失的听得见的影响。

附图说明

为了更全面理解本发明的示例实施例,现在结合附图做出对于以下描述的参考,其中:

图1示出了矩形窗函数。

图2示出了Hamming窗与矩形窗的组合。

图3示出了窗函数的幅度谱的示例。

图4示出了具有频率fk的示例性正弦信号的线性谱;

图5示出了具有频率fk的加窗的正弦信号谱;

图6示出了基于分析帧的、与DFT的网格点的幅度相对应的条形图;

图7示出了与DFT网格点P1、P2和P3拟合的抛物线;

图8示出了窗谱的主瓣的拟合。

图9示出了通过DFT网格点P1和P2的主瓣逼近函数P的拟合。

图10是示出根据本发明实施例的用于控制针对接收音频信号的丢失帧的隐藏方法的一种示例方法的流程图。

图11是示出根据本发明实施例的用于控制针对接收音频信号的丢失帧的隐藏方法的另一种示例方法的流程图。

图12示出了本发明的另一个示例实施例。

图13示出了根据本发明的装置的示例。

图14示出了根据本发明的实施例的设备的另一个示例。

图15示出了根据本发明的实施例的设备的另一个示例。

具体实施方式

所描述的对于新的帧丢失隐藏技术的新的控制方案包括图10中所示的以下步骤。应该注意的是,可以在解码器的控制器中实现该方法。

1.在先前接收到的和重构的音频信号的属性中或在观察到的帧丢失的统计属性中检测根据所述方法的丢失帧的替换提供相对降低的质量的条件,101。

2.在步骤1中检测到这种条件的情况下,修改方法的要素,根据该修改后的方法要素,通过选择性地调整相位或谱幅度,利用Z(m)=Y(m)·ck来计算替代帧谱,102。

正弦分析

可以应用新控制技术的帧丢失隐藏技术的第一步骤包括对先前接收信号的一部分的正弦分析。该正弦分析的目的是找到该信号的主正弦波的频率,以下假设是信号由有限数量的单独正弦波组成,即该信号是以下类型的多正弦信号:

在该方程式中,K是假设组成信号的正弦波的数量。针对具有索引k=1...K的每个正弦波,ak是幅度,fk是频率,并且是相位。fs表示采样频率,并且n表示时间离散采样s(n)的时间索引。

找到尽可能准确的正弦波频率具有主要的重要性。虽然理想的正弦信号会具有线频率fk的线谱,但是找到它们的真值在原则上将需要无限的测量时间。因此,在实践中难以找到这些频率,因为只能基于短的测量时间段来估计它们,该测量时间段与用于本文描述的正弦分析的信号段相对应;下文中,该信号段被称为分析帧。另一个困难是,在实践中,信号可以是时变的,意味着上述方程式的参数随着时间而变化。因此,在一方面需要使用长的分析帧使测量更准确;另一方面需要短的测量时间段以便更好的处理可能的信号变化。好的折中是使用长度大约为例如20-40ms数量级的分析帧。

识别正弦频率fk的优选可能是做出对分析帧的频域分析。为此,例如借助DFT或DCT或类似的频域变换来将分析帧变换到频域。在使用分析帧的DFT的情况下,由以下方程式来给出谱:

在该方程式中,w(n)表示窗函数,通过该窗函数来对长度为L的分析帧进行提取和加权。典型的窗函数是例如如图1所示的针对n∈[0...L-1]等于1并且否则等于0的矩形窗。本文假设设置了之前接收的音频信号的时间索引,使得通过时间索引n=0...L-1引用分析帧。其它可以更适于谱分析的窗函数是例如Hamming窗、Hanning窗、Kaiser窗或Blackman窗。更有用的窗函数是Hamming窗与矩形窗的组合。如图2所示,该窗具有形状像长度为L1的Hamming窗左半边的上升沿和形状像长度为L1的Hamming窗的右半边的下降沿,并且在上升沿和下降沿之间窗口针对长度L-L1等于1。

加窗的分析帧|X(m)|的幅度谱的波峰构成对所要求的正弦频率fk的逼近。然而,该逼近的精度受到DFT的频率间隔的限制。针对具有块长度L的DFT,该精度限制于

实验显示,在本文描述的方法范围内,该精度级别太低。可以基于以下考虑的结果来获得提高的精度:

通过窗函数的谱与正弦模型信号S(Ω)的线谱的卷积来给出加窗的分析帧的谱,随后在DFT的网格点处采样:

通过使用正弦模型信号的谱表达式,该方程式可以写成:

因此,采样后的谱由以下方程式给出:

其中m=0...L-1。

基于该考虑,设想分析帧的幅度谱中观察到的波峰来自于具有K个正弦波的加窗的正弦信号,其中在临近波峰的位置找到真的正弦频率。

假设mk是观察到的第kth个波峰的DFT索引(网格点),则对应的频率是其可以被视为对真的正弦频率fk的逼近。真的正弦频率fk可以假设为位于区间中。

为了清楚起见,应当注意的是,窗函数的谱与正弦模型信号的线谱的卷积可以被理解为窗函数谱的频移版本的叠加,从而偏移频率是正弦波的频率。然后在DFT网格点处对该叠加进行采样。通过以下附图示出了这些步骤。图3显示了窗函数的幅度谱的示例。图4示出了具有单个频率的正弦波的正弦信号示例的幅度谱(线谱)。图5示出了加窗的正弦信号的幅度谱,该加窗的正弦信号在正弦波的频率处重复并叠加频移窗口波谱。图6中的条对应于加窗的正弦波的DFT的网格点的幅度,该加窗的正弦波通过计算分析帧的DFT来获得。应该注意的是,所有的波谱是周期的,具有对应于采样频率fs的归一化频率参数Ω,其中Ω=2π。

之前的讨论和图6的说明建议:仅可以通过增大查找的分辨率超过使用的频域变换的频率分辨率来找到对真的正弦频率的更好的逼近。

一种找到对正弦波的频率fk的更好的逼近的优选方式是应用抛物线内插。一种这样的方法是将抛物线穿过围绕波峰的DFT幅度谱的网格点,并且计算属于抛物线顶点的相应频率。对于抛物线的阶数(order)的一种合适的选择是2。更详细地,可以应用以下步骤:

1.识别加窗的分析帧的DFT的波峰。波峰查找将会传送波峰数量K和波峰的对应索引。波峰查找能够典型地在DFT幅度谱或对数DFT幅度谱上进行。

2.针对每个具有对应DFT索引mk的波峰k(其中k=1...K),将抛物线穿过三个点:{P1;P2;P3}={(mk-1,log(|X(mk-1)|);(mk,log(|X(mk)|);(mk+1,log(|X(mk+1)|)}。这导致抛物线的抛物线系数bk(0)、bk(1)、bk(2)由以下公式限定:

图7示出了该抛物线拟合。

3.针对K个抛物线中的每一个来计算对应于q的值的内插的频率索引该抛物线针对q的值具有其最大值。使用作为对正弦频率fk的逼近。

所述方法提供良好的结果,但可能由于抛物线不与窗函数的幅度谱|W(Ω)|的主瓣的形状逼近而具有一些限制。这样做的备选方案是如下所述使用主瓣逼近的增强的频率估计。该备选的主要想法是:拟合函数P(q),该函数P(q)通过环绕波峰的DFT幅度谱的网格点来逼近的主瓣;以及计算属于函数最大值的相应频率。函数P(q)可以等同于窗函数的频移幅度谱为了数值的简单,应当例如宁愿是允许直接计算函数最大值的多项式。可以应用以下过程。

1.识别加窗的分析帧的DFT的波峰。波峰查找将会传送波峰数量K和波峰的对应DFT索引。波峰查找能够典型地在DFT幅度谱或对数DFT幅度谱上进行。

2.对于给定的区间(q1,q2)导出逼近窗函数的幅度谱或对数幅度谱的函数P(q)。用图8示出了逼近窗谱主瓣的逼近函数的选择。

3.对每个具有对应DFT索引mk的波峰k(其中k=1...K),通过环绕加窗正弦信号的连续谱的期望真实波峰的两个DFT网格点来拟合频移函数因此,如果|X(mk-1)|大于|X(mk+1)|,则通过点{P1;P2}={(mk-1,log(|X(mk-1)|);(mk,log(|X(mk)|)}拟合否则通过点{P1;P2}={(mk,log(|X(mk)|);(mk+1,log(|X(mk+1)|)}拟合可以简单地将P(q)选为2或4阶的多项式。这将步骤2中的逼近呈现为简单的线性回归计算和直接的的计算。可以将该间隔(q1,q2)选为固定的并且对于所有波峰相同,例如(q1,q2)=(-1,1),或自适应的。在自适应方法中,可以选择区间使得函数在相关DFT网格点{P1;P2}的范围内拟合窗函数谱的主瓣。图9中可以看出该拟合过程。

4.对于针对期望加窗的正弦信号的连续谱具有其波峰的K个频移参数中的每一个偏移参数计算作为对正弦频率fk的逼近。

存在许多发送信号是谐波情况,意味着信号由频率为某一基频f0的整数倍的正弦波组成。当信号非常具有周期性时是这种情况,例如对于发声的语音或某一乐器的持续音。这意味着实施例的正弦模型的频率不是独立的,而是具有谐波关系并源自同一基频。将该谐波属性纳入考虑可以因此实质上对正弦分量频率的分析进行改进。

概述了一种增强可能方式如下:

1.检查信号是否是谐波。这可以例如通过在帧丢失之前评估信号的周期性来完成。一种直接方法是执行对信号的自相关分析。这种自相关函数对于某一时滞τ>0的最大值可以用作指示符。如果该最大值的值超过给定阈值,则可以认为信号是谐波。相应的时滞τ通过对应于与基频有关的信号的周期。

许多线性预测语音编码方法应用所谓的开环或闭环音高预测或使用自适应码本的CELP编码。如果信号是谐波,则通过这种编码方法导出的音高增益和相关联的音高迟滞参数也分别是针对时滞的有用指示符。

以下描述了用于获得f0的另一种方法。

2.对于整数范围1...Jmax内的每个谐波索引j,检查在谐波频率fj=j·f0邻近范围内的分析帧的(对数)DFT幅度谱中是否存在波峰。可以将fj的邻近范围定义为其中增量与DFT的频率分辨率相对应的fj周围的增量范围,即区间

一旦出现这种具有相应估计的正弦频率fk的波峰,则用fk=j·f0来取代fk。

对于上述两步过程,也可能做出关于信号是否是谐波的检查,并隐式且可能地按照迭代方式导出基频,而不必使用来自某一单独方法的指示符。以下给出了这种技术的一个示例:

对于一组备选值{f0,1...f0,P}中的每个f0,p,应用过程步骤2(尽管不取代fk),但是对在谐波频率(即f0,p的整数倍)邻近范围内存在多少个DFT波峰计数。识别基频f0,pmax,对于该基频f0,pmax获得了在谐波频率处或谐波频率周围的最大数量的波峰。如果波峰的最大数量超过给定阈值,则认为信号是谐波。在那种情况下,将.f0,pmax认为是基频,然后用基频f0,pmax执行步骤2而得到增强的正弦频率fk。然而,一种更优选的备选方式是,首先基于已经被发现与谐波频率一致的波峰频率fk来对基频f0进行优化。假设已经发现一组M个谐波(即某一基频的整数倍{n1 ... nM})与频率fk(m),m=1...M处的某组M个谱峰相一致,则可以计算下层(优化后的)基频f0,opt,以使谐波频率和谱峰频率之间的误差最小。如果将误差最小化为均方误差

可以从DFT波峰的频率或所估计的正弦频率fk获得备选频率的初始集合{f0,1 ... f0,P}。

提高所估计的正弦频率fk的精度的另一种可能方式是考虑它们的时间演化。为此,可以例如通过平均或预测来对来自多个分析帧的正弦频率的估计进行组合。在平均或预测之前,可以应用波峰追踪,其将所估计的谱峰与相应的同一下层正弦波联系起来。

应用正弦模型

为了执行本文描述的帧丢失隐藏操作而应用正弦模型可以描述为以下内容:

假设由于相应的编码信息不可用而导致解码器不能重构编码信号的给定段。还假设信号在该段之前的部分可用。假设y(n)(n=0...N-1)是不可用的段,必须针对该段生成替代帧z(n),并且y(n)(n<0)是可用的之前解码的信号。然后,在第一步骤中,使用窗函数w(n)来提取长度为L且起始索引为n-1的可用信号的原型帧,并且例如通过DFT将其变换至频域:

窗函数可以是在上文正弦分析中描述的窗函数中的一个。优选地,为了降低数字的复杂度,频域变换的帧应当与正弦分析期间使用的帧相同。

在下一步骤中应用正弦模型假设。据此,原型帧的DFT可以写为以下方程式:

下一步骤实现的是,所使用的窗函数的谱仅在接近零的频率范围中具有显著贡献。如图3所示,对于接近零的频率来说窗函数的幅度谱大,而对于其他频率(在从-π到π的归一化频率范围内,对应于采样频率的一半)来说窗函数的幅度谱小。因此,作为逼近,假设窗谱W(m)仅针对区间M=[-mmin,mmax]是非零的,其中mmin和mmax是小的正数。具体地,使用窗函数谱的逼近,使得针对每个k,上述表达式中的偏移窗谱的贡献是严格地非重叠的。因此在上述方程式中,针对每个频率索引,总是仅在最大值处存在来自一个被加数(即来自一个偏移的窗谱)的贡献。这意味着上述表达式缩减为以下近似表达:

针对非负m∈Mk并且针对每个k:

这里,Mk表示整数区间。

其中mmin,k和mmax,k满足上述解释的约束,使得区间并不重叠。对于mmin,k和mmax,k的合适的选择是将它们设置为小的整数值δ,例如δ=3。然而,如果与两个相邻正弦频率fk和fk+1相关的DFT索引小于2δ,则δ被设置为使得确保区间不重叠。函数floor(·)是小于或等于函数自变量的最接近于该函数自变量的整数。

根据实施例的下一个步骤是应用根据上述表达式的正弦模型并且随时间演变其K个正弦波。假设擦除的段的时间索引与原型帧的时间索引相比相差n-1个采样,这意味着正弦波的相位前进:

因此,演变的正弦模型的DFT谱由以下方程式给出:

再一次应用逼近,根据该逼近,偏移窗函数谱不重叠,给出:

针对非负m∈Mk并且针对每个k:

通过使用逼近,将原型帧Y-1(m)的DFT与演变的正弦模型Y0(m)的DFT进行比较,发现针对每个m∈Mk,幅度谱保持不变而相位偏移因此,每个正弦波附近的原型帧的频谱系数与正弦频率fk和丢失音频帧与原型帧n-1之间的时间差成比例地偏移。

因此,根据实施例可以通过以下表达式来计算替代帧:

针对非负m∈Mk并且针对每个k,

z(n)=IDFT{Z(m)},其中

具体实施例处理针对不属于任何区间Mk的DFT索引的相位随机化。如上所述,必须设置区间Mk(k=1...K),使得这些区间严格地不重叠,这是通过使用控制区间大小的某些参数δ来实现的。可能发生δ关于两个相邻正弦波的频率间隔较小。因此,在这种情况下,会发生存在两个区间之间的间隔。所以针对相应的DFT索引m,并不限定根据上述表达式的相移。根据该实施例的适合的选择是随机化针对这些索引的相位,产生Z(m)=Y(m)·ej2πrand(·),其中函数rand(·)返回某一随机数。

已经发现对区间Mk的大小进行优化对于重构信号的质量是有益的。具体地,如果信号是非常调性的(tonal)(即当具有清楚的和明显的谱峰时),该区间应当更大。例如当信号是具有清晰的周期性的谐波时是这种情况。在信号具有较宽的谱最大值的较少发声的谱结构的情况下,已经发现的是使用较小区间会导致更好的质量。该发现导致了根据信号的属性调整区间大小的进一步的改进。一种实现方式是使用调性或周期性检测器。如果该检测器识别信号为调性的,则将控制区间大小的δ参数设置为相对大的值。否则,将δ参数设置为相对较小的值。

基于上述内容,音频信号丢失隐藏方法包括以下步骤:

1.可选地使用增强的频率估计,分析可用的、之前合成的信号的段来获得正弦模型的构成正弦频率fk。

2.从可用的、之前合成的信号中提取原型帧y-1,并计算该帧的DFT。

3.响应于正弦频率fk以及响应于原型帧与替代帧之间的时间提前n-1来计算针对每个正弦波k的相移θk。可选地,在该步骤中,响应于音频信号的调性来调整区间M的大小。

4.针对每个正弦波k,选择性地针对与正弦频率fk周围相关的DFT索引使原型帧DFT的相位提前θk。

5.计算步骤4中获得的谱的逆DFT。

信号和帧丢失属性分析和检测

上述方法是基于以下假设:在短时间期间音频信号的属性不从先前接收的和重构的信号帧和丢失帧而显著改变。在那种情况下,保留先前重构的帧的幅度谱,并使在先前构建的信号中检测到的正弦主分量的相位演变是非常好的选择。然而,存在该假设错误的情况,例如具有突然能量改变或突然谱改变的瞬态。

根据本发明的瞬态检测器的第一实施例因此可以基于先前重构的信号内的能量变化。如图11所示的该方法计算某一分析帧113的左侧部分和右侧部分的能量。该分析帧可以与上述用于正弦分析的帧相同。分析帧的(左侧或右侧)部分可以分别是分析帧的第一半或最后一半,或者例如是分析帧的第一或相应的最后四分之一,110。通过对这些部分帧中的采样的平方加和来完成相应的能量计算。

这里y(n)表示分析帧,nleft和nright分别表示大小均为Npart的部分帧的相应开始索引。

现在使用左和右部分帧能量来检测信号的不连续性。这是通过计算以下比率实现的:

如果该比率Rl/r超过某一阈值(例如10),则可以检测到具有突然能量降低(结束)的不连续性,115。类似地,如果该比率Rl/r低于某一其他阈值(例如0,1)则可以检测到具有突然能量增加(起始)的不连续性,117。

在上述隐藏方法的上下文中,已经发现了在许多情况下以上定义的能量比是太过不敏感的指示符。具体地,在真实信号以及尤其是音乐中,存在其中一些频率的音调突然出现而另一些频率的其他音调突然停止的情况。用以上定义的能量比分析这种信号帧将在任意情况下导致对至少一个音调的错误检测,原因在于这种指示符对于不同的频率不敏感。

以下实施例中描述了这种问题的一种解决方案。现在在时频平面上完成瞬态检测。分析帧再次被分为左和右侧部分帧,110。尽管现在,这两个部分帧(在用例如Hamming窗合适地加窗之后,111)例如通过Npart-点DFT被变换到频域,112。

以及

其中m=0...Npart-1。

现在可以用索引m,针对每个DFT带(bin)来频率选择性地完成瞬态检测。使用左侧和右侧部分帧幅度谱的功率,针对每个DFT索引m,相应的能量比可以被计算113为:

试验显示,采用DFT带分辨率的频率选择性瞬态检测由于统计波动而导致(估计误差)相对不精确。已经发现当基于频带做出频带瞬态检测时,操作的质量显著增强。令lk=[mk-1+1,...,mk]指示覆盖从mk-1+1至mk的DFT带的第k个区间,k=1...K,则这些区间定义K个频带。现在频率组选择性瞬态检测可以基于左侧部分帧和右侧部分帧之间的相应频带能量的逐频带(band-wise)比。

应该注意的是,区间Ik=[mk-1+1,...,mk]与频带相对应,其中fs表示音频采样频率。

可以将最低的下频带边界m0设置为0,也可以设置为与较大频率相对应的DFT索引,以减小随着较低频率增长的估计误差。可以将最高上频带边界mK设置为但是优选地被选择为与其中瞬态仍具有显著可听效果的某一较低频率相对应。

这些频带大小或宽度的合适的选择是使它们成为相等的大小(例如若干100Hz的宽度)。另一种优选方式是使频带宽度遵循人类听觉临界频带的大小,即将它们与听觉系统的频率分辨率关联。这意味着对于高达1kHz的频率使频带宽度相等,并将它们指数增加至1kHz以上。指数增加意味着,例如当递增频带索引k时,使频率宽度加倍。

如在基于两个部分帧的能量比的瞬态检测器的第一实施例中所描述的,将与两个部分帧的频带能量或DFT带能量有关的任意比率与特定阈值进行比较。使用针对(频率选择性)结束检测115的相应上阈值和针对(频率选择性)起始检测117的相应下阈值。

适于帧丢失隐藏方法的适配的另一个音频信号相关指示符可以基于向解码器发送的编解码器参数。例如,编解码器可以是如ITU-T G.718的多模编解码器。这种编解码器可以对于不同的信号类型使用特定编解码器模式,并且在帧丢失之前不久的帧中的编解码器模式的改变可以被认为是瞬态的指示符。

用于帧丢失隐藏适配的另一个有用的指示符是与发声属性和所发送的信号有关的编解码器参数。发声与人类声道的周期性声门激励生成的高度周期性的语音相关。

另一个优选的指示符是信号内容被估计为是音乐还是语音。可以从通常作为编解码器的一部分的信号分类器中获得这种指示符。在编解码器执行这种分类并使相应的分类决定作为编码参数对于解码器可用,则该参数优选地用作被用于对帧丢失方法进行适配的信号内容指示符。

优选地用于帧丢失隐藏方法的适配的另一个指示符是帧丢失的突发性。帧丢失的突发性意味着连续发生了若干帧丢失,使得帧丢失隐藏方法很难对于它的操作使用有效的近期解码的信号部分。一种现有的指示符是接连观察到的帧丢失的数量nburst。该计数器在每个帧丢失时递增1,并在有效帧接收时重置为0。该指示符也在本发明的当前示例实施例的上下文中使用。

帧丢失隐藏方法的适配

在以上执行的步骤指示建议帧丢失隐藏操作的适配的条件的情况下,对替代帧谱的计算进行修改。

尽管替代帧谱的原始计算是根据表达式Z(m)=Y(m)·ek完成的,现在引入修改幅度和相位二者的适配。通过用两个因子α(m)和β(m)缩放来修改幅度,并且用附加相位分量来修改相位。这导致替代帧的以下修改后的计算。

应该注意的是,如果α(m)=1,β(m)=1且则使用原始(非适配的)帧丢失隐藏方法。因此这些相应值是缺省的。

引入幅度适配的一般目的是避免帧丢失隐藏方法的听得见的人为损伤。这种人为损伤可以是音乐的或音调的声音或从瞬态声音的重复中出现的奇怪声音。这种人为损伤将进而导致质量降级,避免质量降级是所述适配的目的。这种适配的一种合适的方式是将替代帧的幅度谱修改至合适的程度。

图12示出了隐藏方法修改的实施例。如果突发丢失计数器nburst超过某一阈值thrburst(例如thrburst=3)121,则优选地做出幅度适配123。在那种情况下,针对衰减因子使用小于1的值,例如α(m)=0.1。

然而已经发现以逐渐增加的程度执行衰减是有利的。实现这一点的一个优选实施例是定义用于指定每帧衰减中的对数增加的对数参数att_per_frame。然后,在突发计数器超过阈值的情况下,则利用下式来计算逐渐增加的衰减因子:

这里,常数c仅是允许例如以分贝(dB)来指示参数att_per_frame的缩放常数。

响应于信号被估计为是音乐还是语音的指示符来完成附加的优选适配。与语音内容相比,对于音乐内容优选增加阈值thrburst和降低每帧的衰减。这等同于以较低程度来执行对帧丢失隐藏方法的适配。这类适配的背景是:与语音相比,音乐通常对于较长的丢失突发较不敏感。因此,对于这种情况,至少对于较大数量的接连的帧丢失的情况,原始(即未修改的)帧丢失隐藏方法仍是优选的。

一旦已经基于指示符Rl/r,band(k)或可选地,Rl/r(m)或Rl/r已超过阈值而检测到了瞬态,则优选地完成关于幅度衰减因子的隐藏方法的另一适配,122。在那种情况下,合适的适配动作125是修改第二幅度衰减因子β(m),使得总衰减由两个因子的乘积α(m)·β(m)控制。

响应于所指示的瞬态来设置β(m)。在检测到结束的情况下,优选地选择因子β(m)来反映该结束的能量降低。合适的选择是将β(m)设置为检测到的增益改变:

对于m∈Ik,k=1…K。

在检测到了起始的情况下,发现限制替代帧中的能量增加是相当有利的。在那种情况下,可以将因子设置为某一固定值(例如1),意味着没有衰减也没有任何放大。

以上应当注意的是,优选频率选择性地(即利用针对每个频带的单独计算的因子)应用幅度衰减因子。在不使用频带方式的情况下,仍然可以用模拟的方式来获得相应的幅度衰减因子。在DFT带层级上使用频率选择性瞬态检测的情况下,可以针对每个DFT带单独设置β(m)。或者,在根本没有使用频率选择性瞬态指示的情况下,β(m)可以对于所有m全部相同。

结合通过附加相位分量修改相位完成了幅度衰减因子的另一优选适配127。在对于给定的m使用这种相位修改的情况下,进一步减小衰减因子β(m)。优选地,甚至考虑相位修改的程度。如果相位修改仅是中等程度的,则β(m)仅轻微地按比例缩小,而如果相位修改是大幅的,则β(m)较大程度地按比例缩小。

引入相位适配的一般目的是避免在所生成的替代帧中过强的调性或信号周期性,这将进而导致质量降级。这种适配的合适的方式是将相位随机化或抖动至合适的程度。

如果将附加相位分量设置为随机值以某一控制因子缩放则实现了这种相位抖动。

例如通过某一伪随机数发生器来生成通过函数rand(·)获得的随机值。这里假设它在区间[0,2π]内提供随机数。

以上等式中的缩放因子a(m)控制原始相位θk抖动的程度。以下实施例通过控制该缩放因子解决相位适配。用模拟的方式来实现对缩放因子的控制,作为上述对幅度修改因子的控制。

根据第一实施例,响应于突发丢失计数器适配缩放因子a(m)。如果突发丢失计数器nburst超过某一阈值thrburst,(例如thrburst=3),则使用大于0的值(例如a(m)=0.2)。

然而已经发现用逐渐增加的程度来执行抖动是有利的。实现了这一点的一个优选实施例是定义指示每帧抖动增加的参数dith_increase_per_frame。然后,在突发计数器超出阈值的情况下,利用下式来计算逐渐增加的抖动控制因子:

a(m)=dith_increase_per_frame·(nburst-thrburst)。

应该注意的是,在以上方程式中,必须将a(m)限制为实现了全相位抖动的最大值1。

应该注意的是,用于发起相位抖动的突发丢失阈值thrburst可以是与用于幅度衰减的相同的阈值。然而,通过将这些阈值设置为单独的最佳值可以获得更好的质量,这通常意味着这些值可以不同。

响应于信号被估计为是音乐还是语音的指示符来完成附加的优选适配。与语音内容相比,对于音乐内容优选增加阈值thrburst,意味着与语音相比,仅在接连更多丢失帧的情况下完成针对音乐的相位抖动。这等同于对于音乐用较低程度来执行对帧丢失隐藏方法的适配。这类适配的背景是:音乐通常与语音相比对于较长的丢失突发较不敏感。因此,对于这种情况,至少对于接连大量帧丢失的情况,原始的(即未修改的)帧丢失隐藏方法仍是优选的。

另一个优选的实施例是响应于检测到的瞬态对相位抖动进行适配。在那种情况下,可以针对DFT带m使用较强程度的相位抖动,其中对于该带、相应频带的DFT带、或整个频带的DFT带指示了瞬态。

所描述的方案的部分解决了用于谐波信号以及特别用于发声语音的帧丢失隐藏方法的优化。

在没有实现如上述使用增强的频率估计的方法的情况下,对发声的语音信号的质量进行优化的帧丢失隐藏方法的另一种适配可能是切换至特别针对语音而不是包含音乐和语音的通用音频信号进行设计和优化的另一种帧丢失隐藏方法。在那种情况下,信号包括发声的语音信号的指示符被用于选择另一种语音优化的帧丢失隐藏方案而不是上述方案。

如图13所示,实施例应用于解码器中的控制器。图13是根据实施例的解码器的示意框图。解码器130包括被配置为接收编码音频信号的输入单元132。根据上述实施例,附图示出了通过逻辑帧丢失隐藏单元134的帧丢失隐藏,其指示解码器被配置为实现丢失音频帧的隐藏。此外,解码器包括用于实现上述实施例的控制器136。控制器136被配置为:在先前接收的和重构的音频信号的属性中或在所观察到的帧丢失的统计属性中检测根据所描述的方法的丢失帧的替代提供相对降低的质量的条件。一旦检测到这种条件,控制器136被配置为:通过选择性地调整相位或谱幅度来修改所述隐藏方法的要素,对于所述隐藏方法的要素,替代帧谱是通过Z(m)=Y(m)·ek计算的。如图14所述,可以利用检测器单元146执行检测,并且可以利用修改器单元148执行修改。

可以用硬件来实现具有它的包括单元的解码器。存在能够使用并且组合以实现解码器单元的功能的电路元件的大量变体。这样的变体由实施例所涵盖。解码器的硬件实现的具体示例是以数字信号处理器(DSP)硬件和集成电路技术来实现,其中包括通用电路和专用电路。

本文所述的解码器150可以因此用例如图15中所示即利用具有合适的存储器或存储单元156的一个或更多个处理器154和等同的软件155来替代地实现,以重构音频信号,其包括如图13所示根据本文所描述的实施例来执行音频帧丢失隐藏。利用输入(IN)152接收输入的编码音频信号,处理器154和存储器156与输入(IN)152连接。从输出(OUT)158输出从软件获得的编码后的和重构的音频信号。

上述技术可以用在例如移动设备的接收机中,例如移动电话或膝上型计算机,或者用在固定设备的接收机中,例如个人电脑。

应当理解的是,交互单元或模块的选择以及单元的命名只是为了示例的目的,并且能够以多种被选方式来配置,以便能够执行公开的处理活动。

还应当注意的是,本公开中描述的单元或模块被称作逻辑实体,并且并不必须是分离的物理实体。将会认识到的是,本文公开的技术范围完全涵盖其它实施例,这对于本领域技术人员是显而易见的,并且因此本公开的范围不应当被限制。

除非明确说明,单数的单元的指示不旨在意味着“一个和仅一个”,而是“一个或更多个”。通过参考明确地在本文中并入并旨在由此包含对于那些本领域技术人员已知的上述实施例的单元等同的所有结构和功能模块。此外,设备或方法不必须阐述寻求利用本文公开的技术来解决的每个问题,因为已经本文已经涵盖了所述每个问题。

在前述说明书中,为了解释而非限制,阐述了诸如结构、接口、技术等的具体详细内容,以提供对于所公开的技术的透彻理解。然而,本领域技术人员将理解的是,可以用不离开这些特定详细内容的其他实施例和/或实施例的组合来实现公开的技术。也就是说,本领域技术人员能够多样化出尽管本文没有明确描述或示出的体现所公开的技术的原理的各种结构。

在一些示例中,省略了已知设备、电路和方法的详细描述,以不用不必要的细节来模糊所公开的技术的说明。公开技术的引用原理、方案和实施例的所有陈述,以及其具体实施例旨在涵盖其结构和功能的等价形式。附加地,撇开结构,这种等价形式旨在包括当前已知的等价形式,以及未来开发的等价形式,例如执行同一功能的所开发的任意单元。

因此,例如本领域技术人员将理解本文的附图可以代表体现技术的原理的说明性电路或其他功能单元的概念性视图,和/或可以大体上在计算机可读介质中表示和利用计算机或处理器执行的各种过程,即便不能在附图中明确示出这种计算机或处理器。

可以通过诸如电路硬件和/或能够执行在计算机可读介质上存储的编码指令形式的软件的硬件的使用来提供包括功能模块的各种单元的功能。因此,这种功能和所示的功能模块被理解为或者是硬件实现的和/或计算机实现的,并且因此是机器实现的。

上述实施例被理解为本发明的几个说明性示例。本领域技术人员将理解可以不偏离本发明的范围对实施例做出各种修改、组合和改变。具体地,在技术可行的情况下,可以在其他配置中对不同实施例中的部分解决方案进行组合。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1