音频编码器内正弦参数的跟踪的制作方法

文档序号:2819667阅读:371来源:国知局
专利名称:音频编码器内正弦参数的跟踪的制作方法
技术领域
本发明涉及编码和解码音频信号。
背景技术
在于2001年4月18日提交的PCT专利申请WO 00/79519A1(代理人案卷号N 017502)和欧洲专利申请EP 01201404.9(代理人案卷号PHNL 010252)中描述了一种参数编码方案,尤其是一种正弦编码器。在这个编码器中,通过使用利用幅度、频率和相位参数表示的多个正弦波的正弦编码器来模拟一个音频分段(segment)或帧。一旦估计出用于一个分段的正弦波,就初始化跟踪算法。这个算法试图逐个分段地相互链接正弦波。因而,链接连续分段之中的适当正弦波的正弦参数以获得所谓的轨迹。链接的标准基于两个后续分段的频率,而且也能够使用幅度和/或相位信息。在确定将要链接的正弦波的价值函数内组合此信息。因而,跟踪算法产生在特定时刻上开始、在多个时间分段上延续一定的时间量并然后结束的正弦轨迹。
这些轨迹的结构允许有效编码。例如,对于正弦轨迹来说,只须发送初始相位。根据这个初始相位重新检索所述轨迹中其它正弦波的相位和其它正弦波的频率。正弦波的幅度和频率也可以相对于以前的正弦波差分编码。而且,可以删除非常短的轨迹。因此,由于跟踪,能够显著地降低正弦波编码器的比特率。
因此,跟踪对于编码效率来说非常重要。然而,获得正确的轨迹非常重要。如果错误地链接正弦波,这能够不必要地增加比特率,或者降低重建质量。
然而,众所周知,10-20毫秒级的长度的分段内的正弦频率可能是不固定的,使正弦波模型不适当。例如,采用在音调上不断增加的谐波信号。如果使用单个正弦波来估计一个分段内基频的平均频率,则在从抽样信号中减去这个正弦波时,将留下一个剩余谐波频率,正弦编码器将试图使其与一个高频谐波适配(fit)。这些“叠影(ghost)”谐波随后可以在跟踪算法内匹配,并包括在最终的编码信号内,当解码时,所述信号将包括一些失真,并要求比编码该信号所需要的比特率更高的比特率。
在PCT申请WO 00/74039和IEEE语音编码工作组(IEEE Workshopon Speech Coding)于1999年6月20-23日在芬兰Porvoo公布的R.J.Sluijter和A.J.E.Janssen“A time warper for speechsignals”中,公开了一种增强音频分段稳定性的时间翘曲器(timewarper)。
Sluijiter等人公开了一种获取一个分段的翘曲(warp)参数α的方法。通过使用下述形式的翘曲函数来翘曲所述分段τ(t)=aTt2+(1-a)t,0≤t≤T]]>等式1其中T表示以秒为单位的分段持续时间,t表示实际时间和τ表示所翘曲的时间,时间翘曲器在不改变该分段持续时间的情况下消除了随着时间线性变化的频率变化部分。
通过使用Sluijter等人推荐的时间翘曲器,能够减轻频率不稳定的问题,并因此正弦编码器能够更加可靠地估计翘曲分段内的频率。Sluijter等人还公开了在比特流中传输翘曲因子,以便可以在解码器内合成所翘曲的正弦波时使用所述翘曲因子。
将Sluijter等人提供的改进作为一个例子,在基频快速改变的地方使用谐波信号。图4图示当完全不使用翘曲时的跟踪结果。直线表示轨迹的连续性,圆圈表示轨迹的起点或终点,星号表示单个点。如从此图中可以看出的,较高的频率(2000-6000Hz)存在大部分的丢失或错误。因此,轨迹不正确。分析间隔的长度是32.7毫秒,更新间隔是8毫秒。(通常在合成编码信号时使用分段重叠,并因此如果使用50%重叠,存在16毫秒的分段长度)。因为频率在这样一个长的分析时间间隔内是不稳定的,所以正弦编码器不能很好地估计较高的频率。
通过对根据Sluijter进行时间翘曲的分段执行估计,正确地估计出所有的频率,如图5所示。然而,该图也图示出在某些时刻,轨迹不正确。
这是因为一旦已经为一个分段估计出一组频率,则跟踪算法试图链接这些频率与下一分段的频率组,而不考虑连续分段内正弦分量的频率变化。所以如图6(a)所示,为其中已经确定翘曲因子a1的分段k估计频率fk(在图6(a)和图6(b)中,将翘曲因子a1和a2图示为频率的倾角,然而,实际上频率的导数(斜率)等于a/T)。同时,为其中已经确定翘曲因子a2的分段k+1估计频率fk+1(1)和fk+1(2)。如果在从一个分段到下一个分段链接正弦波时不考虑频率变化,则在这个例子中,fk更可能被链接到fk+1(1),而不是fk+1(2),因为频率差值δ1小于δ2。
本发明试图解决这一问题。

发明内容
根据本发明,提供一种编码音频信号的方法,该方法包括权利要求1的步骤。
本发明的第一实施例提供一种在正弦编码器的跟踪算法内使用时间翘曲器的方法。通过使用翘曲因子,获得更精确的轨迹。结果,能够更有效地编码正弦波。此外,通过改善的相位连续性能够获得更好的音频质量。
在第一实施例中,使用Sluijter等人公开的确定翘曲因子的方法。优选地,在跟踪算法中使用等式1的翘曲因子。因为翘曲因子表示随着时间线性发展的频率变化,因此可以使用它来表示频率方向。因此,此因子能够改善跟踪算法。
在本发明的第二实施例中,基于生成与轨迹的多个最后频率参数相适配的多项式和外插该多项式以生成该轨迹的频率参数的下一值的估计值,链接这些正弦分量。根据估计值和正弦分量的频率参数之间的频率差值来确定是否链接该轨迹中后续分段的正弦分量。
与基于翘曲因子的第一实施例相比,第二多项式适配实施例的优点是它并不进行信号模型的任何假设,即它并不预先假设所有的轨迹或者至少连续的轨迹组以相同的方式变化。所以,如果音频信号包含两个主要的音频分量,一个在频率上降低,而另一个在频率上升高,这两个都可以被成功地跟踪,而在第一实施例中,这将是不太可能的。
通过获得更准确的轨迹,提高了编码效率,并实现了更好的相位连续性。


图1图示根据本发明的音频编码器的一个实施例;
图2图示根据本发明的音频播放器的一个实施例;图3图示根据本发明的包含音频编码器和音频播放器的一个系统;图4图示当完全不使用翘曲时由音频编码器确定的轨迹;图5图示当在频率估计中而不是在跟踪中使用翘曲时由音频编码器确定的轨迹;图6(a)和图6(b)分别图示利用现有技术的音频编码器和根据本发明第一实施例的音频编码器确定的频率和翘曲;图7图示当在频率估计和跟踪中都使用翘曲因子时利用根据本发明第一实施例的音频编码器确定的轨迹;图8图示对于现有技术的音频编码器和根据本发明第一实施例的音频编码器从8.6秒的真实语音信号中获得频率差值(dF)的分布;和图9(a)和图9(c)图示根据本发明第二实施例形成的轨迹。
具体实施例方式
在本发明的优选实施例中,图1,编码器是在PCT专利申请WO01/69593A1(代理人案卷号PHNL000120)中所描述类型的正弦编码器。这个编码器及其相应解码器的操作已经被完整地描述,并在此将仅提供与本发明有关的描述。
在早先的情况和优选实施例中,音频编码器1在某个抽样频率上抽样输入音频信号,得到音频信号的数字表示x(t)。然后,编码器1将所抽样的输入信号分成三个分量瞬变(transient)信号分量、持续确定分量和持续随机分量。音频编码器1包括瞬变编码器11、正弦编码器13和噪声编码器14。音频编码器可选择地包括增益压缩结构(GC)12。
瞬变编码器11包括瞬变检测器(TD)110、瞬变分析器(TA)111和瞬变合成器(TS)112。首先,信号x(t)进入瞬变检测器110。这个检测器110估计是否存在瞬变信号分量及其位置。将这个信息馈送给瞬变分析器11。如果瞬变信号分量的位置已经确定,则瞬变分析器111试图提取瞬变信号分量的(主要部分)。通过使用例如若干(少量)正弦分量,它匹配一个形状函数与最好在所估计的起始位置上开始的信号分段,并确定在此形状函数下的内容。此信息包含在瞬变代码CT内,并且在WO 01/69593A1中提供了有关生成瞬变代码CT更详细的信息。
将瞬变代码CT提供给瞬变合成器112。在减法器16中从输入信号x(t)中减去合成的瞬变信号分量,产生信号x1。在这种情况下,省略了GC 12,x1=x2。
将信号x2提供给正弦编码器13,在正弦分析器(SA)130中予以分析,正弦分析器确定(确定性的)正弦分量。因此,可以看出虽然希望存在瞬变分析器,但这并不是必需的,并且本发明可以在没有这一分析器的情况下实现。在任一情况下,正弦编码的最终结果是正弦代码CS,并且在PCT专利申请WO00/79519A1(代理人案卷号N017502)中提供了说明常规生成示例性正弦代码CS的更详细的例子。
然而,简而言之,这样的正弦编码器在正弦分量的轨迹从一个帧分段链接到下一个帧分段时编码输入信号x2。初始地,利用在给定分段-初生(birth)分段中开始的正弦波的起始频率、起始幅度和起始相位来表示所述轨迹。然后,在后续分段中,用频率差值、幅度差值或者还可能利用相位差值(连续性)来表示所述轨迹,直到该轨迹结束(消失)的分段。实际上,可以确定在编码相位差值时几乎不存在增益。因而,完全不需要为了连续性来编码相位信息,而使用连续的相位重建可以再生相位信息。
在本发明的第一和第二实施例中,当链接从一个分段到下一个分段的正弦波时,考虑从一个分段到下一个分段的轨迹的翘曲程度。在本发明的第一实施例中,为了在轨迹生成中包括一个时间翘曲因子,必需修改由正弦编码器的跟踪算法部分使用的频率。如果不使用翘曲,则为帧k和帧k+1中的每个频率评估下述等式Df=|e(fk+1)-e(fk)| 等式(2)其中e(.)表示任意的映射函数,例如e(.)是以ERB为单位的频率,f表示帧内的频率。所以在图6(a)的例子中,在跟踪算法价值函数内包括δ1和δ2以确定将fk+1(1)还是fk+1(2)链接到fk,根据所链接的频率发送频率差值δ1或δ2之一。(还知道在价值函数内包括幅度和相位的相关信息-但是对于第一实施例来说这是不相关的)。
在第一实施例中,在正弦编码器跟踪算法内如下所述使用翘曲因子。如下式将帧k和k+1的频率转换成频率 和 f~k,1=fk(1+akTL2),]]>f~k+1,2=fk+1(1-ak+1TL2)]]>等式(3)其中ai是帧i的翘曲因子,T是确定a的分段大小(例如32.7毫秒),L是频率的更新间隔(例如8毫秒)。如根据下面的第二实施例可以看出的,本发明并不限制于上述等式或Sluijter等人公开的确定翘曲因子的具体方法。也不需要更新间隔的均匀分割,所以,不是L/2,而可以使用L1来确定 使用L2来确定 其中L1+L2=L。
因此,频率 和 考虑了时间翘曲因子。现在,当确定一个分段与下一个分段之间的频率差值时,跟踪算法使用如下的修改后的等式2Df=|e(f~k+1,2)-e(f~k,1)|]]>等式4当将价值函数应用于间隔k,k+1时,这将例如生成频率差值δ3和δ4,图6(b),从而使跟踪算法更可能链接fk和fk+1(2)而不是fk+1(1)。跟踪算法的其余部分可以保持不变。
通过在图4和图5的例子上使用包括时间翘曲因子的跟踪算法,获得如图7所示的轨迹,可以看出在这种情况下,没有不正确的链接。
在第一实施例中,还使用翘曲因子来节省用于发送分段之间修改的频率差值的比特率。等式2表示通过发送差值Df(和一个符号比特),可以根据频率fk获得频率fk+1。然而,在第一实施例中,与翘曲因子和符号比特一起发送根据等式4的频率差值。
图8图示根据持续时间为8.6秒的真实语音信号获得的Df的分布。虚线是等式2的Df的分布,而实线代表等式4的Df的分布,这包括翘曲因子。如从图中可以看出的,当使用翘曲因子时,分布峰值更高。这是因为(如图6(b)和图6(a)对照图示的)使用等式4的频率差值通常在链接轨迹内生成更小的频率差值。
通过使用熵编码来编码这个更多定义的频率差值分布曲线(profile)内的频率差值,结果信号将因此需要较少的比特或者具有更高的质量。这是因为对于给定的编码量化方案而言,应当具有在最频繁使用并因而最压缩的符号内出现的更多的符号,或者可选择地,更集中的量化方案对于相同比特率应当生成更好的鉴别力。
在本发明的第二实施例中,在逐个轨迹的基础上考虑从一个分段到下一个分段的轨迹的翘曲程度。现在参见图9(a)至图9(c),其中图示了在多个时间分段上信号的正弦分量的频率参数fk-1(a)、fk-1(2)、fk(1)、fk(2)、等等。考虑时间k-1和k的两个分段,轨迹的形成通常基于在这些分段的接口(或重叠)上发现的两组正弦分量的参数之间的类似性。
另一方面,第二实施例使用轨迹的正弦分量的频率并且最好使用其幅度和相位的可能沿着多个分段延伸的演变、直到并包括时间分段k-1来预测对于时间分段k可能存在的正弦分量的频率、并且最好预测幅度和相位参数,如果轨迹继续的话。
通过使形式最好为a+bx+cx2+dx3+...的多项式适配沿着此轨迹直到时间分段k-1的参数组,获得可能连续性的频率、幅度和相位的预测。在轨迹1的情况下,轨迹1在分段k-1中包括频率为fk-1(1)的分量,将通过此点的多项式称作P1k-1,并对于轨迹2也类似。相应的多项式(未图示)可以适配这些分量的幅度和相位参数。通过计算在时间分段k上这些多项式的值获得可能的随后分量的频率、可应用的幅度和相位参数的估计值。在轨迹1的情况下,将频率估计值称作E1k-1,并且对于轨迹2也类似。
然后,轨迹的形成基于该组预测/估计参数和在时间分段k上实际提取的分量参数之间的类似性-在这种情况下,频率参数是fk(1)和fk(2)。如果这些频率参数落入频率估计值的容限T,则相关分量变成一个候选值,用于链接到获取其估计值的轨迹。
所以在图9(a)的例子中,预先假设轨迹1和2的幅度和/或相位估计值也匹配分量fk(1)和fk(2)的幅度和相位参数,将这些分量相应地链接到轨迹1和轨迹2。
现在参见图9(b),其中多项式P1k和P2k适配用于直到并包括k-1和k的分段的频率参数,以提供一组估计值E1k和E2k。在这种情况下,跟踪算法现在扩展用于估计前一分段的估计值E1k-1和E2k-1的轨迹1和轨迹2的多项式P1k-1和P2k-1的阶(order);或者,如果对于以前的估计达到用于一个轨迹的多项式的最大阶,则将用于该轨迹的估计所依据的分段向前移动一个分段。
在第二实施例的优选形式中,将最大为4阶用于适配频率参数的多项式,将最大为3阶用于适配幅度参数的多项式,将最大为2阶用于适配相位参数的多项式。
现在参见图9(c),其中对于分段k+1,存在具有频率参数fk+1(新)的新分量。在第一翘曲因子实施例中,预先假设所有的轨迹或者至少连续的轨迹组在一个分段内以相同的方式演变。因而,例如当一个轨迹在一个分段内开始时,假设它将被翘曲到与其附近的轨迹相同的程度。在图9(c)的例子中,因此,新的分量可能未发现在后续分段k+2内的链接,并且因为随后将会把仅包括这个单个分量的新轨迹视为一条太短的轨迹,所以在生成最后的比特流时将简单地予以忽略。
然而,在第二实施例中,可能允许不同的轨迹仅仅根据跟定轨迹的在先历史相对于其它的轨迹自由地变化-只要它是可以利用的。这可能被视为将导致潜在的问题,其中新的轨迹可能起始于相邻的不断变化的轨迹附近的频率参数。因而,在该例子中,fk+1(新)可能被链接到fk+2(1),而不是更可能地,候选fk+1(1)链接到fk+2(1)。
然而,在新分量fk+1(新)的情况下,在第二实施例中,跟踪算法也可以考虑幅度和/或相位预测。这可能有助于确保执行正确的链接,因为,例如fk+2(1)更可能与fk+1(1)而不是与fk+1(新)同相。
将看出如果在比特流内编码根据第二实施例生成的轨迹的后续频率分量之间的诸如δ5的频率差值,可能会丢失第一实施例的仅发送诸如δ4的频率差值的编码增益。
这具有的优点在于解码器则不知道在编码器内采用的多项式预测的形式,并因此将明白本发明并不限制于任何特定形式的多项式。
然而,在第二基于多项式的实施例中,也可能存在类似的编码增益。在此,编码器发送频率差值,例如δ6,和优选地在估计值(在这一种情况中为E1k+1)与来自分段k+2的链接的分量参数(在这一种情况中为fk+2(1))之间确定的幅度差值和/或相位差值。因此,在采用分段k+2的频率与幅度和/或相位差参数之前,解码器需要通过已经接收到的最多至时间分段(例如k+1)的轨迹的多项式适配来执行预测(与编码器内的操作相同)。在这种情况下,不需要发送额外的因子,例如翘曲因子,然而,解码器需要获知在编码器内使用的多项式的形式。
因此,将明白与使用第一实施例的可选翘曲因子相比,第二实施例的多项式支持从分段到分段的分量参数翘曲的更大的自由度。
然而,并不考虑使用哪个实施例,如在现有技术中,根据利用本发明的改进型正弦编码器所生成的正弦代码CS,通过正弦合成器(SS)131重建正弦信号分量。在减法器17中从正弦编码器13的输入x2中减去这个信号,得到没有(大)瞬变信号分量和(主要)确定性正弦分量的剩余信号x3。
假设剩余信号x3主要包括噪声,并且优选实施例的噪声分析器14生成表示这个噪声的噪声代码CN,例如在PCT专利申请WO01/89086A1(代理人案卷号PHNL000287)中所描述的。还可以明白使用这样一个分析器对于实施本发明并不是必需的,但是尽管如此也是一种使用上的补充。
最后,在复用器15中,构成音频流AS,包括代码CT、CS和CN。将音频流AS提供给例如数据总线、天线系统和存储介质等。
图2图示根据本发明的音频播放器3。从数据总线、天线系统和存储介质等获得诸如由根据图1的编码器生成的音频流AS’。在解复用器30中解复用该音频流AS以获得代码CT、CS和CN。分别将这些代码提供给瞬变合成器31、正弦合成器32和噪声合成器33。根据瞬变代码CT,在瞬变合成器31中计算瞬变信号分量。在瞬变代码代表形状函数的情况下,根据所接收的参数计算所述形状。此外,根据正弦分量的频率和幅度计算形状内容。如果瞬变代码CT表示一个步骤,则不计算瞬变。总的瞬变信号yT是所有的瞬变之和。
使用正弦代码CS来生成信号yS,将其描述为给定分段上的正弦波之和。在采用根据第一实施例的编码器的情况下,为了解码频率,必需在解码器一侧上获知每个分段的翘曲参数。在解码器内,根据始发正弦波的相位和中间正弦波的频率计算出正弦轨迹内正弦波的相位。当在解码器中不使用翘曲因子时,将帧k的相位φk计算为
φk=φk-1+2πL2(fk+fk-1),]]>等式5其中L是频率的更新间隔(单位为秒),fk和fk-1分别是帧k和k-1的频率(单位为赫兹)。通过包括翘曲因子,可以将相位计算为φk=φk-1+2π[L2(fk+fk-1)+(L2)2(ak-1Tfk-1-akTfk)]]]>等式6然而,可以明白其它的函数也可以提供相位的近似值,并且本发明并不限制于等式6。在任一情况下,使用这样一个函数意味着通过包括翘曲因子,连续的相位将更好地匹配原始相位。
当使用根据本发明第二实施例的编码器生成比特流时,则在比特流内编码诸如δ5的频率差值时,可以使用现有技术型的解码器来合成信号,因为它不需要获知已经使用改进的链接来生成正弦代码的轨迹。
如果使用诸如Sluijter等人公开的编码器翘曲来更好估计正弦参数,并在比特流内包括翘曲因子,则可以在合成该比特流的正弦分量时使用这个翘曲因子,以便更好地复制原始信号。
然而,如先前所述,如果根据第二实施例的编码器在比特流内包括诸如δ6的频率差值,则解码器将需要生成在跟踪算法内使用的多项式来确定用于轨迹的后续正弦分量的后续频率与相位和/或相位参数。
同时,将噪声代码CN馈送给噪声合成器NS 33,它主要是一个滤波器,具有近似于噪声频谱的频率响应。NS 33通过利用噪声代码CN滤除白噪声生成重建的噪声yN。
总信号y(t)包括瞬变信号yT与任一幅度解压缩的产物(g)之和、以及正弦信号yS和噪声信号yN之和。音频播放器包括两个加法器36和37,以便对相应信号相加。将总信号提供给输出单元35,这例如是扬声器。
图3图示根据本发明的音频系统,包括如图1所示的音频编码器1和如图2所示的音频播放器3。这样一个系统提供播放和记录特征。在通信信道2上将音频流AS从音频编码器提供给音频播放器,所述通信信道2可以是无线连接、数据20总线或者存储介质。在通信信道2是存储介质的情况下,存储介质可以固定在系统内,或者也可以是可拆除的盘、存储棒、等等。通信信道2可以是音频系统的一部分,然而,通常都在音频系统之外。
在第一实施例中,描述了每个分段仅使用一个翘曲因子。然而,将看出也可以每个帧使用多个翘曲因子。例如,对于每个频率或每组频率来说,可以确定一个独立的翘曲因子。然后,可以在上述等式中为每个频率使用适当的翘曲因子。
本发明可以在任一正弦音频编码器内使用。因此,本发明可应用于使用这些编码器的任何地方。
本发明还适用于频率轨迹组合的目的。例如,一些正弦编码器可以被安排用于在一组正弦分量中识别出一个或多个基频,每个基频具有一组谐波。将这些分量作为谐波组合(complex)发送,每个谐波组合包括基频的相关参数,例如与其相关谐波有关的频谱形状,可以获得编码优势。因此,可以明白当从一个分段到另一个分段链接这些组合时,可以将为每个分段确定的翘曲因子或者多项式适配应用于这些组合的分量,从而根据本发明确定应当如何链接这些分量。
权利要求
1.编码(1)音频信号(x)的一种方法,该方法包括以下步骤为多个顺序分段之中的每个分段提供相应组的抽样信号值;分析(130)这些抽样信号值,以生成用于多个顺序分段之中每个字段的一个或多个正弦分量(fk,fk+1);提供在多个顺序分段之中的每个分段的所述正弦分量的频率变化的指示符(ai,Plk);根据应用相应指示符(ai,Plk)的正弦分量的频率差值(δ4,δ6)在多个顺序分段上链接正弦分量;为多个顺序分段之中的每个分段生成包括链接正弦分量的轨迹的正弦代码(CS);和生成(15)包括所述正弦代码(CS)的编码音频流(AS)。
2.根据权利要求1的方法,其中所述指示符包括与所述音频信号的每个分段相关的至少一个翘曲因子(ai),和其中所述链接步骤包括将翘曲因子应用于相关的后续分段的正弦分量的频率参数,以确定所述频率差值。
3.根据权利要求1的方法,其中所述指示符是一个多项式(Plk),和其中所述链接步骤包括以下步骤对于一个分段的每个轨迹,生成所述多项式(Plk),以适配一个轨迹的多个最后的频率参数,并外插所述多项式以生成所述轨迹的频率参数的下一个值的估计值,而且根据所述估计值和所述正弦分量的频率参数之间的频率差值来链接该轨迹内后续分段的正弦分量。
4.根据权利要求3的方法,其中最后的频率参数的最大数量是5。
5.根据权利要求3的方法,其中所述链接步骤还包括以下步骤对于一个分段的每个轨迹,生成第二多项式,以适配一条轨迹的多个最后的幅度参数,并外插所述第二多项式以生成所述轨迹的幅度参数的下一个值的估计值,而且根据所述频率与幅度估计值和所述正弦分量的频率与幅度参数之间的频率与幅度差值来链接所述轨迹内后续分段的正弦分量。
6.根据权利要求6的方法,其中最后的幅度参数的最大数量是4。
7.根据权利要求3的方法,其中所述链接步骤还包括以下步骤对于一个分段的每个轨迹,生成第二多项式以适配一条轨迹的多个最后的相位参数,并外插所述第二多项式以生成所述轨迹的相位参数的下一个值的估计值,而且根据所述频率与相位估计值和所述正弦分量的频率与相位参数之间的频率与相位差值来链接所述轨迹内后续分段的正弦分量。
8.根据权利要求7的方法,其中最后的相位参数的最大数量是3。
9.根据权利要求1的方法,其中所述分析步骤包括采用翘曲因子来生成所述的一个或多个正弦分量(fk,fk+1)。
10.根据权利要求1的方法,其中每条轨迹包括在一个轨迹的起始分段中正弦分量的频率、幅度和相位以及在所述轨迹的后续连续分段内的每个正弦分量的频率与幅度差值。
11.根据权利要求10的方法,其中所述频率差值包括在应用相应指示符的链接正弦分量的分段边界上的频率差值(δ4,δ6)。
12.根据权利要求2的方法,其中所述正弦代码包括所述翘曲因子(ai)。
13.根据权利要求1的方法,其中所述方法包括以下步骤估计(110)音频信号内瞬变信号分量的位置;匹配(111,112)包括具有形状参数与位置参数的形状函数和所述瞬变信号;和在所述音频流(AS)内包括(15)描述所述形状函数的位置和形状参数。
14.根据权利要求1的方法,该方法还包括通过确定一个滤波器的滤波器参数来模拟(14)所述音频信号的噪声分量,所述滤波器的频率响应近似于噪声分量的目标频谱;和在所述音频流(AS)内包括(15)所述滤波器参数。
15.根据权利要求1的方法,其中所述提供步骤包括在第一抽样频率上抽样所述音频信号(x),以生成所述抽样信号值。
16.根据权利要求1的方法,其中所述链接步骤包括根据在分段边界上正弦分量的频率差值(δ4,δ6)来链接正弦分量。
17.解码音频流的一种方法,该方法包括以下步骤读取包括正弦代码(CS)的编码音频流(AS’),所述正弦代码包括用于多个顺序分段之中每个分段的链接正弦分量的轨迹;和采用(32)在所述多个顺序分段之中每个分段的所述正弦分量的频率变化的指示符(ai,Plk)和所述正弦代码来合成所述音频信号,包括根据已经应用相应指示符的正弦分量的频率差值(δ4,δ6)在多个顺序分段上重新构造正弦分量。
18.根据权利要求17的方法,其中根据已经应用所述指示符的链接正弦分量的频率差值(δ4,δ6)和频率 来确定一个分段内正弦分量的频率 例如起始频率。
19.根据权利要求17的方法,其中所述指示符包括用于每个分段的至少一个翘曲因子(ai)。
20.根据权利要求19的方法,其中根据已经应用翘曲因子的链接正弦分量的相位来确定一个分段内的正弦分量的相位。
21.根据权利要求20的方法,其中根据下述等式来重新构造在一个分段k内的所述正弦分量的相位(φk)φk=φk-1+2π[L2(fk+fk-1)+(L2)2(ak-1Tfk-1-akTfk)]]]>其中L是分段大小(单位为秒),fi是分段I内的正弦分量的频率(单位为赫兹),和T代表单位为秒的分段的持续时间。
22.根据权利要求17的方法,其中所述指示符是一个多项式(Plk),和其中所述采用步骤包括以下步骤通过生成所述多项式(Plk)以适配一条轨迹的多个最后的频率参数、外插所述多项式以生成所述轨迹的频率参数的下一个值的估计值以及根据所述估计值和所述正弦分量的频率参数之间的频率差值来确定该轨迹内后续分段的正弦分量,合成一个分段的每条轨迹。
23.一种音频编码器(1),用于处理音频信号(x)的多个顺序分段之中的每个分段的相应组的抽样信号值,所述编码器包括分析器(130),用于分析抽样信号值,以便为多个顺序分段之中的每个分段生成一个或多个正弦分量(fk,fk+1);用于确定多个顺序分段之中的每个分段内的所述正弦分量的频率变化的指示符(ai,Plk)的组件;链接器,用于根据应用相应指示符(ai,Plk)的正弦分量的频率差值(δ4,δ6)在多个顺序分段上链接正弦分量;用于为多个顺序分段之中的每个分段生成包括链接正弦分量的轨迹的正弦代码(CS)的组件;和比特流生成器,用于生成(15)包括所述正弦代码(CS)的编码音频流(AS)。
24.一种音频播放器(3),包括用于读取包括正弦代码(CS)的编码音频流(AS’)的装置,所述正弦代码包括用于多个顺序分段之中每个分段的链接正弦分量的轨迹;和合成器(32),用于采用多个顺序分段之中每个分段内的所述正弦分量的频率变化的指示符(ai,Plk)和所述正弦代码来合成所述音频信号,包括根据已经应用相应指示符的正弦分量的频率差值(δ4,δ6)在多个顺序分段上重新构造正弦分量。
25.一种音频系统,包括如权利要求23所述的音频编码器(1)和如权利要求24所述的音频播放器(2)。
26.一种音频流(AS),包括代表音频信号的至少一个分量的正弦代码(CS),所述代码包括链接正弦分量的轨迹,根据已经应用所述音频信号的多个顺序分段之中每个分段内的所述正弦分量的频率变化的相应指示符(ai,Plk)的所述正弦分量的频率变化(δ4,δ6)在所述多个顺序分段上链接所述正弦分量。
27.一种存储介质,在所述存储介质上存储如权利要求26所述的音频流(AS)。
全文摘要
提供音频信号(x)的编码,其中在正弦编码器(13)的跟踪算法中使用所述信号的正弦分量的频率变化的指示符(a
文档编号G10L19/00GK1575490SQ02821226
公开日2005年2月2日 申请日期2002年10月15日 优先权日2001年10月26日
发明者A·C·登布林克, A·J·格里特斯, E·G·P·舒杰斯, G·H·霍托, C·A·B·霍佩 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1