恢复声音信号的谐频的方法

文档序号:2828991阅读:303来源:国知局
专利名称:恢复声音信号的谐频的方法
技术领域
本发明涉及通信领域,具体涉及声音信号的数字处理和声音信号的谐波表示的领域。
背景技术
在数字音频信号的谐波建模(harmonic modeling)中,声音信号用一组振荡器表示,振荡器的参数(频率、幅度、相位)随着时间缓慢变化。谐波分析包括用于确定这些参数值的短期时间/频率分析,之后提取峰(peak),然后跟踪谐频(partial)。
要建模的信号被分成l个采样的帧(典型地l=1024)。短期时间/频率分析模块(典型地执行傅立叶变换)计算每帧的信号的短期频谱。用于提取峰的模块仅保留先验的最有关的峰,例如,一个准则是仅保留能量最高的峰。第三和最后模块尝试将峰在时间上彼此连接起来,即,从一帧到另一帧,以形成谐频。在其生存期内,每个谐频对应于一个振荡器。
这种类型的分析和表示尤其可以用在降比特率编码、参数编码(处理信号的三个方面瞬变、正弦曲线、噪声)、声音源的分离和索引(indexing)、以及声音文件的恢复期间。
目前公认的是,当利用Robert J.McAulay和Thomas F.Quatieri在论文″Speech Analysis/Synthesis Based on a Sinusoidal Representation″,IEEETransactions on Acoustics,Speech and Signal Processing,pp.744-754,1986,或者Laurent Girin,Sylvain Marchand,Joseph di Martino,Axel Rbel和GeoffroyPeeters在论文″Comparing the order of a Polynomial Phase Model for theSynthesis of Quasi-Harmonic Audio Signals″,WASPAA,New Paltz,NY,USA,October 2003中提出的相位内插技术来合成谐频时,获得最好的质量。这些技术用于通过使用三阶或五阶多项式计算所有的中间相位,来合成从峰(Ai,fi,i)到峰(Ai+1,fi+1,i+1)的谐频,其中频率由求导推出。仅当已知起始和结束频率以及相位时,才使用三阶内插。当还已知相位的二阶变分(second ordervariation)时,使用五阶内插(这些等效于频率的一阶变分,原因在于按照定义,频率是相位的导数)。
峰Pi(Ai,fi,i)与Pi+1(Ai+1,fi+1,i+1)之间谐频的合成包括计算帧i与i+1之间的谐频的值p(n)pi(n)=p(li+n)=Ai(n)cos(i(n)),n=0,...,l-1(1)为此,现有技术中已知使用下面两种内插法之一来计算所有的中间相位。
对于根据McAulay的三阶内插,根据下面的表达式计算相位,其中Te是采样周期i(n)=i+2πfinTe+α(nTe)2+β(nTe)3(2)通过求解(fi,i,fi+1,i+1)中的等式系统来计算两个未知数α和β。频率通过微分导出2πfi(n)=2πfi+2αnTe+3β(nTe)2(3)对于根据Girin等人的五阶内插,在峰Pi和Pi+1处频率的一阶变分δfi和δfi+1假定是已知的。然后根据下面的表达式计算相位 通过求解(fi,fi+1,i,i+1,δfi,δfi+1)中的等式系统来计算三个未知数β,δ,γ。频率通过微分导出2πfi(n)=2πfi+δfinTe+3β(nTe)2+4γ(nTe)3+5δ(nTe)4(5)由于各种原因,可能会出现在分析结束和/或在合成开始时信号中的特定谐频缺失、损坏或不连续的情况。例如,如果发生分组丢失,则在因特网声音程序广播应用中的解码器的输入处可能缺失特定谐频,如果要分析的信号受到不需要的信号(噪声、滴答(click)、其他信号等)的干扰,则它们可能损坏,或者如果它们的能量太低以至于不能被连续地正确检测,则它们可能是不连续的。为了创建尽可能接近原始信号的合成信号,于是有必要恢复缺失峰。这使得创建其每一个都以幅度、频率和相位来表征的峰成为必要。
上述现有技术的内插技术用于合成对应于缺失峰的部分以及恢复谐频。
然而,这些现有技术的内插技术适于在短期,即,在小于10毫秒(ms)的周期上使用。对于较长的周期,重新合成的信号常常与原始信号有很大不同,并且可能出现令人不快的赝音(artifact)。这些技术确保已有峰与恢复的峰之间的相位连续性,但是不能控制由等式(3)和(5)引起的感应频率。该效果与内插距离成正比增加。

发明内容
本发明的一个目的是提出一种对该问题的替代解决方案,尤其是在缺失部分对应于长的周期(大于10ms)的情况下恢复被识别为谐频的丢失部分的丢失部分,而现有技术对此情况效果相对较差。
因此,本发明要解决的技术问题是提出一种在谐波分析期间恢复声音信号的谐频的丢失部分的方法,在谐波分析中,声音信号被分成时间帧,对时间帧应用时间/频率分析,其提供由采样频率帧表示的连续短期频谱,该分析还在于提取频率帧中的频谱峰并将它们在时间上连接在一起以形成谐频,该方法是现有技术解决方案的替代。
根据本发明,所述技术问题的一个解决方案在于,所述恢复其频率ω和相位已知的峰Pi与峰Pi+N之间的谐频的方法特征在于它包括步骤·估计该谐频的缺失峰Pi+1到Pi+N-1中的每一个的频率 ·对于之前估计的所有频率 从峰Pi的相位到峰Pi+N的相位,逐个峰地计算相位 ·计算在同一峰Pi+N处的计算出的相位 与已知相位之间的相位误差err;·将每个计算出的相位 校正一个值,该值是相位误差err的函数。
本发明的方法与现有技术方法的不同之处在于,它提供对丢失峰的频率的更精细控制和随后对应相位的计算,以确保与已有峰的相位的连续性。因此,与上述现有技术方法相对比,本发明的方法没有赝音地重新合成对应于丢失谐频部分的信号。
本发明的方法还具有这样的优点,即,重构信号,该信号与现有技术方法获得的信号相比,在重构误差方面与原始信号更接近。
最后,本发明的方法具有使用低复杂度算法的优点。
本发明还在于一种合成声音信号的合成器,用于实现恢复峰Pi与峰Pi+N之间的谐频的方法,例如是适于使用本发明方法的音频解码器或参数编码器。
本发明还在于一种可直接加载到上述合成器或合成器组的内部存储器中的计算机程序产品,该产品包括软件代码部分,用于当在合成器或合成器组上执行程序时,执行根据本发明的方法的步骤。
本发明还在于一种可在上述合成器或合成器组中使用的介质,其上存储有可直接加载到合成器或合成器组的内部存储器中的计算机程序产品,该产品包括软件代码部分,用于当在合成器或合成器组上执行程序时,执行根据本发明的方法的步骤。


在下面参照附图给出的描述期间,本发明的其他特征和优点将变得清楚,其中描述是通过非限制性的示例方式提供的。
图1是本发明的一个示例的流程图。
图2是使用本发明方法的一个示例的图。
具体实施例方式
本发明的方法1以下面参照图1流程图描述的方式进行。该方法在于恢复其频率ω和相位已知的峰Pi和峰Pi+N之间的谐频。
在第一步骤2中,该方法例如通过现有技术中已知的线性预测法或内插法,估计缺失峰Pi+1到Pi+N-1的每一个的频率 和幅度A。
考虑包括一连串相连的峰Pi(Ai,ωi,i)的谐频,Pi(Ai,ωi,i)在时间iT处是已知的,并且由下列表征Ai,在时间iT处峰的幅度;ωi,在时间iT处峰的频率;和i,在时间iT处峰的相位模2π。
利用例如ωi与ωi+N之间的线性内插,或者例如论文″Enhanced PartialTracking using linear Prediction″,Mathieu Lagrange,Sylvain Marchand,MartinRaspaud and Jean-Bernard Rault,Proceedings of the Digital Audio Effects(DAFx)Conference,pp 141-146,Queen Mary College,University of London,UK,September 2003中所描述的线性过去或未来预测(past or future prediction),或者利用加权的过去或未来合并,来估计峰Pi与Pi+N之间的缺失峰的频率。
通过例如Ai与Ai+N之间的线性内插,线性过去或未来预测或者加权的过去或未来合并,来估计缺失峰的幅度A。
在第二步骤3中,该方法从峰Pi的相位到峰Pi+N的相位,逐个峰地计算相位 对之前估计的每个频率ω执行该计算。
令i和ωi为起始相位和频率,并且 为要重构的范围内的估计频率。为了扩展峰Pi与峰Pi+N之间的谐频,根据下面表达式计算相位 为了避免产生将会影响重新合成的质量的不连续,有必要得到在时间i+N处等于i+N的重构相位 在上述表达式(6)中的数据要么是近似的要么是预测的情况下,统计上是不可能得到该相等的。因此,该方法的后继步骤将在时间i+N处计算的相位误差err分到所有之前重构的缺失峰Pi+1到Pi+N-1之间。
在第三步骤4中,该方法计算在同一峰Pi+N处的计算出的相位 与已知相位i+N之间的相位误差err。该计算可以使用下面的等式系统如果 则 如果 则 否则 在第四步骤5中,该方法将每个计算出的相位 校正一个值,该值是相位误差err的函数。典型地根据下面表达式,将在时间i+N处计算出的相位误差均匀分到计算出的相位之间 该分布不必是均匀的,并且可以服从例如非线性法则。
图2使用的例子在于在声音信号的谐波分析时,例如在参数编码期间,利用本发明的方法1恢复谐频。声音信号s(n)用一组振荡器表示,振荡器的参数(频率、幅度)随着时间缓慢变化。按常规的方式,谐波分析包括用于确定这些参数的值的短期时间/频率分析6,之后提取峰7,然后跟踪谐频8。在通过本发明的方法1恢复谐频之前,检测谐频中的间隙9。然后将通过执行方法1重构的峰 作为由谐波分析产生的峰对待,并且可以通过例如现有技术的(三阶或五阶)相位内插法之一,进行与从这些重构的峰恢复的谐频对应的信号的加性合成10。
权利要求
1.一种在谐波分析期间恢复声音信号的谐频的方法(1),在谐波分析中,声音信号被分成时间帧,对时间帧应用时间/频率分析,其提供由采样频率帧表示的连续短期频谱,该分析还在于提取频率帧中的频谱峰并将它们在时间上连接在一起以形成谐频,所述恢复其频率和相位已知的峰Pi与峰Pi+N之间的谐频的方法特征在于,它包括步骤·估计(2)该谐频的缺失峰Pi+1到Pi+N-1中的每一个的频率 ·对于之前估计的所有频率 从峰Pi的相位到峰Pi+N的相位,逐个峰地计算(3)相位 ·计算(4)在同一峰Pi+N处的计算出的相位 与已知相位之间的相位误差err;·将每个计算出的相位 校正(5)一个值,该值是相位误差err的函数。
2.如权利要求1所述的用于恢复声音信号的谐频的方法(1),其中,相位 是根据下面的公式计算出的,其中i和ω^i=ωi]]>是峰Pi的相位和频率,并且i+N和ω^i+N=ωi+N]]>是峰Pi+N的相位和频率
3.如权利要求1或2所述的用于恢复声音信号的谐频的方法(1),其中,通过已知峰Pi与Pi+N的频率之间的线性内插,来估计缺失峰Pi+1到Pi+N-1的频率
4.如权利要求1或2所述的用于恢复声音信号的谐频的方法(1),其中,通过线性过去预测来估计缺失峰Pi+1到Pi+N-1的频率
5.如权利要求1或2所述的用于恢复声音信号的谐频的方法(1),其中,通过线性未来预测来估计缺失峰Pi+1到Pi+N-1的频率
6.如权利要求1或2所述的用于恢复声音信号的谐频的方法(1),其中,通过线性过去预测和线性未来预测的加权组合,来估计缺失峰Pi+1到Pi+N-1的频率
7.如前面任一权利要求所述的用于恢复声音信号的谐频的方法(1),还包括步骤通过已知峰Pi与Pi+N的幅度A之间的线性内插,估计谐频的缺失峰Pi+1到Pi+N-1中的每一个的幅度。
8.如权利要求1到6中任一个所述的用于恢复声音信号的谐频的方法(1),还包括步骤通过线性过去预测来估计谐频的缺失峰Pi+1到Pi+N-1中的每一个的幅度。
9.如权利要求1到6中任一个所述的用于恢复声音信号的谐频的方法(1),还包括步骤通过线性未来预测来估计谐频的缺失峰Pi+1到Pi+N-1中的每一个的幅度。
10.如权利要求1到6中任一个所述的用于恢复声音信号的谐频的方法(1),还包括步骤通过线性过去预测和线性未来预测,来估计谐频的缺失峰Pi+1到Pi+N-1中的每一个的幅度。
11.如前面任一权利要求所述的用于恢复声音信号的谐频的方法(1),其中,相位校正在于将在时间i+N处的计算出的相位误差err均匀分布到谐频的所有缺失峰Pi+1到Pi+N-1之间。
12.如权利要求11所述的用于恢复声音信号的谐频的方法(1),其中,相位校正是由等式确定的
13.如权利要求12所述的用于恢复声音信号的谐频的方法(1),其中,相位校正是使用等式系统确定的如果 则 如果 则 否则
14.一种用于实现如前面任一权利要求所述的方法的声音信号合成器,特征在于,它包括·用于估计该谐频的缺失峰Pi+1到Pi+N-1中的每一个的频率 的装置;·用于对于之前估计的所有频率 从峰Pi的相位到峰Pi+N的相位逐个峰地计算相位 的装置;·用于计算在同一峰Pi+N处的计算出的相 与已知相位之间的相位误差err的装置;·用于将每个计算出的相位 校正一个其是相位误差err的函数的值的装置。
15.一种可直接加载到如权利要求14所述的合成器或合成器组的内部存储器中的计算机程序产品,该产品包括软件代码部分,用于当在合成器或合成器组上执行程序时,执行如权利要求1到13中任一个所述的方法(1)的步骤。
16.一种可在如权利要求14所述的合成器或合成器组中使用的介质,其上存储有可直接加载到合成器或合成器组的内部存储器中的计算机程序产品,该产品包括软件代码部分,用于当在合成器或合成器组上执行程序时,执行如权利要求1到13中任一个所述的方法(1)的步骤。
全文摘要
本发明涉及一种用于恢复其频率<i>O</i>和相位<i>?</i>
文档编号G10L19/093GK1934618SQ200580008576
公开日2007年3月21日 申请日期2005年1月4日 优先权日2004年1月20日
发明者让-伯纳德·劳尔特, 马蒂厄·拉格兰奇 申请人:法国电信公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1