利用基音延迟曲线调整对信息信号编码的方法和装置的制作方法

文档序号:2830130阅读:238来源:国知局
专利名称:利用基音延迟曲线调整对信息信号编码的方法和装置的制作方法
技术领域
本发明一般涉及通信系统,尤其是涉及这种通信系统中对信息信 号进行编码。
背景技术
数字语音压缩系统通常需要估计输入信号的基频。基频fo通常是根据基音延迟7"Q (或被称为"迟滞")来估计。两者关系由下式表达<formula>formula see original document page 5</formula>(1)其中,采样频率fs对于电话级别应用而言通常为8000 Hz。由于语音信号通常为不稳定的,因此被其划分为被称为帧的有限 长度矢量,每帧被假定为亚稳态。这些帧的长度通常为10到40毫秒 的量级。然后,按照相关的帧长度间隔,对描述该语音信号的参数进 行更新。原始的码激励线性预测(CELP)算法按照更短的子帧间隔, 进一步更新基音周期信息(利用被称为长期预测的方法,或称为LTP), 因此能够实现帧到帧的更平滑过渡。还曾注意到,尽管可以使用开环 方法估计",但是使用闭环方法可以得到好得多的性能。闭环方法涉 及以子帧为基础,对To的不同可能值(通常为从20到147的整数值) 进行反复试验搜索,并选择满足一些最低误差标准的值。这种方法的改进方法包括允许To取整数加小数值,如美国专利 No.US5359696中给出的那样。这种方法的实际应用的例子能够在GSM 半速率语音编码器中找到,如附图1所示,并在美国专利No.US5253269 中有说明。这里,21到22-2/3范围内的迟滞是允许的1/3采样分辨率, 23到34-5/6范围内的迟滞是允许的1/6采样分辨率,等等。为了保持低的搜索复杂度,使用开环方法和闭环方法的组合。开环方法涉及使 用自相关峰值拾取算法生成整数迟滞候选值列表。随后,闭环方法在 该整数迟滞候选值附近的可允许迟滞中搜索最佳小数迟滞值。而且, 根据与前一子帧之间的差值,对子帧2、 3和4的迟滞进行编码。由于存在迟滞参数的高帧内相关,所以这使得能够使用更少的比特对该迟滞信息进行编码。即使如此,GSMHR编解码器仍然每20毫秒使用总 共8+ (3X4) =20比特来传送该基音周期信息(l.Okbps)。在降低基音周期信息的位速率的努力中,已开发了一种插值策略, 其允许每帧仅对基音信息编码一次(仅仅使用7比特-"50bps),而 不是使用通常的子帧解决方案。这项技术被称为松弛码激励线性预测 (或者RCELP)技术,并且成为用于码分多址(CDMA)无线电话系统 的增强变速率编解码器(EVRC)标准的基础。其基本原理如下。为以当前帧的终点为中心的分析窗口,估计基音周期。接着生成 迟滞(基音延迟)曲线,其由过去帧迟滞到当前帧迟滞的线性插值构 成。接着,借助于复杂多相滤波和偏移技术来修正该去线性预测(LP) 残差信号,被设计用于将残差波形与所估计的基音延迟曲线相匹配。 此残差修正过程的主要原因是解决开环整数迟滞估计过程的精度限 制。例如,如果该整数迟滞被估计为32个样本,当实际上真实的迟滞 为32.5个样本时,在单个160采样帧中,该残差波形可以与所估计的 延迟冲突2.5个样本之多。这会严重降低LTP的性能。该RCELP算法 通过在残差波形中的感知上不重要的情形期间(例如,低能量)对残 差波形进行移位以与所估计的基音延迟曲线匹配,来解决这个问题。 通过修正残差波形以与所估计的基音延迟曲线匹配,保留了 LTP的效 率,并维持了编码增益。另外,要求可以忽略由于残差修改引起的相 关的感知衰退。美国专利No. 6,113,653中提出了一种对处理基音延迟曲线信息的 进一步改进,其中公开了一种按照在长度上小于或等于一个块的间隔来调整基音延迟曲线的方法。在此方法中,根据某一误差最小标准, 使用少量的比特来对基音延迟曲线的调整进行编码。该方法描述了通 过将累积的移位参数最小化,或者将感知加权的输入语音和通过感知 加权合成滤波器的自适应码本(ACB)贡献率之间的互相关最大化, 来调整基音延迟曲线的技术。其他公知的基音延迟调整标准也可以包括将目标语音和滤波后的ACB贡献率之间的感知加权误差能量最小化。尽管此方法使用了非常有效的技术来估计和编码基音延迟曲线调 整信息,但是该低的位速率对正被编码的基音延迟调整参数的分辨率 和/或动态范围产生约束。因此,现在需要通过自适应地修正预测器步 长的动态范围和分辨率来改进低位速率长期预测器的性能,以便与现 有技术相比,对于给定的位速率获得较高长期预测增益,或者替换地, 在较低的位速率上获得相似的长期预测。


图1为现有技术的语音编码器的框图。图2为语音编码器的框图。图3为语音解码器的框图。图4图示了在时域中显示的信号的图形表示。图5为示出图2和图3的编码器和解码器的操作的流程图。
具体实施方式
一般说来,开环基音延迟曲线估计器在对信息信号进行编码期间 生成基音延迟信息。以子帧为基础对基音延迟曲线(例如,过去帧迟 滞到当前帧迟滞的线性插值)进行调整,这允许对真实的基音延迟曲 线作出更精确的估计。基音延迟曲线重建模块在重建帧间的信息信号 时,在解码器中使用基音延迟信息。在本发明的优选实施例中,对于 基音延迟曲线的调整是基于基音延迟(tq)中的标准偏差和/或方差。更具体来说,对信息信号进行编码的方法包括如下步骤把信息 信号划分成块,估计该信息的当前和先前块的基音延迟,并根据"中 的过去的变化(例如,标准偏差和/或方差)来形成基音延迟的调整。 该方法进一步包括如下步骤按照在长度上小于或等于一个块的间隔 来调整基音延迟曲线的形状,对调整后的基音延迟曲线进行编码,以 产生适于向目的地传送的代码。按照在长度上小于或等于一个块的间隔来调整基音延迟曲线的形 状的步骤进一步包括如下步骤确定在位于当前和先前基音延迟处或 两者之间的点处的调整后基音延迟,在先前的基音延迟点和调整后的 基音延迟点之间形成线性插值。当确定调整后的基音延迟点时,将累 积移位的变化最小化。确定调整后的基音延迟的步骤进一步包括如下 步骤将目标残差信号和原始残差信号之间的相关最大化。先前的基 音延迟点进一步包括先前的调整后基音延迟点。替代地,对基音延迟 曲线的形状进行调整的步骤进一步包括如下步骤确定位于当前和先 前基音延迟处或者两者之间的多个调整后基音延迟点,并在调整后延 迟点之间形成线性插值。还公开了对信息信号进行编码的系统。该系统包括编码器,该编 码器包括用于把该信息信号划分成块的装置,以及用于估计信息中的 当前和先前块的基音延迟、并根据r。中的过去的变化(例如,标准偏 差和/或方差)来调整基音延迟的装置。在该系统内,该信息信号进一步包括语音或者音频信号,该信息 信号的块进一步包括信息信号的帧。基音延迟信息进一步包括基音延 迟调整索引。该系统还包括用于接收基音延迟信息、并产生用于重建 该信息信号的调整后基音延迟曲线7"e(n)的解码器。附图2概括描述了依照本发明优选实施例的釆用自适应步长基音延迟调整的语音压縮系统200。如附图2所示,通过把输入语音信号s(n)的短期谱包络变平坦的线性预测(LP)分析滤波器202,来处理该输入语音信号s(n)。该LP分析滤波器的输出被指定为LP残差《n)。接着,该LP残差e(n)被开环基音延迟估计器204用来生成该开环基音延迟力":i。(此过程的详细内容和下面讨论的一些其他过程在TIA—127EVRC中给出。)接着,该开环基音延迟r(m)被基音延迟插值块206用来依照下面的表达式生成子帧延迟插值端点矩阵d(m',j):<formula>formula see original document page 9</formula>其中"m;)是用于当前帧m的估计开环基音延迟,其以端部的当前 帧为中心,"M-l)为用于前一帧m-l的估计开环基音延迟,f(n)为一组 基音延迟插值系数,其可以被定义为f= { 0.0, 0.3313, 0.6625, 1.0 } (3)这些系数例如是当子帧的数量为3 (例如,0S,w'《3)时给出,不 过也可以为不是3的子帧值导出一组合适的系数。同样将开环基音延迟^的用作输入的还有基音延迟变率估计器 214。依照当前发明,开环基音延迟估计的采样标准偏差被定义为<formula>formula see original document page 9</formula>其中该采样均值f被定义为<formula>formula see original document page 9</formula>f = (5) 当观测数目是二 (N-2)时,可以看出,上面的表达式就能够被简化为如下<formula>formula see original document page 9</formula>随后,该变率估计 和开环基音延迟r—)被用作自适应步长生成器215的输入,在该自适应步长生成器215中,作为 的函数如下计算适应性步长^,M):<formula>formula see original document page 10</formula>(7)其中^crj为该基音延迟的变率估计的某个函数。对于本发明的优 选实施例,这个函数如下给出<formula>formula see original document page 10</formula>(8)其中A和B可以是常数,ov表示r的标准偏差,a^可以是a(ov) 的某个最大的允许值。该自适应步长S(m)被输入到延迟调整系数生成器216中,在该延 迟调整系数生成器216中,可以如下作为基音延迟调整索引i的函数来 计算基音延迟调整值A一<formula>formula see original document page 10</formula>其中M为候选基音延迟调整索引的数量。(9)从上述等式中可以看到,基音延迟调整值A^W可以取步长S(/70的 整数倍,其中5(m)不仅仅是基音延迟的平均值(均值)的函数(如现有技术中),而且还是基音延迟值r^)的变率估计 的函数。随后, 根据某个失真度量来评估多个基音延迟调整值,并且作为结果,该基 音延迟调整值的最佳值可以在编码过程的所有剩余部分中使用。在优 选实施例中,该失真度量为第i个滤波后自适应码本贡献率;i"")与加 权目标信号^W之间的感知加权均方差。这个过程是在基音延迟调整 索引搜索218中给出的,并可以表达为<formula>formula see original document page 10</formula>其中p是与根据方括弧中的表达式获得的最大值对应的最佳基音(10)延迟调整索引。为了获得在等式io中使用的信号,使用了基音延迟曲线端点修正 器20S,以依照下面的表达式将基音延迟插值曲线上下移位-<formula>formula see original document page 11</formula> (11)根据这个表达式,计算210候选基音延迟曲线^(M),以及获得212 自适应码本贡献率E(n)并对其滤波220,以获得滤波后自适应码本贡献 率/l(n),如现有技术中那样。在操作期间,通过发射机200发送诸如固定码本索引、FCB和ACB 增益索引等标准变量。连同这些值一起,与用于当前帧r(M)的基音延 迟值的代码一起发送每个子帧的延迟调整索引(i)。来自先前发送帧 ^m-l)中的基音延迟也被使用。该解码器将使用i, <m;>,禾卩r(M-l)产 生相继的基音延迟值之间的插值曲线。更详细来讲,接收器将按照上面讨论的,作为基音延迟调整索引i的函数来计算A。J^,并根据等式 11应用A。J/),以将基音延迟插值曲线的端点向上或向下移位。附图3为接收器300的框图。如图所示,通过延迟解码器304接 收基音延迟参数索引,以产生r^)。更具体来讲,解码器304接收表 示Wm;i的索引或者"代码",并对它们进行解码,以产生r(W和"/n-l)。 基音延迟值被输出到基音延迟变率估计器214,在该基音延迟变率估计 器214处确定基音延迟中的变化,并将其输出到自适应步长生成器215。 通过该生成器215计算用于^m)的值。该自适应步长被输出到延迟调 整系数生成器216中。按照上文所论述的,通过该生成器216作为该 基音延迟调整索引i的函数来计算用于A^(/)的值,并将其输出到端点 修正电路308。通过发射机200,基音延迟W^被输出到延迟插值块307,并用于 根据等式2来生成子帧延迟插值端点矩阵Wm'』。延迟曲线端点修正电路308采用该端点矩阵,并依照rf'(,"',/)^(m',/) + A。^')来将该基音延 迟插值曲线的端点上下移位。随后,该移位后的端点被计算电路310 用于生成调整后的延迟曲线^("),该调整后延迟曲线随后被用于从 ACB 312中取得样本(如现有技术)。随后,对ACB贡献率进行调整, 并将其与缩放后的固定码本贡献率组合,以生成组合激励信号,该组 合激励信号被用作合成滤波器302的输入以产生输出语音信号。该组 合激励信号还被用做反馈,以便为下一子帧更新ACB (如现有技术)。附图4显示如在在时域中显示的先前部分的信号的图形表示。这 些信号是基于具有"kHz采样频率的宽带语音编码器结构来采样的。 因此,信号402 (加权语音信号、(W)包括一个1/2秒采样(7000个 样本)。对于这个例子而言,帧大小为280个样本,子帧大小是70。 每个子帧使用一个样本来显示信号404 — 410。从该输入信号中估计出开环基音延迟r^)404。能够看出,该开环 基音延迟估计对于高周期性语音(样本0 — 2000和4000 — 6500)而言 是相当平滑的,而与之相反,在无声和过渡期间(样本2000-4000和 6500-7000)则是相当无规律的。根据本发明,示出了步长5(m)406。能 够看出,当该基音延迟估计的变率小时,该步长也相对小,而相反的, 当该基音延迟估计的变率大时,该步长也相对大。可以在最佳基音延 迟调整值A。"Z)408中进一步看出该自适应步长的效果。此处,该最佳 基音延迟值仅仅基于4个候选值(每子帧2比特)。在高周期性区域 期间,变化很小,并且对分辨率进行强调以允许该基音延迟估计的良 好调协。在无声和过渡区域期间,基音延迟变化很大,并随后对宽动 态范围进行强调以解决该基音延迟估计中的高不确定性。最后,显示 该基音延迟调整后端点c/'(,w',1)410,以演示根据本发明的基音延迟曲线 的最终综合估计。当与开环基音延迟404相比时,容易看出本发明的 整体效果。附图5是分别示出附图2和附图3中的编码器和解码器的操作的流程图。具体来讲,描述了通过编码器200和解码器300生成基音延 迟调整值A。,该逻辑流程在步骤501开始,基于输入信号,通过延迟 估计电路204或者延迟解码器304来估计基音延迟。在本发明的优选 实施例中,该输入信号优选为语音,然而也可以设想其他音频输入信 号。在步骤503,基音延迟变率估计器214根据该基音延迟估计来估计基音延迟W的方差和/或标准偏差,以生成自适应步长值^, ;>。更具体来讲,分析r的过去值以确定 ,5^)是按照等式(7),根据~计算得到的。在步骤505,基音延迟调整系数生成器216使用5(, ),并为调整值(Anrf》确定值。如上面讨论的 ,0')=(卜M / 2) <5(m), z' e {0, 1,…,iW -1},其中外")—;(咖)冲-1)〕。随后,修正电路208使用用于A。《的值来 、 2 J生成第二基音延迟参数,并且具体来讲是编码的基音参数(步骤507)。 在本发明的优选实施例中,该编码的基音参数包括基音延迟插值曲线 的端点,该基音延迟插值曲线是根据该调整值而被向上或者向下移位 的,具体来讲是依照该表达式 /) = ^ ',/) + 乂^),其中/*是与根 据等式IO获得的最大值对应的最佳基音延迟调整索引。尽管已参考特定实施例具体示出和说明了本发明,但本领域技术 人员可以理解,可以在不背离本发明的精神和范围下,在其中作出形 式和细节上的各种变化。例如,尽管在本发明的优选实施例中,基音 延迟插值曲线的端点是根据自适应步长而被移位的,但是本领域普通 技术人员应认识到可以根据该适应步长生成任一编码的基音参数。更 具体来讲,通过允许搜索范围和/或分辨率(即步长)基于基音延迟变 率的函数,本发明可以应用到传统的闭环基音延迟和基音搜索方法(例 如,美国专利No. 5,253,269)。目前这些方法局限于仅仅基于正被搜 索的当前基音值的绝对范围的预定分辨率。在现有解码过程中使用本发明对本领域技术人员来讲也是显而易 见的。例如,尽管在本发明的优选实施例中,根据该自适应步长将基 音延迟插值曲线的端点向上或者向下移位,但是本领域的普通技术人员将认识到可以根据该自适应步长来生成任一基音延迟参数。如前面讨论的,诸如GSM HR之类的语音解码器可以基于根据任意第一基音 延迟参数获得的基音延迟中的变化,使用自适应步长来确定该A(delta) 编码的迟滞信息(即第二基音延迟参数)的范围和分辨率。因此,该 第二基音延迟参数可以基于该自适应步长。另外,可以使用替代的失真度量,例如累积移位参数的最小化或 者归一化互相关参数的最大化(如美国专利No. 6,113,653中所说明 的),来获得根据本发明的基音延迟曲线调整。对本领域技术人员来 讲是显而易见的是本发明独立于所采用的失真度量,并且可以在不 脱离本发明的精神和范围的情况下使用任一方法。
权利要求
1.一种操作语音编码器的方法,该方法包括步骤根据输入信号估计基音延迟;根据该基音延迟估计来估计基音延迟中的变化;根据该基音延迟中的变化来确定自适应步长值;和根据该自适应步长来生成编码的基音参数。
2. 根据权利要求l的方法,其中所述根据输入信号估计基音延迟 的步骤包括根据语音或者音频信号来估计该基音延迟的步骤。
3. 根据权利要求l的方法,其中所述估计基音延迟中的变化的步 骤包括估计基音延迟的方差和/或标准偏差的步骤。
4. 根据权利要求l的方法,其中所述确定自适应步长的步骤包括 确定自适应步长5(m)的步骤,其中5(m)能够被表达为以及其中^ )为基音延迟的变率估计的某一函数,以及r(m)是对 于帧号m的基音延迟估计。
5. 根据权利要求4的方法,其中c^Tr)-min04o"r+5,a鹏),其中A 和B为预定值, 表示T的标准偏差,以及"_是《( )的最大允许值。
6. 根据权利要求l的方法,其中所述根据该自适应步长生成编码 的基音参数的步骤包括确定延迟调整值A。《的步骤,其中A。力.(z) = (/ - —), z' s {0,1,…,Af -1}其中M为候选基音延迟调整索引的数量,5(m)为是自适应步长, 以及Ze(O,l,...,M-l)是编码的基音参数。
7. 根据权利要求6的方法,其中延迟调整值~力.被用于根据下面 的表达式将基音延迟插值曲线的端点上下移位<formula>formula see original document page 3</formula>其中d(m',y)为子帧延迟插值端点矩阵。
8. 根据权利要求l的方法,其中所述根据该自适应步长生成编码 的基音参数的步骤包括评估失真标准的步骤。
9. 根据权利要求8的方法,其中所述评估失真标准的步骤包括对 将均方差参数最小化、将累积的移位参数最小化、以及将归一化的互 相关参数最大化的其中之一进行评估的步骤。
10. —种操作语音解码器的方法,该方法包括步骤 接收第一基音延迟参数;根据该第一基音延迟参数来估计基音延迟中的变化; 根据该基音延迟中的变化来确定自适应步长;和 根据该自适应步长来生成第二基音延迟参数。
11. 根据权利要求10的方法,其中所述估计基音延迟中的变化的 步骤包括估计基音延迟的方差和/或标准偏差的步骤。
12. 根据权利要求10的方法,其中所述确定自适应步长的步骤包 括确定自适应步长5(m),其中5(w)可被表达为<formula>formula see original document page 3</formula>其中a(CTj是基音延迟的变率估计的某一函数,以及r^)是对于帧号m的基音延迟估计。
13. 根据权利要求12的方法,其中a( 卜minC4 +S,a薩),其中 A和B是预定的, 表示7"的标准偏差,a^为a( )的最大允许值。
14.根据权利要求10的方法,其中所述根据该自适应步长生成第 二基音延迟参数的步骤包括确定延迟调整值A一.的步骤,其中 A—.W = (/ -M/2) Z e (0,1,…,M -1}其中M为候选基音延迟调整索引的数量,J(m)为自适应步长。
15.根据权利要求14的方法,其中延迟调整值A—.被用来根据下 面的表达式将基音延迟插值曲线的端点向上或者向下移位 cT(m',y') = +其中^"/,y)为子帧延迟插值端点矩阵,W^',/)为第二基音延迟参数。
16. —种装置,包括用于估计基音延迟中的变化的变率估计器;用于根据该基音延迟中的变化确定自适应步长的系数生成器;和 用于根据该自适应步长修正基音参数的修正电路。
17. 根据权利要求16的装置,其中该修正电路根据自适应步长向 上或者向下修正基音延迟插值曲线的端点。
18. 根据权利要求16的装置,其中该基音延迟基于语音或者音频 信号。
19.根据权利要求16的装置,其中基音延迟中变化包括基音延迟 的方差和/或标准偏差。
20.权利要求16的装置,其中该自适应步长是按照5(m) = a(crr) 某个函数。<formula>formula see original document page 4</formula>来计算的,"( )是基音延迟的变率估计的
全文摘要
在语音编码/解码器(200/300)中,使用基音延迟曲线端点修正器(208)来将基音延迟插值曲线的端点上下移位。尤其是,根据基音延迟的方差和/或标准偏差来将基音延迟插值曲线的端点移位。
文档编号G10L11/04GK101228573SQ200680027207
公开日2008年7月23日 申请日期2006年6月29日 优先权日2005年7月27日
发明者乌达·米塔尔, 詹姆斯·P·阿什利 申请人:摩托罗拉公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1