用于谐波信号的译码的系统、方法、设备和计算机可读媒体的制作方法

文档序号:2832821阅读:469来源:国知局
专利名称:用于谐波信号的译码的系统、方法、设备和计算机可读媒体的制作方法
技术领域
本发明涉及音频信号处理的领域。
背景技术
基于经修改离散余弦变换(MDCT)的译码方案通常用于对一般化音频信号进行译码,其可包含例如音乐等语音和/或非语音内容。使用MDCT译码的现有音频编解码器的实例包含MPEG-1音频层3 (MP3)、杜比数字(杜比实验室,英国伦敦;也称为AC-3且标准化为ATSC A/52)、Vorbis (Xiph.组织基金会,马萨诸塞州萨默维尔)、Windows媒体音频(WMA,微软公司,华盛顿州雷德蒙)、自适应性变换听觉译码(ATRAC,索尼公司,日本东京),以及先进音频译码(AAC,如最近在IS0/IEC14496-3 :2009标准化)。MDCT译码也是一些电信标准的组件,例如增强型可变速率编解码器(EVRC,如第三代合作伙伴计划2(3GPP2)文献C. S0014-D版本2. 0中标准化,2010年I月25日)。G. 718编解码器(“从8-32千位/秒的语音和音频的帧错误稳健窄带和宽带内嵌式可变位速率译码”,电信标准化部门(ITU-T),瑞士日内瓦,2008年6月,在2008年11月和2009年8月校正,在2009年3月和2010年3月修正)是使用MDCT译码的多层编解码器的一个实例。

发明内容
根据一般配置的音频信号处理方法包含在频域中定位参考音频信号中的多个峰值。此方法还包含选择谐波模型的基频的某数目Nf个候选者,其中每一候选者基于频域中所述多个峰值的对应一者的位置。所述方法还包含基于频域中所述多个峰值的至少两者的位置计算某数目Nd个谐波间隔候选者。此方法包含针对多对不同的基频和谐波间隔候选者的每一者选择目标音频信号的至少一个子带的集合,其中所述集合中每一子带在频域中的位置基于所述对候选者。此方法包含针对所述多对不同候选者的每一者计算来自目标音频信号的至少一个子带的对应集合的能量值,以及基于至少多个所计算的能量值从所述多对不同候选者中选择一对候选者。还揭示具有有形特征的计算机可读存储媒体(例如,非瞬时媒体),所述有形特征致使读取所述特征的机器执行此方法。一种根据一般配置的用于音频信号处理的设备包含用于在频域中定位参考音频信号中的多个峰值的装置;用于选择谐波模型的基频的某数目Nf 个候选者的装置,每一候选者基于频域中所述多个峰值的对应一者的位置;以及用于基于频域中所述峰值的至少两者的位置计算谐波模型的谐波之间的间隔的某数目Nd个候选者的装置。此设备还包含用于针对多对不同的基频和谐波间隔候选者的每一者选择目标音频信号的至少一个子带的集合的装置,其中所述集合中每一子带在频域中的位置基于候选者对;以及用于针对所述多对不同候选者的每一者计算来自目标音频信号的至少一`个子带的对应集合的能量值的装置。此设备还包含用于基于至少多个所计算的能量值从所述多对不同候选者中选择一对候选者的装置。—种根据另一一般配置的用于音频信号处理的设备包含频域峰值定位器,其经配置以在频域中定位参考音频信号中的多个峰值;基频候选者选择器,其经配置以选择谐波模型的基频的某数目Nf个候选者,每一候选者基于频域中所述多个峰值的对应一者的位置;以及距离计算器,其经配置以基于频域中所述峰值的至少两者的位置计算谐波模型的谐波之间的间隔的某数目Nd个候选者。此设备还包含子带放置选择器,其经配置以针对多对不同的基频和谐波间隔候选者的每一者选择目标音频信号的至少一个子带的集合,其中所述集合中每一子带在频域中的位置基于所述对候选者;以及能量计算器,其经配置以针对所述多对不同候选者的每一者计算来自目标音频信号的至少一个子带的对应集合的能量值。此设备还包含候选者对选择器,其经配置以基于至少多个所计算的能量值从所述多对不同候选者中选择一对候选者。


图1A展示根据一般配置处理音频信号的方法MA100的流程图。图1B展示任务TA600的实施方案TA602的流程图。图2A说明峰值选择窗口的实例。图2B展示任务T430的应用的实例。图3A展示方法MA100的实施方案MAllO的流程图。图3B展示解码经编码信号的方法MD100的流程图。图4展示谐波信号和数个替代选定子带集合的实例的曲线。图5展示任务T400的实施方案T402的流程图。
图6展示根据方法MAlOO的实施方案放置的子带集合的实例。图7展示补偿抖动信息的缺乏的方法的一个实例。图8展示扩展残差信号的区的实例。图9展示将残差信号的一部分编码为若干单位脉冲的实例。图1OA展示根据一般配置处理音频信号的方法MB100的流程图。图1OB展示方法MB100的实施方案MBllO的流程图。图11展示针对其中目标音频信号为UB-MDCT信号的实例的量值与频率的曲线。图12A展示根据一般配置用于处理音频信号的设备MF100的框图。图12B展示根据一般配置用于处理音频信号的设备AlOO的框图。图13A展示设备MF100的实施方案MFllO的框图。图13B展示设备AlOO的实施方案Al 10的框图。图14展示根据一般配置用于处理音频信号的设备MF210的框图。图15A和15B说明方法MBl 10对编码目标信号的应用的实例。图16A-E展示设备A110、MF110或MF210的各个实施方案的应用范围。图17A展示信号分类的方法MC100的框图。图17B展示通信装置DlO的框图。图18展示手持机HlOO的前视图、后视图和侧视图。图19展示方法MA100的应用的实例。
具体实施例方式可能需要识别待编码信号内的显著能量区。将此类区与信号的其余部分分离实现对这些区的目标译码以增加译码效率。举例来说,可能需要通过使用相对较多位来编码此类区以及相对较少位(或甚至零个位)来编码信号的其它区来增加译码效率。对于具有高谐波内容的音频信号(例如,音乐信号、浊音信号),频域中显著能量区的位置可相关。可能需要通过利用此谐波性来执行音频信号的有效变换域译码。如本文所描述用于对表示信号的音频范围的变换系数的集合进行译码的方案通过使用谐波模型来使频域中的显著能量区的位置之间的关系参数化来利用信号频谱上的谐波性。此谐波模型的参数可包含这些区的第一者的位置(例如,以递增频率的次序)以及连续区之间的间隔。估计谐波模型参数可包含产生参数值的候选者集合的库,以及从所产生的库中选择模型参数值的集合。在特定应用中,此方案用于编码对应于音频信号的0-4kHz范围(下文称为低频带MDCT或LB-MDCT)的MDCT变换系数,例如线性预测译码操作的残差。使显著能量区的位置与其内容分离允许使用最小边信息(例如,谐波模型的参数值)表示待发射到解码器的这些区的位置之间的谐波关系。此效率可能对于低位速率应用(例如,蜂窝式电话)尤其重要。除非受其上下文清楚地限制,否则术语“信号”在本文中用以指示其普通意义中的任一者,包括如在导线、总线或其它传输媒体上表达的存储器位置(或存储器位置集合)的状态。除非由其上下文明确限制,否则本文中使用术语“产生”来指示其普通意义中的任一者,例如计算或以另外方式产生。除非受其上下文清楚地限制,否则术语“计算”在本文中用以指示其普通意义中的任一者,例如运算、评估、平滑及/或从多个值中进行选择。除非由其上下文明确限制,否则使用术语“获得”来指示其普通意义中的任一者,例如计算、导出、接收(例如,从外部装置)及/或检索(例如,从存储元件阵列)。除非上下文明确地限制,否则术语“选择”用于指示其一般意义中的任一者,例如识别、指示、应用和/或使用两个或两个以上的集合中的至少一者以及少于全部。在术语“包含”用于本描述及权利要求书中的情况下,其不排除其它元件或操作。术语“基于”(如“A基于B”中)用于指示其一般意义中的任一者,例如以下情况(i) “从...导出”(例如,“B是A的前驱物”);(ii) “至少基于”(例如,“A至少基于B”);以及如果特定上下文中适当的话,(iii) “等于”(例如,“A等于B”)。类似地,术语“响应于”用于指示其一般意义中的任一者,包含“至少响应于”。除非另外指示,否则术语“系列”用于指示两个或两个以上项目的序列。术语“对数”用于指示十为底的对数,但此运算到其它底的延伸在本发明的范围内。术语“频率分量”用于指示信号的频率集合或频带中的一者,例如信号(例如,如由快速傅里叶变换产生)或信号的子带(例如,巴克尺度或梅尔尺度子带)的频域表示的样本。除非另外指出,否则对具有特定特征的设备的操作的任何揭示内容还明确地希望揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示内容还明确地希望揭示根据类似配置的方法(且反之亦然)。术语“配置”可用于参考方法、设备和/或系统,如其特定上下文所指示。术语“方法”、“过程”、“程序”和“技术” 一般地且可互换使用,除非特定上下文另外指示。术语“设备”和“装置”也一般地且可互换使用,除非特定上下文另外指示。术语“元件”和“模块”通常用于指示较大配置的一部分。除非上下文明确地限制,否则术语“系统”在本文中用于指示其一般意义中的任一者,包含“交互以为共同目的服务的一组元件”。通过参考对文献的一部分的任何并入也应理解为并入有所述部分内参考的术语或变量的定义,其中此类定义在文献中其它地方以及所并入部分中参考的任何图式中出现。本文描述的系统、方法和设备通常适用于对频域中音频信号的表示进行译码。此表示的典型实例为频域中的一系列变换系数。适宜的变换的实例包含离散正交变换,例如正弦单一变换。适宜的正弦单一变换的实例包含离散三角变换,其包含(不限于)离散余弦变换(DCT)、离散正弦变换(DST)和离散傅里叶变换(DFT)。适宜的变换的其它实例包含此类变换的重叠版本。适宜的变换的特定实例是上文介绍的经修改DCT (MDCT)。贯穿本发明参考音频范围的“低频带”和“高频带”(也称为“上频带”),以及参考零到四千赫(kHz)的低频带和3. 5到七kHz的高频带的特定实例。明确地注意,本文论述的原理绝不限于此特定实例,除非明确地陈述此限制。编码、解码、分配、量化和/或其它处理这些原理的应用明确预期且在此揭示的频率范围的其它实例(同样不限于)包含具有处于0、25、50、100、150和200Hz的任一者的下限以及处于3000、3500、4000和4500Hz的任一者的上限的低频带,以及具有处于3000、3500、4000、4500和5000Hz的任一者的下限以及处于6000、6500、7000、7500、8000、8500和9000Hz的任一者的上限的高频带。还明确地预期且在此揭示此类原理(同样不限于)对具有处于3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500 和 9000Hz 的任一者的下限以及处于 10,10. 5、11、11. 5,12,12. 5、13、13. 5、14、14. 5、15、15. 5和16kHz的任一者的上限的高频带的应用。还明确地注意,尽管高频带信号通常将在译码过程(例如,经由重取样和/或抽选)的较早阶段转化为较低取样速率,但其保持为高频带信号,且其携带的信息继续表示高频带音频范围。对于低频带与高频带在频率上重叠的情况,可能需要清零低频带的重叠部分,清零高频带的重叠部分,或在重叠部分上从低频带向高频带交叉淡化(cross-fade)。如本文描述的译码方案可应用于对任何音频信号(例如,包含语音)进行译码。或者,可能需要使用此译码方案仅用于非语音音频(例如,音乐)。在此情况下,译码方案可与分类方案一起使用以确定音频信号的每一帧的内容的类型且选择适宜的译码方案。如本文描述的译码方案可用作初级编解码器或用作多层或多级编解码器中的一层或级。在一个此类实例中,此译码方案用于对音频信号(例如,低频带或高频带)的频率内容的一部分进行译码,且另一译码方案用于对信号的频率内容的另一部分进行译码。在另一此类实例中,此译码方案用于对另一译码层的残差(即,原始信号与经编码信号之间的误差)进行译码。图1A展示根据一般配置处理音频信号的方法MA100的流程图,其包含任务TA100、TA200、TA300、TA400、TA500和TA600。方法MA100可经配置以将音频信号处理为一系列片段(例如,通过针对每一片段执行任务TA100、TA200、TA300、TA400、TA500和TA600的每一者的实例)。片段(或“帧”)可为变换系数块,其对应于长度通常在约5或10毫秒到约40或50毫秒的范围内的时域片段。时域片段可为重叠(例如,与邻近片段重叠25%或50% )或非重叠的。可能需要在音频译码器中获得高质量和低延迟两者。音频译码器可使用大帧尺寸来获得高质量,但遗憾的是大帧尺寸通常导致较长延迟。如本文描述的音频编码器的潜在优点包含利用短帧尺寸(例如,20毫秒帧大小,10毫秒先行)的高质量译码。在一个特定实例中,时域信号划分为一系列20毫秒非重叠片段,且每一帧的MDCT在与邻近帧的每一者重叠10毫秒的40毫秒窗口上取得。如方法MA100处理的片段也可为如所述变换产生的块的一部分(例如,低频带或高频带),或如此块上的先前操作产生的块的一部分。在一个特定实例中,由方法MA100处理的一系列片段的每一者含有表示0到4kHz的低频带频率范围的160MDCT系数的集合。在另一特定实例中,由方法MA100处理的一系列片段的每一者含有表示3. 5到7kHz的高频带频率范围的140MDCT系数的集合。任务TA100在频域中定位音频信号中的多个峰值。此操作也可称为“峰值-拾取”。任务TA100可经配置以从信号的整个频率范围选择特定数目的最高峰值。或者,任务TA100可经配置以从信号的指定频率范围(例如,低频范围)选择峰值,或可经配置以在信号的不同频率范围内应用不同选择准则。在如本文描述的特定实例中,任务TA100经配置以定位帧中的至少第一数目(Nd+1)个最高峰值,包含帧的低频范围中的第二数目Nf个最高峰值。任务TA100可经配置以将峰值识别为频域信号的样本(也称为“频段”),其具有距样本的任一侧的某一最小距离内的最大值。在一个此类实例中,任务TA100经配置以将峰值识别为具有在样本处居中的大小(2(1_+1)的窗口内的最大值的样本,其中Clniin为峰值之间的最小所允许间隔。可根据待定位的显著能量区(也称为子带)的最大所要数目选择dmin 的值。dmin 的实例包含 8、9、10、12 和 15 个样本(或者,100、125、150、175、200 或 250Hz),但可使用适于所要应用的任何值。图2A说明针对dmin的值为8的情况在信号的可能峰值位置处居中的大小(2(1_+1)的峰值选择窗口的实例。
基于通过任务TA100定位的峰值的至少一些(即,至少三个)的频域位置,任务TA200计算某数目Nd个谐波间隔候选者(也称为“距离”或d候选者)。Nd的值的实例包含5、6和7。任务TA200可经配置以将这些间隔候选者计算为通过任务TA100定位的(Nd+1)个最大峰值的邻近者之间的距离(例如,依据频段的数目)。基于通过任务TA100定位的峰值的至少一些(即,至少两个)的频域位置,任务TA300识别第一子带的位置的某数目Nf个候选者(也称为“基频”或FO候选者)。Nf的值的实例包含5、6和7。任务TA300可经配置以将这些候选者识别为信号中Nf个最高峰值的位置。或者,任务TA300可经配置以将这些候选者识别为正检查的频率范围的低频部分(例如,较低30%、35%、40%、45%或50%)中Nf个最高峰值的位置。在一个此类实例中,任务TA300在0到1250Hz的范围内从通过任务TA100定位的峰值的位置中识别某数目Nf个候选者。在另一此类实例中,任务TA300在0到1600Hz的范围内从通过任务TA100定位的峰值的位置中识别某数目Nf 个R)候选者。明确地注意到,方法MA100的所描述的实施方案的范围包含计算仅一个谐波间隔候选者(例如,计算为最大两个峰值之间的距离,或指定频率范围内的最大两个峰值之间的距离)的情况,以及识别仅一个候选者(例如,识别为最高峰值的位置,或指定频率范围内的最高峰值的位置)的单独情况。对于多对有效R)和d候选者的每一者,任务TA400选择音频信号的至少一个子带的集合,其中所述集合中每一子带在频域中的位置基于(F0,d)对。在一个实例中,任务TA400经配置以选择每一集合的子带使得第一子带在对应位置处居中,每一后续子带的中心与前一子带的中心分离等于对应值d的距离。任务TA400可经配置以选择每一集合以包含对应(F0,d)对指示的位于输入范围内的所有子带。或者,任务TA400可经配置以针对所述集合的至少一者选择少于所有这些子带。任务TA400可经配置以例如选择不多于集合的最大数目个子带。作为替代或另外,任务TA400可经配置以仅选择位于特定范围内的子带。举例来说,较低频率下的子带趋向于感知上更重要,使得可 能需要将任务TA400配置为选择数目不多于特定数目的在输入范围内的最低频率子带的一者或一者以上(例如,四个、五个或六个),和/或仅位置不在输入范围内的特定频率(例如,1000、1500或2000Hz)以上的子带。任务TA400可经实施以选择固定和相等长度的子带。在特定实例中,每一子带具有七个频段的宽度(例如,对于25Hz的频段间隔为175Hz)。然而,明确地预期且在此揭示,本文描述的原理也可应用于子带的长度可依据帧不同而变化和/或帧内子带的两者或两者以上(可能全部)的长度可不同的情况。在一个实例中,R)和d的所有不同对的值认为是有效的,使得任务TA400经配置以针对每个可能的(F0,d)对选择一个或一个以上子带的对应集合。举例来说,对于Nf和Nd均等于7的情况,任务TA400可经配置以考虑49个可能对的每一者。对于Nf等于5且Nd等于6的情况,任务TA400可经配置以考虑30个可能对的每一者。或者,任务TA400可经配置以强加可能的(F0,d)对中的一些可能不能满足的活动准则。在此情况下,举例来说,任务TA400可经配置以忽略将产生多于最大可允许数目个子带的对(例如,和d的低值的组合),和/或将产生少于最小所要数目个子带的对(例如,FO和d的高值的组合)。对于多对R)和d候选者的每一者,任务TA500计算来自音频信号的一个或一个以上子带的对应集合的至少一个能量值。在一个此类实例中,任务TA500计算来自一个或一个以上子带的每一集合的能量值作为所述子带集合的总能量(例如,作为子带中的频域样本值的平方量值之和)。作为替代或另外,任务TA500可经配置以计算来自每一子带集合的能量值作为每一个别子带的能量,且/或计算来自每一子带集合的能量值作为所述子带集合的每子带的平均能量(例如,子带数目上正规化的总能量)。任务TA500可经配置以针对与任务TA400相同的多对的每一者或针对少于所述多对执行。举例来说,对于任务TA400经配置以针对每一可能(FO,d)对选择子带集合的情况,任务TA500可经配置以计算仅满足指定活动准则的对的能量值(例如,以忽略将产生太多子带的对和/或将产生太少子带的对,如上文描述)。在另一实例中,任务TA400经配置以忽略将产生太多子带的对,且任务TA500经配置以还忽略将产生太少子带的对。尽管图1A展示任务TA400和TA500连续的执行,但将理解,任务TA500也可经实施以在任务TA400已完成之前开始计算子带集合的能量。举例来说,任务TA500可经实施以在任务TA400开始选择下一子带集合之前开始计算(或甚至完成计算)来自子带集合的能量值。在一个此类实例中,任务TA400和TA500经配置以针对所述多对有效和d候选者的每一者交替。同样,任务TA400也可经实施以在任务TA200和TA300已完成之前开始执行。基于来自一个或一个以上子带的集合的至少一些的所计算的能量值,任务TA600从(F0,d)候选者对中选择一候选者对。在一个实例中,任务TA600选择对应于具有最高总能量的子带集合的对。在另一实例中,任务TA600选择对应于具有每子带最高平均能量的子带集合的候选者对。图1B展示任务TA600的另一实施方案TA602的流程图。任务TA620包含任务TA610,其根据对应子带集合的每子带的平均能量(例如,以递减次序)将所述多个有效候选者对分类。此操作有助于抑制选择产生具有高总能量但其中一个或一个以上子带可能具有太少能量以致感知上不显著的子带集合的候选者对。此条件可指示过量数目个子带。任务TA602还包含任务TA620,其从产生具有每子带最高平均能量的子带集合的Pv候选者对中选择与俘获最多总能量的子带集合相关联的候选者对。此操作有助于抑制选择产生具有每子带高平均能量但太少子带的子带集合的候选者对。此条件可指示子带集合未能包含信号的具有较低能量但仍可感知上显著的区。任务TA620可经配置以使用Pv的固定值,例如4、5、6、7、8、9或10。或者,任务TA620可经配置以使用与有效候选者对的总数相关的Pv的值(例如,等于或不大于有效候选者对的总数的10%、20%或25% )。FO和d的选定值包括模型边信息,其为整数值且可使用有限数目个位发射到解码器。图3展示包含任务TA700的方法MA100的实施方案MAllO的流程图。任务TA700产生包含选定候选者对的值的指示的经编码信号。任务TA700可经配置以编码R)的选定值,或编码的选定值从最小(或最大)位置的偏移。类似地,任务TA700可经配置以编码d的选定值,或编码d的选定值从最小或最大距离的偏移。在特定实例中,任务TA700使用六个位来编码选定值,以及六个位来编码选定d值。在其它实例中,任务TA700可经实施以差分编码和/或d的当前值(例如,作为相对于参数的先前值的偏移)。可能需要实施任务TA700以使用向量量化(VQ)译码方案来编码由选定候选者对(即,选定子带集合的每一者内的值)识别为向量的显著能量区的内容。VQ方案通过将向量与一个或一个以上码簿(其也是解码器已知的)的每一者中的条目匹配且使用这些条目的索引来表示所述向量,来编码所述向量。确定码簿中的条目的最大数目的码簿索引的长度可为认为对应用合适的任何任意整数。适宜的VQ方案的一个实例为增益形状VQ(GSVQ),其中每一子带的内容分解为正规化形状向量(其描述例如沿着频率轴线的子带的形状)和对应的增益因子,使得形状向量和增益因子分别经量化。经分配以用于编码形状向量的位数目可在各个子带的形状向量之间均匀分布。或者,可能需要分配可用位中的更多位用于编码比其它形状向量俘获更多能量的形状向量,例如对应的增益因子与其它子带的形状向量的增益因子相比具有相对高的值的形状向量。可能需要使用GSVQ方案,所述GSVQ方案包含预测性增益译码使得独立于彼此且相对于前一帧的对应增益因子差分编码每一子带集合的增益因子。在特定实例中,方法MAllO经布置以在LB-MDCT频谱的频率范围中编码显著能量区。图3B展示包含任务TD100、TD200和TD300的解码经编码信号(例如,如任务TA700所产生)的对应方法MD100的流程图。任务TD100解码来自经编码信号的R)和d的值,且任务TD200解量化子带集合。任务TD300基R)和d的经解码值通过将每一经解量化子带放置在频域中来构成经解码信号。举例来说,任务TD300可经实施以通过使每一子带在频域位置HHmd处居中来构成经解码信号,其中0 < = m < M且M是选定集合中的子带的数目。任务TD300可经配置以将零值指派到经解码信号的未被占据的频段,或者将如本文描述的经解码残差值指派到经解码信号的未被占据的频段。在谐波译码模式中,将区放置在适当位置中对于有效译码可能是关键的。可能需要配置译码方案以使用最少数目个子带俘获给定频率范围内的最多能量。图4展示针对MDCT域中的谐波信号的一个实例的绝对变换系数值与频段索引的曲线。图4还展示对于此信号的两个可能子带集合的频域位置。第一子带集合的位置由均匀间隔的块展示,其用灰色描绘且还由X轴下方的括弧指示。此集合对应于如方法MA100选择的(F0,d)候选者对。此实例中可见,虽然信号中的峰值的位置呈现为规则的,但其并不精确符合谐波模型的子带的均匀间隔。实际上,此情况中的模型几乎错过信号的最高峰值。因此,可预期,即使根据最佳(F0,d)候选者对严格配置的模型也可能不能俘获信号峰值的一者或一者以上处的一些能量。可能需要实施方法MA100以通过放松谐波模型来适应音频信号中的非均匀性。举例来说,可能需要允许集合的谐波相关子带的一者或一者以上(即,位于H)、F0+d、R)+2d等处的子带)在每一方向上移位有限数目个频段。在此情况下,可能需要实施任务TA400以允许子带的一者或一者以上的位置与(F0,d)对所指示的位置有少量偏差(也称为移位或“抖动”)。此移位的值可经选择使得所得子带俘获峰值的更多能量。对于子带所允许的抖动量的实例包含子带宽度的25%、30%、40%、和50%。频率轴线的每一方向上允许的抖动量无需相等。在特定实例中,每一七频段子带允许沿着频率轴线移位其初始位置,如当前(F0,d)候选者对所指示,直到高四个频段或直到低三个频段。在此实例中,子带的选定抖动值可以三个位表达。还可能可允许抖动值的范围为和和/或d的函数。
子带的移位值可确定为放置子带以俘获最多能量的值。或者,子带的移位值可确定为使最大样本值在子带内居中的值。可见,如图4中黑线框指示的放松子带位置根据此峰值居中准则来放置(如参看从左向右第二和最后峰值最清楚展示)。峰值居中准则趋向于产生子带形状之间的较少变化,其可产生较好GSVQ译码。最大能量准则可例如通过产生不居中的形状来增加形状之间的熵。在另一实例中,子带的移位值使用这两个准则来确定。图5展示根据放松谐波模型选择子带集合的任务TA400的实施方案TA402的流程图。任务 TA402 包含任务 TA410、TA420、TA430、TA440、TA450、TA460 和 TA470。在此实例中,任务TA402经配置以针对每一有效候选者对执行一次,且能够存取频率范围内的峰值的位置的分类列表(例如,如任务TA100所定位)。可能需要峰值位置的列表的长度至少与目标帧的子带的最大可允许数目一样长(例如,对于140或160个样本的帧大小,每帧8、10、12、14、16 或 18 个峰值)。回路初始化任务TA410将回路计数器i的值设定为最小值(例如,I)。任务TA420确定列表中的第i最高峰值是否可用(即,尚未在有效子带中)。如果第i最高峰值可用,那么任务TA430根据如通过可允许抖动范围放松的当前(F0,d)候选者对(S卩,F0、F0+d,F0+2d等)指示的位置确定是否可放置任何非有效子带以包含峰值的位置。在此上下文中,“有效子带”是在不与任何先前放置的子带重叠的情况下已经放置的且具有大于(或者,不小于)阈值T的能量的子带,其中T为有效子带中的最大能量的函数(例如,针对此帧已放置的最高能量有效子带的能量的15%、20%、25%或30% )。非有效子带是非有效(即,尚未放置、放置了但与另一子带重叠,或具有不充足能量)的子带。如果任务TA430未能找到针对所述峰值可放置的任何非有效子带,那么控制经由回路递增任务TA440返回到任务TA410以处理列表中的下一最高峰值(如果有的话)。可能发生的情况是,存在整数j的两个值,位置(F0+j*d)处的子带可针对其而放置以包含第i峰值(例如,所述峰值位于两个位置之间),且j的这些值中任一者均尚未与有效子带相关联。对于此类情况,可能需要实施任务TA430以在这两个子带中选择。任务TA430可例如经实施以选择原本将具有较低能量的子带。在此情况下,任务TA430可经实施以遵从排除峰值且不与任何有效子带重叠的约束而放置两个子带的每一者。在这些约束内,任务TA430可经实施以使 每一子带在最高可能样本处居中(或者,放置每一子带以俘获最大可能能量),计算两个子带的每一者中的所得能量,且选择具有最低能量的子带作为待放置(例如,由任务TA450)以包含峰值的子带。此方法可有助于使最终子带位置中的接点能量最大化。图2B展示任务TA430的应用的实例。在此实例中,频率轴线的中间的点指示第i峰值的位置,黑体括弧指示现有有效子带的位置,子带宽度为七个样本,且可允许抖动范围为(+5,-4)。还指示第i峰值的左和右相邻者位置[F0+kd]、[F0+(k+l)d]以及这些位置的每一者的可允许子带放置的范围。如本文所描述,任务TA430约束每一子带的可允许放置范围以排除峰值且不与任何有效子带重叠。在如图2B中指示的每一所约束范围内,任务TA430将对应子带放置为在最高可能样本处居中(或者,俘获最大可能能量),且选择具有最低能量的所得子带作为待放置以包含第i峰值的子带。任务TA450放置由任务TA430提供的子带且视需要将所述子带标记为有效或非有效。任务TA450可经配置以放置子带使得所述子带不与任何现有有效子带重叠(例如,通过减小子带的可允许抖动范围)。任务TA450还可经配置以放置子带使得第i峰值在子带内居中(即,到抖动范围和/或重叠准则所允许的程度)。如果针对当前有效候选者对留下更多子带,那么任务TA460经由回路递增任务TA440使控制返回到任务TA420。同样,任务TA430在失败后经由回路递增任务TA440使控制返回到任务TA420,以寻找可针对第i峰值放置的非有效子带。如果任务TA420针对i的任何值失败,那么任务TA470针对当前有效候选者对放置剩余子带。任务TA470可经配置以放置每一子带使得最高样本值在子带内居中(即,到抖动范围所允许的程度且/或使得所述子带不与任何现有有效子带重叠)。举例来说,任务TA470可经配置以针对当前有效候选者对的剩余子带的每一者执行任务TA450的实例。在此实例中,任务TA402还包含修剪子带的任选任务TA480。任务TA480可经配置以拒绝不满足能量阈值(例如,T)的子带且/或拒绝与具有较高能量的另一子带重叠的子带。图6展示针对如MDCT域中展示的谐波信号的0_3. 5kHz范围根据包含任务TA402和TA602的方法MA100的实施方案放置的子带集合的实例。在此实例中,y轴指示绝对MDCT值,且子带由X或频段轴附近的块指示。任务TA700可经实施以将选定抖动值打包到经编码信号中(例如,以供发射到解码器)。然而,还可能在任务TA400中应用放松谐波模型(例如,作为任务TA402),但实施任务TA700的对应实例以省略来自经编码信号的抖动值。即使对于没有位可用于发射抖动的低位速率情况,举例来说,仍可能需要在编码器处应用放松模型,因为可预期通过编码信号能量的更多部分而获得的感知益处将胜过由未经校正抖动引起的感知误差。此应用的一个实例用于音乐信号的低位速率译码。在一些应用中,经编码信号仅包含谐波模型选择的子带可能已足够,使得编码器丢弃在所建模子带外部的信号能量。在其它情况下,可能需要经编码信号还包含未由谐波模型俘获的此信号信息。在一个方法中,在编码器处通过从原始输入频谱减去重建的谐波模型子带来计算未经译码信息(也称为残差信号)的表示。以此方式计算的残差通常将具有与输入信号相同的长度。对于使用放松谐波模型来编码信号的情况,用于移位子带位置的抖动值可在解码器处可用或不可用。如果抖动值在解码器处可用,那么经解码子带可放置在解码器处与编码器处相同的位置中。如果抖动值在解码器处不可用,那么选定子带可根据选定(F0,d)对指示的均匀间隔而放置在解码器处。然而,对于通过从原始信号减去重建信号计算残差信号的情况,无抖动子带将不再与残差信号相位对准,且将重建信号加上此残差信号可产生破环性干扰。替代方法是将残差信号计算为未被谐波模型俘获的输入信号频谱的区(例如,未包含在选定子带中的那些频段)的级联。此方法可对于抖动参数不发射到解码器的译码应用尤其合乎需要。以此方式计算的残差具有小于输入信号的长度且可依据帧不同(例如,依据帧中子带的数目)而变化的长度。图19展示用以编码对应于音频信号帧的3. 5-7kHz频带的MDCT系数的方法MA100的应用的实例,其中此残差的区经标记。如本文所描述,可能需要使用脉冲译码方案(例如,阶乘脉冲译码)来编码此残差。
对于抖动参数值在解码器处不可用的情况,残差信号可使用若干不同方法中的一者插入在经解码子带之间。一个此类解码方法是在将残差信号中的每一抖动范围加到无抖动重建信号之前将所述每一抖动范围清零。对于如上文提及的抖动范围(+4,_3),举例来说,此方法将包含将残差信号的样本从(F0,d)对指示的子带的每一者的右侧的四个频段归零到所述子带的每一者的左侧的三个频段。尽管此方法可移除残差与无抖动子带之间的干扰,但其也可引起可能重要的信息的丢失。另一解码方法是插入残差以填充未被无抖动重建信号占据的频段(例如,无抖动重建子带之前、之后和之间的频段)。此方法有效移动残差的能量以适应重建子带的无抖动放置。图7展示此方法的一个实例,三条振幅与频率曲线A-C全部与同一水平频段尺度垂直对准。曲线A展示包含选定子带(虚线内的经填充点)和周围残差中的一些(空心点)的原始抖动放置的信号频谱的一部分。在展示无抖动子带的放置的曲线B中,可见子带的前两个频段现与含有能量的原始残差的一系列样本(曲线A中圈住的样本)重叠。曲线C展示以递增频率的次序使用级联残差来填充未被占据的频段的实例,这将残差的此样本系列放置在无抖动子带的另一侧上。另一解码方法是以在无抖动子带与残差信号之间的边界处维持MDCT频谱的连续性的方式插入残差。举例来说,此方法可包含压缩残差的在两个无抖动子带之间的区(或在第一子带之前或在最后子带之后)以便避免任一端或两端处的重叠。此压缩可例如通过使所述区发生频率翘曲以占据子带之间(或子带与范围边界之间)的区域来执行。类似地,此方法可包含扩展残差的在两个无抖动子带之间的区(或在第一子带之前或在最后子带之后)以便填充任一端或两端处的间隙。图8展示此实例,其中残差的在振幅与频率曲线A中的虚线之间的部分经扩展(例如,线性内插)以填充如振幅与频率曲线B所示的无抖动子带之间的间隙。可能需要使用脉冲译码方案来对残差信号译码,其通过使向量与单位脉冲的图案匹配且使用识别所述图案的索引来表示所述向量,来编码所述向量。此方案可例如经配置以编码残差信号中的单位脉冲的数目、位置和符号。图9展示此方法的实例,其中残差信号的一部分编码为单位脉冲的数目。在此实例中,每一维度的值由实线指示的三维向量由脉冲图案(0,0,-1,-1,+1,+2,-1,0,0,+1,-1,-1,+1,-1,+1,-1,-1,+2,-1,0,0,0,0,-1,+1,+1,0,0,0,0)表示,如点(脉冲位置处)和正方形(零值位置处)所指示。特定数目的单位脉冲的位置和符号可表示为码簿索引。例如如图9所示的脉冲的图案通常可由长度大大小于30位的码簿索引表示。脉冲译码方案的实例包含阶乘脉冲译码方案和组合脉冲译码方案。可能需要配置音频编解码器以分别对同一信号的不同频带进行译码。举例来说,可能需要配置此编解码器以产生编码音频信号的低频带部分的第一经编码信号和编码同一音频信号的高频带部分的第二经编码信号。其中此分离频带译码可能合乎需要的应用包含必须保持与窄带解码系统兼容的宽带编码系统。此应用还包含一般化音频译码方案,其通过支持针对不同频带使用不同译码方案而实现多种不同类型的音频输入信号(例如,语音和音乐两者)的有效译码。对于单独编码信号的不同频带的情况,有可能在一些情况下通过使用来自一个频带的经编码(例如,经量化)信息来增加另一频带中的译码效率,因为此经编码信息将在解码器处为已知的。举例来说,应用如本文所描述的谐波模型(例如,放松谐波模型)的原理可延伸为使用来自音频信号帧(也称为“参考”信号)的第一频带的变换系数的经解码表示的信息来编码同一音频信号帧(也称为“目标”信号)的第二频带的变换系数。对于谐波模型为相关的此情况,译码效率可增加,因为第一频带的经解码表示在解码器处已经可用。此延伸的方法可包含确定第二频带的与经译码第一频带谐波相关的子带。在针对音频信号(例如,复合音乐信号)的低位速率译码算法中,可能需要将经信号的帧分离为多个频带(例如,低频带和高频带)且利用这些频带之间的相关来对频带的变换域表示进行有效译码。在此延伸的特定实例中,基于帧的经量化低频带MDCT频谱(0_4kHz)来编码对应于音频信号帧的3. 5-7kHz频带(下文称为上频带MDCT或UB-MDCT)的MDCT系数。明确地注意到,在此延伸的其它实例中,两个频率范围无需重叠且甚至可分离(例如,基于来自0-4kHz频带的经解码表示的信息对帧的7-14kHz频带进行译码)。由于经译码窄带MDCT用作对UB-MDCT进行译码的参考,所以可在解码器处导出高频带译码模型的许多参数而不明确地需要其发射。图1OA 展示包含任务 TB100、TB200、TB300、TB400、TB500、TB600 和 TB700 的根据
一般配置的音频信号处理的方法MB100的流程图。任务TB100定位参考音频信号中的多个峰值(例如,音频信号的第一频率范围的经解量化表示)。任务TB100可实施为如本文描述的任务TA100的实例。对于使用方法MA100的实施方案编码参考音频信号的情况,可能需要配置任务TA100和TB100以使用(1_的相同值,但也可能配置两个任务以使用dmin的不同值。(然而,重要的是应注意,方法MB100通常为适用的,而不管用于产生经解码参考音频信号的特定译码方案如何。)基于由任务TB100定位的峰值的至少一些(即,至少三个)的频域位置,任务TB200计算参考音频信号中的某数目Nd2个谐波间隔候选者。Nd2的值的实例包含三个、四个和五个。任务TB20 0可经配置以将这些间隔候选者计算为由任务TB100定位的(Nd2+1)个最大峰值的邻近者之间的距离(例如,依据频段的数目)。基于由任务TB100定位的峰值的至少一些(S卩,至少两个)的频域位置,任务TB300识别参考音频信号中的某数目Nf2个R)候选者。Nf2的值的实例包含三个、四个和五个。任务TB300可经配置以将这些候选者识别为参考音频信号中的Nf2个最高峰值的位置。或者,任务TB300可经配置以将这些候选者识别为参考频率范围的低频部分(例如,较低30%、35%、40%、45%或50% )中的Nf2个最高峰值的位置。在一个此类实例中,任务TB300从0到1250Hz范围中的由任务TB100定位的峰值的位置中识别某数目Nf2个R)候选者。在另一此类实例中,任务TB300从0到1600Hz范围中的由任务TB100定位的峰值的位置中识别某数目Nf2个R)候选者。明确地注意到,方法MB100的所描述的实施方案的范围包含仅计算一个谐波间隔候选者的情况(例如,计算为最大两个峰值之间的距离,或指定频率范围内的最大两个峰值之间的距离),以及仅识别一个候选者的单独情况(例如,识别为最高峰值的位置,或指定频率范围内的最高峰值的位置)。对于多对有效的R)和d候选者的每一者,任务TB400选择目标音频信号的至少一个子带的集合(例如,音频信号的第二频率范围的表示),其中所述集合的每一子带在频域中的位置基于(FO,d)对。然而,与任务TA400相反,在此情况下,相对于位置R)m、R)m+d、R)m+2d等放置子带,其中通过将R)映射到目标音频信号的频率范围中来计算FOm的值。此映射可根据例如= F0+Ld等表达式来执行,其中L是最小整数使得FOm在目标音频信号的频率范围内。在此情况下,解码器可在无来自编码器的进一步信息的情况下计算L的相同值,因为目标音频信号的频率范围以及和d的值在解码器处是已知的。任务TB400可经配置以选择每一集合以包含对应(F0,d)对指示的位于输入范围内的所有子带。或者,任务TB400可经配置以针对所述集合的至少一者选择少于这些子带的全部。任务TB400可例如经配置以选择不多于所述集合的最大数目个子带。作为替代或另外,任务TB400可经配置以仅选择位于特定范围内的子带。举例来说,可能需要将任务TB400配置为选择数目不多于特定数目的在输入范围内的最低频率子带的一者或一者以上(例如,四个、五个或六个),和/或仅位置不在输入范围内的特定频率(例如,5000、5500或6000Hz)以上的子带。在一个实例中,任务TB400经配置以选择每一集合的子带使得第一子带在对应FOm位置处居中,每一后续子带的中心与前一子带的中心分离等于d的对应值的距离。FO和d的所有对不同值可认为是有效的,使得任务TB400经配置以针对每个可能的(F0,d)对选择一个或一个以上子带的对应集合。举例来说,对于Nf2和Nd2均等于4的情况,任务TB400可经配置以考虑16个可能对的每一者。或者,任务TB400可经配置以强加可能的(F0,d)对中的一些可能不能满足的活动准则。在此情况下,举例来说,任务TB400可经配置以忽略将产生多于最大可允许数目个子带的对(例如,和d的低值的组合),和/或将产生少于最小所要数目个子带的对(例如,FO和d的高值的组合)。对于多对FO和d候选者的每一者,任务TB500计算来自目标音频信号的一个或一个以上子带的对应集合的至少一个能量值。在一个此类实例中,任务TB500计算来自一个或一个以上子带的每一集合的能量值作为所述子带集合的总能量(例如,作为子带中的频域样本值的平方量值之和)。作为替代或另外,任务TB500可经配置以计算来自每一子带集合的能量值作为每一个别子带的能量,且/或计算来自每一子带集合的能量值作为所述子带集合的每子带的平均能量(例如,子带数目上正规化的总能量)。任务TB500可经配置以针对与任务TB400相同的多对的每一者或针对少于所述多对执行。举例来说,对于任务TB400经配置以针对每一可能(F0,d)对选择子带集合的情况,任务TB500可经配置以计算仅满足指定活动准则的对的能量值(例如,以忽略将产生太多子带的对和/或将产生太少子带的对,如上文描述)。在另一实例中,任务TB400经配置以忽略将产生太多子带的对,且任务TB500经配置以还忽略将产生太少子带的对。尽管图1OA展示任务TB400和TB500连续的执行,但将理解,任务TB500也可经实施以在任务TB400已完成之前开始计算子带集合的能量。举例来说,任务TB500可经实施以在任务TB400开始选择下一子带集合之前计算(或甚至完成计算)来自子带集合的能量值。在一个此类实例中,任务TB400和TB500经配置以针对所述多对有效和d候选者的每一者交替。同样,任务TB400也可经实施以在任务TB200和TB300已完成之前开始执行。基于来自至少一个子带的集合的至少一些的所计算的能量值,任务TB600从(F0,d)候选者对中选择一候选者对。在一个实例中,任务TB600选择对应于具有最高总能量的子带集合的对。在另一实例中,任务TB600选择对应于具有每子带最高平均能量的子带集合的候选者对。在另一实例中,任务TB600实施为任务TA602(例如,如图1B所示)的实例。图1OB展示包含任务TB700的方法MB100的实施方案MBllO的流程图。任务TB700产生包含选定候选者对的值的指示的经编码信号。任务TB700可经配置以编码R)的选定值,或编码的选定值与最小(或最大)位置的偏移。类似地,任务TB700可经配置以编码d的选定值,或编码d的选定值与最小或最大距离的偏移。在特定实例中,任务TB700使用六个位来编码选定值,以及六个位来编码选定d值。在另一实例中,任务TB700可经实施以差分编码和/或d的当前值(例如,作为相对于参数的前一值的偏移)。可能需要实施任务TB700以使用VQ译码方案(例如,GSVQ)将选定子带集合编码为向量。可能需要使用GSVQ方案,所述GSVQ方案包含预测性增益译码使得独立于彼此且相对于前一帧的对应增益因子差分编码每一子带集合的增益因子。在特定实例中,方法MBllO经布置以在UB-MDCT频谱的频率范围中编码显著能量区。因为参考音频信号在解码器处可用,所以也可在解码器处执行任务TB100、TB200和TB300以获得来自相同参考音频信号的相同数目(或“码簿”)Nf2个R)候选者以及相同数目(“码簿”)Nd2个d候选者。可例如以递增值的次序分类每一码簿中的值。因此,编码器将索引发射到这些经排序躲多者中的每一者中已足够,而非编码选定(F0,d)对的实际值。对于Nf2和Nd2均等于4的特定实例,任务TB700可经实施以使用二位码簿索引来指示选定d值以及另一二位码簿索引来指示选定值。解码由任务TB700产生的经编码目标音频信号的方法还可包含选择通过索引指示的和d的值,对选定的子带集合解量化,计算映射值m,以及通过将每一子带p放置(例如,居中)在频域位置F0m+pd处来构成经解码目标音频信号,其中0<=p<P且P是选定集合中的子带数目。可向经解码目标信号的未被占据频段指派零值或如本文描述的经解码残差的值。类似于任务TA400,任务TB400可经实施为如上文描述的任务TA402的重复实例,只是如上文所描述,的每一值首先映射到H)m。在此情况下,任务TA402经配置以针对待评估的每一候选者对执行一次,且能够存取目标信号中的峰值的位置的列表,其中所述列表以样本值的递减次序分类。为产生此列表,方法MB100还可包含类似于任务TB100的峰值拾取任务(例如,任务TB100的另一实例),其经配置以对目标信号而非对参考信号操作。图11展示其中目标音频信号为表示3. 5-7kHz的音频频谱的140个变换系数的UB-MDCT信号的实例的量值与频率的曲线。此图展示目标音频信号(灰线)、根据(F0,d)候选者对选择的间隔的子带(由以灰色且通过括弧描绘的框指示),以及根据(F0,d)对和峰值居中准则选择的五个抖动子带的集合(由黑体描绘的框指示)。如此实例中所示,可从已转化为较低取样速率或出于译码目的以其它方式移位以在频段0或I处开始的高频带信号计算UB-MDCT频谱。在此情况下,FOm的每一映射还包含移位以指示经移位频谱内的适当频率。在特定实例中,目标音频信号的UB-MDCT频谱的第一频段对应于参考音频信号的LB-MDCT频谱的频段140(例如,表示3. 5kHz下的声内容),使得任务TA400可经实施以根据例如R)m = F0+Ld-140等表达式将每一 R)映射到对应的R)m。对于使用如本文描述的放松谐波模型编码参考音频信号的情况,相同抖动边限(例如,至多右侧四个频段且至多左侧三个频段)可用于使用放松谐波模型编码目标信号,或不同抖动边限可用于一侧或两侧上。对于每一子带,可能需要在可能的情况下选择使峰值在子带内居中的抖动值,或在无此抖动值可用的情况下选择使峰值部分居中的抖动值,或在无此抖动值可用的情况下,选择使子带俘获的能量最大化的抖动值。在一个实例中,任务TB400经配置以选择影响目标信号中(例如,UB-MDCT频谱)的每子带的最大能量的(F0,d)对。能量影响还可用作在居中或部分居中的两个或两个以上抖动候选者之间决策的量度(例如,如上文参看任务TA430所描述)。抖动参数值(例如,每一子带一个)可发射到解码器。如果抖动值不发射到解码器,那么谐波模型子带的频率位置中可能出现误差。对于表示高频带音频范围(例如,3.5-7kHz范围)的目标信号,此误差通常不可感知,使得可能需要根据选定抖动值编码子带而非将那些抖动值发送到解码器,且子带可在解码器处均匀间隔(例如,仅基于选定(F0,d)对)。对于音乐信号的极低位速率译码(例如,约每秒20千位),举例来说,可能需要不发射抖动参数值且允许解码器处子带位置中的误差。在已识别选定子带集合之后,可在编码器处通过从原始目标信号频谱减去重建目标信号来计算残差信号(例如,作为原始目标信号频谱与重建谐波模型子带之间的差)。或者,残差信号可计算为目标信号频谱的未被谐波建模俘获的区的级联(例如,不包含在选定子带中的那些频段)。对于目标音频信号为UB-MDCT频谱且参考音频信号为重建LB-MDCT频谱的情况,可能需要通过使未被俘获区级联来获得残差,对于用于编码目标音频信号的抖动值在解码器处将不可用的情况尤其如此。可使用向量量化方案(例如,GSVQ方案)来对选定子带译码,且可使用阶乘脉冲译码方案或组合脉冲译码方案来对残差信号译码。如果抖动参数值在解码器处可用,那么可将残差信号放回到解码器处的与编码器处相同的频段中。如果抖动参数值在解码器处不可用(例如,对于音乐信号的低位速率译码),那么可根据基于如上文描述的选定(F0,d)对的均匀间隔将选定子带放置在解码器处。在此情况下,残差信号可使用如上文描述的若干不同方法的一者(例如,在将残差中的每一抖动范围加到无抖动重建信号之前将所述每一抖动范围清零,使用残差来填充未被占据频段同时移动将与选定子带重叠的残差能量,或使残差发生频率翘曲)插入在选定子带之间。图12A展不根据一般配置的用于音频信号处理的设备MF100的框图。设备MF100包含用于在频域中定位音频信号中的多个峰值(例如,如本文参看任务TA100所描述)的装置FA100。设备MF100还包含用于计算某数目Nd个谐波间隔(d)候选者(例如,如本文参看任务TA200所描述)的装置FA200。设备MF100还包含用于识别某数目Nf个基频(FO)候选者(例如,如本文参看任务TA300所描述)的装置FA300。设备MF100还包含用于针对多个不同(F0,d)对的每一者选择位置基于所述对的音频信号的子带集合(例如,如本文参看任务TA400所描述)的装置FA400。设备MF100还包含用于针对所述多个不同(F0,d)对的每一者计算对应的子带集合的能量(例如,如本文参看任务TA500所描述)的装置FA500。设备MF100还包含用于基于所计算的能量选择候选者对(例如,如本文参看任务TA600所描述)的装置FA600。图13A展示设备MF100的实施方案MFllO的框图,所述设备MF100包含用于产生包含选定候选者对的值的指示的经编码信号(例如,如本文参看任务TA700所描述)的装置FA700。图12B展不根据另 般配置的用于音频信号处理的设备AlOO的框图。设备AlOO包含频域峰值定位器100,其经配置以在频域中定位音频信号中的多个峰值(例如,如本文参看任务TAlOO所描述)。设备AlOO还包含距离计算器200,其经配置以计算某数目Nd个谐波间隔(d)候选者(例如,如本文参看任务TA200所描述)。设备AlOO还包含基频候选者选择器300,其经配置以识别某数目Nf个基频(FO)候选者(例如,如本文参看任务TA300所描述)。设备AlOO还包含子带放置选择器400,其经配置以针对多个不同(F0,d)对的每一者选择位置基于所述对的音频信号的子带集合(例如,如本文参看任务TA400所描述)。设备AlOO还包含能量计算器500,其经配置以针对所述多个不同(F0,d)对的每一者计算对应的子带集合的能量(例如,如本文参看任务TA500所描述)。设备AlOO还包含候选者对选择器600,其经配置以基于所计算的能量选择候选者对(例如,如本文参看任务TA600所描述)。明确地注意到,设备AlOO还可经实施使得其各个元件经配置以执行如本文描述的方法MB100的对应任务。图13B展示包含量化器710和位打包器720的设备AlOO的实施方案AllO的框图。量化器710经配置以编码选定子带集合(例如,如本文参看任务TA700所描述)。举例来说,量化器710可经配置以使用GSVQ或其它VQ方案将子带编码为向量。位打包器720经配置以编码选定候选者对的值(例如,如本文参看任务TA700所描述)且将选定候选者值的这些指示与经量化子带打包在一起以产生经编码信号。对应的解码器可包含位拆包器,其经配置以将经量化子带拆包且解码候选者值;解量化器,其经配置以产生经解量化的子带集合;以及子带放置器,其经配置以将经解量化子带放置在频域中基于经解码候选者值的位置处(例如,如本文参看任务TD300所描述),且可能还放置对应的残差以产生经解码信号。明确地注意到,设备AllO还可经实施使得其各个元件经配置以执行如本文描述的方法MBllO的对应任务。图14展示根据一般配置的用于音频信号处理的设备MF210的框图。设备MF210包含用于在频域中定位参考音频信号中的多个峰值(例如,如本文参看任务TB100所描述)的装置FB100。设备MF210还包含用于计算某数目Nd2个谐波间隔(d)候选者(例如,如本文参看任务TB200所描述)的装置FB200。设备MF210还包含用于识别某数目Nf2个基频(FO)候选者(例如,如本文参看任务TB300所描述)的装置FB300。设备MF210还包含用于针对多个不同(F0,d)对的每一者选择位置基于所述对的目标音频信号的子带集合(例如,如本文参看任务TB400所描述)的装置FB400。设备MF210还包含用于针对所述多个不同(F0,d)对的每一者计算对应的子带集合的能量(例如,如本文参看任务TB500所描述)的装置FB500。设备MF210还包含用于基于所计算的能量选择候选者对(例如,如本文参看任务TB600所描述)的装置FB600。设备MF210还包含用于产生包含选定候选者对的值的指示的经编码信号(例如,如本文参看任务TB700所描述)的装置FB700。对于使用谐波模型编码参考信号(例如,低频带频谱)的情况(例如,方法MA100的实例),可能需要对目标信号(例如,高频带频谱)执行MA100的实例,而非方法MB100的实例。换句话说,可能需要独立于高频带频谱估计和d的高频带值,而非与方法MB100一样从低频带值映射H)。在此情况下,可能需要将和d的上频带值发射到解码器,或者发射的低频带与高频带值之间的差以及d的低频带与高频带值之间的差(也称为高频带模型参数的“参数级预测”)。高频带参数的此独立估计可与从经解码低频带频谱预测参数(也称为“信号级预测”)相比具有误差恢复方面的优点。在一个实例中,使用自适应差分脉冲代码调制(ADPCM)方案来编码谐波低频带子带的增益,所述方案使用来自前两个帧的信息。因此,如果连续先前谐波低频带帧丢失,那么解码器处的子带增益可不同于编码器处的子带增益。如果在此情况下使用从经解码低频带频谱进行的高频带谐波模型参数的信号级预测,那么最大峰值可在编码器与解码器处不同。此差异可导致解码器处对和d的不正确估计,从而可能产生完全错误的高频带经解码结果。图15A说明方法MBl 10对编码目标信号的应用的实例,所述目标信号可在LPC残差域中。在左手路径中,任务SlOO执行整个目标信号频谱的脉冲译码(其可包含对脉冲译码操作的残差执行方法MAioo或MB100的实施方案)。在右手路径中,使用方法MBllO的实施方案来编码目标信号。在此情况下,任务TB700可经配置以使用VQ方案(例如,GSVQ)编码选定子带,且使用脉冲译码方案编码残差。任务S200评估译码操作的结果(例如,通过解码两个经编码信号,且将经解码信号与原始目标信号进行比较)且指示哪一译码模式当前较适宜。图15B展示谐波模型编码系统的框图,其中输入信号为MDCT频谱(其可在LPC残差域中)的高频带(上频带,“UB”),且参考信号为重建的LB-MDCT频谱。在此实例中,任务SlOO的实施方案SllO使用脉冲译码方法(例如,阶乘脉冲译码(FPC)方法或组合脉冲译码方法)来编码目标信号。从帧的经量化LB-MDCT频谱获得参考信号,所述帧可能已使用谐波模型、依据先前经编码帧的译码模型、使用固定子带的译码方案或某一其它译码方案来编码。换句话说,方法MBllO的操作独立于用于编码参考信号的特定方法。在此情况下,方法MBllO可经实施以使用变换代码编码子带增益,且可基于经译码增益以及LPC分析的结果计算经分配用于量化形状向量的位的数目。将由方法MBllO产生(例如,使用GSVQ来编码通过谐波模型选择的子带)的经编码信号与由任务SllO产生(例如,仅使用脉冲译码,例如FPC)的经编码信号进行比较,且任务S200的实施方案S210根据感知度量(例如,LPC加权信噪比度量)选择帧的最佳译码模式。在此情况下,方法MB100可经实施以基于子带和残差增益计算针对GSVQ的位分配和残差编码。译码模式选择(例如,如图15A和15B所示)可延伸到多频带情况。在一个此类实例中,使用独立译码模式(例如,GSVQ或脉冲译码模式)和谐波译码模式(例如,方法MA100或MB100)两者来编码低频带和高频带的每一者,使得为所述帧初始考虑四个不同模式组合。在此情况下,可能需要通过从如本文描述的原始信号减去经解码子带来计算低频带谐波译码模式的残差。接下来,针对低频带模式的每一者,选择最佳对应高频带模式(例如,根据使用高频带上的感知度量(例如,LPC加权度量)的两个选项之间的比较)。在两个剩余选项(即,低频带独立模式和对应的最佳高频带模式,以及低频带谐波模式和对应的最佳高频带模式)中,参考涵盖低频带和高频带两者的感知度量(例如,LPC加权感知度量)作出这些选项之间的选择。在此多频带情况的一个实例中,低频带独立模式使用GSVQ来编码固定子带集合,且高频带独立模式使用脉冲译码方案(例如,阶乘脉冲译码)来编码高频带信号。图16A-E展示如本文描述的设备AllO (或MFllO或MF210)的各个实施方案的多种应用。图16A展示包含变换模块MMl (例如,快速傅里叶变换或MDCT模块)的音频处理路径的框图,以及经布置以在变换域中(即,作为变换域系数)接收音频帧SAlO作为样本且产生对应的经编码帧SElO的设备AllO (或MFllO或MF210)的实例。
图16B展示图16A的路径的实施方案的框图,其中使用MDCT变换模块实施变换模块丽I。经修改模块丽10对每一音频帧执行MDCT操作以产生MDCT域系数的集合。图16C展示包含线性预测译码分析模块AMlO的图16A的路径的实施方案的框图。线性预测译码(LPC)分析模块AMlO对经分类帧执行LPC分析操作以产生LPC参数集合(例如,滤波系数)和LPC残差信号。在一个实例中,LPC分析模块AMlO经配置以对具有0到4000Hz带宽的帧执行第十阶LPC分析。在另一实例中,LPC分析模块AMlO经配置以对表示3500到7000Hz的高频带频率范围的帧执行第十六阶LPC分析。经修改DCT模块丽10对LPC残差信号执行MDCT操作以产生变换域系数的集合。对应的解码路径可经配置以解码经编码帧SElO且对经解码帧执行反向MDCT变换以获得激励信号以供输入到LPC合成滤波器。图16D展示包含信号分类器SClO的处理路径的框图。信号分类器SClO接收音频信号的帧SAlO且将每一帧分类为至少两个类别的一者。举例来说,信号分类器SAlO可经配置以将帧SAlO分类为语音或音乐,使得如果所述帧被分类为音乐,那么使用图16D所示的路径的其余部分来编码所述帧,且如果所述帧被分类为语音,那么使用不同处理路径来编码所述帧。此分类可包含信号活动检测、噪声检测、周期性检测、时域稀疏度检测和/或频域稀疏度检测。图17A展示可由信号分类器SClO (例如,在音频帧SAlO的每一者上)执行的信号分类的方法MC100的框图。方法MC100包含任务TC100、TC200、TC300、TC400、TC500和TC600。任务TC100量化信号中的活动水平。如果活动水平低于阈值,那么任务TC200将信号编码为静寂(例如,使用低位速率噪声激励线性预测(NELP)方案和/或不连续发射(DTX)方案)。如果活动水平足够高(例如,在阈值以上),那么任务TC300量化信号的周期性程度。如果任务TC300确定信号无周期性,那么任务TC400使用NELP方案编码信号。如果任务TC300确定信号具有周期性,那么任务TC500量化信号在时域和/或频域中的的稀疏度。如果任务TC500确定信号在时域中为稀疏的,那么任务TC600使用代码激励线性预测(CELP)方案(例如,放松CELP(RCELP)或代数CELP(ACELP))来编码信号。如果任务TC500确定信号在频域中为稀疏的,那么任务TC700使用谐波模型(例如,通过将信号传递到图16D中的处理路径的其余部分)编码信号。如图16D所示,处理路径可包含感知修剪模块PM10,其经配置以通过应用例如时间遮蔽、频率遮蔽和/或听觉阈值等心理声学准则来简化MDCT域信号(例如,以减少待编码的变换域系数的数目)。模块PMlO可经实施以通过将感知模型应用于原始音频帧SAlO而计算此准则的值。在此实例中,设备Al 10 (或MFl 10或MF210)经布置以编码经修剪帧以产生对应的经编码帧SElO。图16E展示图AIC和AID的路径两者的实施方案的框图,其中设备AllO (或MF110或MF210)经布置以编码LPC残差。图17B展示包含设备AlOO的实施方案的通信装置DlO的框图。装置DlO包含芯片或芯片组CSlO (例如,移动台调制解调器(MSM)芯片组),其体现设备Al 10 (或MFl 10或MF210)的元件。芯片/芯片组CSlO可包含一个或一个以上处理器,其可经配置以执行设备AlOO或MF100的软件和/或固件部分(例如,作为指令)。芯片/芯片组CSlO包含接收器,其经配置以接收射频(RF)通信信号且解码并重新产生RF信号内编码的音频信号;以及发射器,其经配置以发射描述经编码音频信号(例如,如由任务TA700或TB700产生)的RF通信信号。此装置可经配置以经由一个或一个以上编码和解码方案(也称为“编解码器”)以无线方式发射和接收声音通信数据。此类编解码器的实例包含增强型可变速率编解码器,如标题为“用于宽带展频数字系统的增强型可变速率编解码器,语音服务选项3、68和70” (2007年2月,在www-dot-3gPP-dot-org可在线获得)的第三代合作伙伴计划2 (3GPP2)文献C. S0014-C版本1. 0中所描述;可选模式声码器语音编解码器,如标题为“用于宽带展频通信系统的可选模式声码器(SMV)服务选项”(2004 年 I 月,在 www-dot-3gPP-dot-org 可在线获得)的 3GPP2 文献 C. S0030-0 版本3.0中所描述;自适应多速率(AMR)语音编解码器,如文献ETSI TS 126 092版本6.0. 0(欧洲电信标准协会(ETSI),法国索菲亚-安提波利斯高等商学院,2004年12月)中所描述;以及AMR宽带语音编解码器,如文献ETSI TS 126 192版本6. 0. 0 (ETSI,2004年12月)中所描述。装置DlO经配置以经由天线C30接收和发射RF通信信号。装置DlO还可包含到天线C30的路径中的同向双工器以及一个或一个以上功率放大器。芯片/芯片组CSlO还经配置以经由小键盘ClO接收用户输入且经由显示器C20显示信息。在此实例中,装置DlO还包含一个或一个以上天线C40以支持全球定位系统(GPS)位置服务和/或与例如无线(例如,Bluetooth )手持机等外部装置的短程通信。在另一实例中,此通信装置本身是BluetoothTM手持机且缺少小键盘C10、显示器C20和天线C30。通信装置DlO可体现在多种通信装置中,包含智能电话以及膝上型计算机和平板计算机。图18展示具有布置在前面上的两个声音麦克风MV10-1和MV10-3、布置在后面上的声音麦克风MV10-2、位于前面的顶部隅角中的误差麦克风MElO和位于背面上的噪声参考麦克风MRlO的手持机HlOO (例如,智能手机)的前视图、后视图和侧视图。扬声器LSlO布置在前面的顶部中心处在误差麦克风MElO附近,且还提供两个其它扬声器LS20L、LS20R(例如,用于喇叭扩音器应用)。此手持机的麦克风之间的最大距离通常约10或12厘米。本文揭示的方法和设备可通常应用于任何收发和/或音频感测应用中,尤其是此类应用的移动或其它便携实例。举例来说,本文揭示的配置的范围包含驻留在经配置以采用码分多址(CDMA)空中接口的无线电话通信系统中的通信装置。然而,所属领域的技术人员将理解,具有本文中所描述的特征的方法及设备可驻留于采用所属领域的技术人员所已知的广泛范围的技术的任何各种通信系统中,例如经由有线及/或无线(例如,CDMA、TDMA、FDMA及/或TD-SCDMA)传输信道采用IP语音(“VoIP”)的系统。明确地预期且在此揭示,本文揭示的通信装置可适于用于包交换(例如,经布置以携载根据例如VoIP等协议的音频发射的有线和/或无线网络)和/或电路交换的网络中。还明确地预期且在此揭示,本文揭示的通信装置可适于用于窄带译码系统(例如,编码约4或5千赫的音频范围的系统)中和/或适于用于宽带译码系统(例如,编码大于5千赫的音频的系统)中,包含完整频带宽带译码系统和分离频带宽带译码系统。提供所描述的配置的呈现以使所属领域的任何技术人员能够制造或使用本文揭示的方法和其它结构。本文展示和描述的流程图、框图和其它结构仅为实例,且这些结构的其它变型也在本发明的范围内。对这些配置的各种修改是可能的,且本文中所呈现的一般原理还可应用于其它配置。因此,本发明不希望限于上文所展示的配置,而是应符合与在本文中(包括在所申请的附加权利要求书中)以任何方式揭示的原理及新颖特征一致的最广范围,所述权利要求书形成原始揭示内容的一部分。所属领域的技术人员将理解,可使用多种不同技术和技艺中的任一者来表示信息和信号。举例来说,可通过电压、电流、电磁波、磁场或磁性粒子、光场或光学粒子或者其任何组合来表示可在整个以上描述中所参考的数据、指令、命令、信息、信号、位及符号。对于如本文揭示的配置的实施方案的重要设计要求可包含使处理延迟和/或计算复杂性(通常以每秒百万条指令或MIPS测量)最小化,尤其对于计算量大的应用,例如经压缩音频或视听信息(例如,根据压缩格式编码的文件或流,例如本文识别的实例的一者)的重放,或针对宽带通信的应用(例如,高于8千赫的取样速率下的声音通信,例如12、16,44. 1、48 或 192kHz)。如本文揭示的设备(例如,设备A100、A110、MF100、MF110或MF210)可实施在硬件与软件和/或与固件的被认为适于既定应用的任何组合中。举例来说,此类元件可被制造为驻留于(例如)同一芯片或芯片组中的两个或两个以上芯片中的电子及/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)阵列,且这些元件中的任一者可实施为一个或一个以上此类阵列。这些元件中的任何两者或两者以上乃至全部可实施于相同阵列内。所述阵列可实施于一个或一个以上芯片内(例如,包括两个或两个以上芯片的芯片组内)。本文揭示的设备(例如,设备A100、A110、MF100、MF110或MF210)的各个实施方案的一个或一个以上元件可整体或部分实施为经布置以执行逻辑元件的一个或一个以上固定或可编程阵列的一个或一个以上指令集合,所述逻辑元件例如微处理器、内嵌式处理器、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路)。如本文揭示的设备的实施方案的各个元件的任一者也可体现为一个或一个以上计算机(例如,包含经编程以执行指令的一个或一个以上集合或序列的一个或一个以上阵列的机器,也称为“处理器”),且这些元件中的任何两者或两者以上乃至全部可实施在相同此类计算机内。如本文揭示的处理器或其它处理装置可制造为例如驻留在芯片组中的同一芯片上或两个或两个以上芯片之间的一个或一个以上电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或逻辑门)阵列,且这些元件中的任一者可实施为一个或一个以上此类阵列。所述阵列可实施于一个或一个以上芯片内(例如,包括两个或两个以上芯片的芯片组内)。此类阵列的实例包含例如微处理器、内嵌式处理器、IP核心、DSP、FPGA, ASSP和ASIC等逻辑元件的固定或可编程阵列。如本文揭示的处理器或其它处理装置还可体现为一个或一个以上计算机(例如,包含经编程以执行指令的一个或一个以上集合或序列的一个或一个以上阵列的机器)或其它处理器。如本文描述的处理器可能用于执行任务或执行与方法MA100、MAI10、MB100、MBllO或MD100的实施方案的程序不直接相关的其它指令集合,例如与处理器所内嵌于的装置或系统(例如,音频感测装置)的另一操作相关的任务。如本文揭示的方法的一部分还可能由音频感测装置的处理器执行,或所述方法的另一部分还可能在一个或一个以上其它处理器的控制下执行。技术人员将了解,结合本文揭示的配置描述的各种说明性模块、逻辑块、电路和测试以及其它操作可实施为电子硬件、计算机软件或两者的组合。此类模块、逻辑块、电路和操作可利用通用处理器、数字信号处理器(DSP)、ASIC或ASSP,FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件,或经设计以产生如本文揭示的配置的其任何组合实施或执行。举例来说,此配置可至少部分实施为硬连线电路,实施为制造到专用集成电路中的电路配置,或实施为加载到非易失性存储装置中的固件程序,或作为机器可读代码从数据存储媒体加载或加载到数据存储媒体中的软件程序,此代码为可由例如通用处理器或其它数字信号处理单元等逻辑元件的阵列执行的指令。通用处理器可为微处理器,但在替代例中,处理器可为任何常规的处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器的组合、一个或一个以上微处理器与DSP核心的联合,或任何其它此配置。软件模块可驻留在例如RAM(随机存取存储器)、ROM(只读存储器)、例如快闪RAM等非易失性RAM(NVRAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可拆卸盘或CD-ROM等非瞬时存储媒体中;或驻留在此项技术中已知的任何其它形式的存储媒体中。说明性存储媒体耦合到处理器,使得处理器可从存储媒体读取信息和将信息写入到存储媒体。在替代方案中,存储媒体可与处理器成一体式。处理器及存储媒体可驻留于ASIC中。ASIC可驻留于使用者终端中。在替代例中,处理器及存储媒体可作为离散组件驻留于用户终端中。注意到,本文揭示的各种方法(例如,方法嫩100、嫩110、]\^100、]\^110或1 100)可由例如处理器等逻辑元件的阵列执行,且如本文描述的设备的各个元件可实施为经设计以执行此阵列的模块,。如本文所使用,术语“模块”或“子模块”可指代包含呈软件、硬件或固件形式的计算机指令(例如,逻辑表达)的任何方法、设备、装置、单元或计算机可读数据存储媒体。应了解,多个模块 或系统可组合为一个模块或系统,且一个模块或系统可被分离成多个模块或系统以执行相同功能。当以软件或其它计算机可执行指令实施时,过程的要素本质上为用以执行例如与例程、程序、对象、组件、数据结构等有关的任务的代码段。术语“软件”应理解为包括源代码、汇编语言代码、机器代码、二进制代码、固件、宏码、微码、可由逻辑元件阵列执行的任何一个或一个以上指令集或序列以及此类实例的任何组合。程序或代码段可存储于处理器可读媒体中或由包含在载波中的计算机数据信号经由传输媒体或通信链路传输。本文揭示的方法、方案和技术的实施方案还可有形地体现(例如,在如本文列举的一个或一个以上计算机可读存储媒体的有形计算机可读特征中)为可由包含逻辑元件(例如,处理器、微处理器,或其它有限状态机)的阵列的机器执行的一个或一个以上指令集合。术语“计算机可读媒体”可包含可存储或传递信息的任何媒体,包含易失性、非易失性、可拆卸和不可拆卸存储媒体。计算机可读媒体的实例包含电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软性磁盘或其它磁性存储装置、CD-R0M/DVD或其它光学存储装置、硬盘或可用于存储所要信息的任何其它媒体,光纤媒体、射频(RF)链路,或可用于携载所要信息且可被存取的任何其它媒体。计算机数据信号可包括可经由传输媒体(例如电子网络通道、光纤、空气、电磁、RF链路等)传播的任何信号。代码段可经由例如因特网或企业内部网络等计算机网络来下载。在任何情况下,本发明的范围不应被解释为受此些实施例限制本文描述的方法的任务的每一者可直接体现在硬件中,体现在由处理器执行的软件模块中,或体现在两者的组合中。在如本文揭示的方法的实施方案的典型应用中,逻辑元件(例如,逻辑门)的阵列经配置以执行所述方法的各个任务的一者、一者以上乃至全部。所述任务中的一者或一者以上(可能所有)还可实施为在计算机程序产品(例如,一个或一个以上数据存储媒体,例如磁盘、快闪或其它非易失性存储卡、半导体存储器芯片等)中体现的代码(例如,一个或一个以上指令集),所述计算机程序产品可由包括逻辑元件的阵列(例如,处理器、微处理器、微控制器或其它有限状态机)的机器(例如,计算机)读取且/或执行。如本文揭示的方法的实施方案的任务还可由一个以上此类阵列或机器执行。在这些或其它实施方案中,所述任务可在用于无线通信的装置内执行,所述装置例如为蜂窝式电话或具有此通信能力的其它装置。此装置可经配置以与电路交换及/或包交换网络通信(例如,使用一个或一个以上协议(例如VoIP))。举例来说,此装置可包含经配置以接收和/或发射经编码帧的RF电路。明确地揭示,本文揭示的各种方法可由例如手持机、头戴式耳机或便携式数字助理(PDA)等便携式通信装置执行,且本文描述的各种设备可包含在此装置内。典型的实时(例如,在线)应用是使用此类移动装置进行的电话会话。在一个或一个以上示范性实施例中,本文描述的操作可实施在硬件、软件、固件或其任何组合中,如果实施在软件中,那么此类操作可作为一个或一个以上指令或代码存储在计算机可读媒体上或在计算机可读媒体上发射。术语“计算机可读媒体”包含计算机可读存储媒体和通信(例如,发射)媒体两者。借助实例且非限制,计算机可读存储媒体可包括存储元件的阵列,所述存储元件例如半导体存储器(其可包含但不限于动态或静态RAM、R0M、EEPR0M和/或快闪RAM)或铁电、磁阻、双向开关半导体、聚合物或相变存储器;CD_R0M或其它光盘存储装置;和/或磁盘存储装置或其它磁性存储装置。此存储媒体可存储可由计算机存取的指令或数据结构形式的信息。通信媒体可包括可用于携载指令或数据结构形式的所要程序代码且可由计算机存取的任何媒体,包含促进将计算机程序从一处传递到另一处的任何媒体。同样,可恰当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波的无线技术从网站、服务器或其它远程源传输软件,则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波的无线技术包括于媒体的定义中。如本文中所使用,磁盘及光盘包括压缩光盘(⑶)、激光光盘、光盘、数字通用光盘(DVD)、软盘及Blu-ray Disc (蓝光光盘协会,加利福尼亚州大学城(Universal City, CA)),其中磁盘通常以磁性方式再生数据,而光盘用激光以光学方式再生数据。上文的组合也应包括在计算机可读媒体的范围内。 如本文描述的声信号处理设备可并入到电子装置中,所述电子装置接受语音输入以便控制某些操作或可另外从所要噪声与背景噪声的分离受益(例如,通信装置)。许多应用可从增强清晰的所要声音或将清晰的所要声音与源自多个方向的背景声音分离而受益。此些应用可包括电子或计算装置中的人机接口,其并入有例如话音辨识及检测、语音增强及分离、话音激活式控制等能力。可能需要实施在仅提供有限处理能力的装置中适宜的此声信号处理设备。本文描述的模块、元件和装置的各个实施方案的元件可制造为驻留在例如芯片组中的同一芯片上或两个或两个以上芯片之间的电子和/或光学装置。此装置的一个实例为固定或可编程逻辑元件(例如,晶体管或门)的阵列。本文中所描述的设备的各种实施方案的一个或一个以上元件还可全部地或部分地实施为经布置以在一个或一个以上固定或可编程逻辑元件阵列(例如,微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP及ASIC)上执行的一个或一个以上指令集。有可能使如本文中所描述的设备的实施方案的一个或一个以上元件用于执行并非与所述设备的操作直接相关的任务或其它指令集,例如与嵌入有所述设备的装置或系统的另一操作相关的任务。还有可能使此设备的实施方案的一个或一个以上元件具有共同结构(例如,用于在不同时间执行对应于不同元件的代码部分的处理器、经执行以在不同时间执行对应于不同元件的任务的指令集,或在不同时间对不同元件执行操作的电子及/或光学装置的布置)。
权利要求
1.一种音频信号处理方法,所述方法包括 在频域中定位參考音频信号中的多个峰值; 选择谐波模型的基频的某数目Nf个候选者,每ー候选者基于所述频域中所述多个峰值的对应ー者的位置; 基于所述频域中所述多个峰值的至少两者的所述位置计算所述谐波模型的谐波之间的间隔的某数目Nd个候选者; 针对多对不同的所述基频和谐波间隔候选者的每ー者选择目标音频信号的至少ー个子带的集合,其中所述集合中每一子带在所述频域中的位置基于所述对候选者; 针对所述多对不同候选者的每ー者计算来自所述目标音频信号的至少ー个子带的所述对应集合的能量值;以及 基于至少多个所述所计算的能量值从所述多对不同候选者中选择ー对候选者, 其中所述数目Nf和Nd中的至少ー者具有大于I的值。
2.根据权利要求1所述的方法,其中所述目标音频信号是所述參考音频信号。
3.根据权利要求1所述的方法,其中所述參考音频信号表示音频信号的第一频率范围,且 其中所述目标音频信号表示所述音频信号的与所述第一频率范围不同的第二频率范围。
4.根据权利要求3所述的方法,其中所述方法包含将所述数目Nf个基频候选者映射到所述第二频率范围中。
5.根据权利要求1所述的方法,其中所述方法包含对所述对选定候选者所指示的至少一个子带的所述集合执行增益形状向量量化操作。
6.根据权利要求1所述的方法,其中所述选择至少ー个子带包括选择子带的集合,且其中所述计算来自所述对应子带集合的能量值包含计算每子带的平均能量。
7.根据权利要求1所述的方法,其中所述计算来自所述对应子带集合的能量值包含计算至少一个子带的所述集合所俘获的总能量。
8.根据权利要求1所述的方法,其中所述目标音频信号基于线性预测译码残差。
9.根据权利要求1所述的方法,其中所述目标音频信号是多个经修改离散余弦变换系数。
10.根据权利要求1所述的方法,其中所述选择至少ー个子带的集合包含针对至少ー个子带的所述集合的至少ー者的每ー者在參考位置的指定范围内寻找所述子带所俘获的所述能量为最大时所述子带所处的位置,其中所述參考位置基于所述候选者对。
11.根据权利要求1所述的方法,其中所述选择至少ー个子带的集合包含针对至少ー个子带的所述集合的至少ー者的每ー者在參考位置的指定范围内寻找所述子带内具有最大值的样本在所述子带内居中时所述子带所处的位置,其中所述參考位置基于所述候选者对。
12.根据权利要求1所述的方法,其中针对所述多对不同候选者的至少ー者,所述选择至少ー个子带的集合包含针对所述至少一个子带的至少ー者的每ー者 基于所述候选者对计算所述子带的第一位置,使得所述子带排除所述所定位的峰值中的指定一者,其中所述第一位置在频域轴线上所述所指定的所定位峰值的ー侧上;基于所述候选者对计算所述子带的第二位置,使得所述子带排除所述所指定的所定位峰值,其中所述第二位置在所述频域轴线上所述所指定的所定位峰值的另ー侧上; 识别所述第一和第二位置中所述子带具有最低能量的一者。
13.根据权利要求1所述的方法,其中所述方法包括产生经编码信号,所述经编码信号指示所述对选定候选者的值以及至少ー个子带的所述对应的选定集合的每一子带的内容。
14.根据权利要求1所述的方法,其中所述选择至少ー个子带包括选择子带的集合,且其中所述方法包括 量化对应于所述对选定候选者的所述选定子带集合; 将所述经量化子带集合解量化以获得经解量化子带集合;以及通过将所述经解量化子带放置在基于所述对选定候选者的对应位置处来构造经解码信号, 其中所述经解量化子带在所述经解码信号内的位置不同于对应于所述对选定候选者的所述选定集合的所述对应子带在所述目标音频信号内的位置。
15.一种构造经解码音频帧的方法,所述方法包括 根据基频值放置多个经解码子带向量的第一者; 根据所述基频值和谐波间隔值放置所述多个经解码子带向量的其余者;以及 在所述帧的未由所述多个经解码子带向量占据的位置处插入经解码残差信号。
16.根据权利要求15所述的方法,其中针对所述多个经解码子带向量的每ー邻近对,所述向量的中心之间的距离等于所述谐波间隔值。
17.根据权利要求15所述的方法,其中所述方法包括擦除所述经解码残差信号的对应于所述多个经解码子带向量的可能位置的部分。
18.根据权利要求15所述的方法,其中所述插入经解码残差信号包含以从所述经解码残差信号的第一值向所述经解码残差信号的最后值的次序在所述帧的所述未被占据位置处以递增频率次序插入所述经解码残差信号的值。
19.根据权利要求15所述的方法,其中所述插入经解码残差信号包含使所述经解码残差信号的一部分相对于频域轴线弯曲以配合在所述多个经解码子带向量中的邻近者之间。
20.ー种用于音频信号处理的设备,所述设备包括 用于在频域中定位參考音频信号中的多个峰值的装置; 用于选择谐波模型的基频的某数目Nf个候选者的装置,每ー候选者基于所述频域中所述多个峰值的对应ー者的位置; 用于基于所述频域中所述多个峰值的至少两者的所述位置计算所述谐波模型的谐波之间的间隔的某数目Nd个候选者的装置; 用于针对多对不同的所述基频和谐波间隔候选者的每ー者选择目标音频信号的至少一个子带的集合的装置,其中所述集合中每一子带在所述频域中的位置基于所述对候选者;以及 用于针对所述多对不同候选者的每ー者计算来自所述目标音频信号的至少ー个子带的所述对应集合的能量值的装置;以及 用于基于至少多个所述所计算的能量值从所述多对不同候选者中选择ー对候选者的装置,其中所述数目Nf和Nd中的至少ー者具有大于I的值。
21.根据权利要求20所述的设备,其中所述目标音频信号是所述參考音频信号。
22.根据权利要求20所述的设备,其中所述參考音频信号表示音频信号的第一频率范围,且 其中所述目标音频信号表示所述音频信号的与所述第一频率范围不同的第二频率范围。
23.根据权利要求22所述的设备,其中所述设备包含用于将所述数目Nf个基频候选者映射到所述第二频率范围中的装置。
24.根据权利要求20所述的设备,其中所述设备包含用于对所述对选定候选者所指示的至少ー个子带的所述集合执行增益形状向量量化操作的装置。
25.根据权利要求20所述的设备,其中所述用于选择至少ー个子带的集合的装置经配置以针对所述多对不同候选者的每ー者选择子带的集合,且 其中所述用于计算来自所述对应子带集合的能量值的装置包含用于计算每子带的平均能量的装置。
26.根据权利要求20所述的设备,其中所述用于计算来自所述对应子带集合的能量值的装置包含用于计算至少ー个子带的所述集合所俘获的总能量的装置。
27.根据权利要求20所述的设备,其中所述目标音频信号基于线性预测译码残差。
28.根据权利要求20所述的设备,其中所述目标音频信号是多个经修改离散余弦变换系数。
29.根据权利要求20所述的设备,其中所述用于选择至少ー个子带的集合的装置包含用于针对至少ー个子带的所述集合的至少ー者的每ー者在參考位置的指定范围内寻找所述子带所俘获的所述能量为最大时所述子带所处的位置的装置,其中所述參考位置基于所述候选者对。
30.根据权利要求20所述的设备,其中所述用于选择至少ー个子带的集合的装置包含用于针对至少ー个子带的所述集合的至少ー者的每ー者在參考位置的指定范围内寻找所述子带内具有最大值的样本在所述子带内居中时所述子带所处的位置的装置,其中所述參考位置基于所述候选者对。
31.根据权利要求20所述的设备,其中针对所述多对不同候选者的至少ー者,所述用于选择至少ー个子带的集合的装置包含 用于针对所述至少一个子带的至少ー者的每ー者且基于所述候选者对计算以下两者的装置(A)所述子带的第一位置,使得所述子带排除所述所定位的峰值中的指定一者,其中所述第一位置在频域轴线上所述所指定的所定位峰值的ー侧上,以及(B)所述子带的第二位置,使得所述子带排除所述所指定的所定位峰值,其中所述第二位置在所述频域轴线上所述所指定的所定位峰值的另ー侧上;以及 用于针对所述至少一个子带的所述至少一者的每ー者识别所述第一和第二位置中所述子带具有最低能量的一者的装置。
32.根据权利要求20所述的设备,其中所述设备包括用于产生经编码信号的装置,所述经编码信号指示所述对选定候选者的值以及至少ー个子带的所述对应的选定集合的每一子带的内容。
33.根据权利要求20所述的设备,其中所述用于选择至少ー个子带的集合的装置经配置以针对所述多对不同候选者的每ー者选择子带的集合,且 其中所述设备包括 用于量化对应于所述对选定候选者的所述选定子带集合的装置; 用于将所述经量化子带集合解量化以获得经解量化子带集合的装置;以及用于通过将所述经解量化子带放置在基于所述对选定候选者的对应位置处来构造经解码信号的装置, 其中所述经解量化子带在所述经解码信号内的位置不同于对应于所述对选定候选者的所述选定集合的所述对应子带在所述目标音频信号内的位置。
34.ー种用于音频信号处理的设备,所述设备包括 频域峰值定位器,其经配置以在频域中定位參考音频信号中的多个峰值; 基频候选者选择器,其经配置以选择谐波模型的基频的某数目Nf个候选者,每ー候选者基于所述频域中所述多个峰值的对应ー者的位置; 距离计算器,其经配置以基于所述频域中所述多个峰值的至少两者的所述位置计算所述谐波模型的谐波之间的间隔的某数目Nd个候选者; 子带放置选择器,其经配置以针对多对不同的所述基频和谐波间隔候选者的每ー者选择目标音频信号的至少ー个子带的集合,其中所述集合中每一子带在所述频域中的位置基于所述对候选者; 能量计算器,其经配置以针对所述多对不同候选者的每ー者计算来自所述目标音频信号的至少ー个子带的所述对应集合的能量值;以及 候选者对选择器,其经配置以基于至少多个所述所计算的能量值从所述多对不同候选者中选择ー对候选者, 其中所述数目Nf和Nd中的至少ー者具有大于I的值。
35.根据权利要求34所述的设备,其中所述目标音频信号是所述參考音频信号。
36.根据权利要求34所述的设备,其中所述參考音频信号表示音频信号的第一频率范围,且 其中所述目标音频信号表示所述音频信号的与所述第一频率范围不同的第二频率范围。
37.根据权利要求36所述的设备,其中所述子带放置选择器经配置以将所述数目Nf 个基频候选者映射到所述第二频率范围中。
38.根据权利要求34所述的设备,其中所述设备包含量化器,所述量化器经配置以对所述对选定候选者所指示的至少ー个子带的所述集合执行增益形状向量量化操作。
39.根据权利要求34所述的设备,其中所述子带放置选择器经配置以针对所述多对不同候选者的每ー者选择子带的集合,且 其中所述能量计算器经配置以针对所述多对不同候选者的每ー者计算每子带的平均倉tfi。
40.根据权利要求34所述的设备,其中所述能量计算器经配置以针对所述多对不同候选者的每ー者计算至少ー个子带的所述集合所俘获的总能量。
41.根据权利要求34所述的设备,其中所述目标音频信号基于线性预测译码残差。
42.根据权利要求34所述的设备,其中所述目标音频信号是多个经修改离散余弦变换系数。
43.根据权利要求34所述的设备,其中所述子带放置选择器经配置以针对至少ー个子带的所述集合的至少ー者的每ー者在參考位置的指定范围内寻找所述子带所俘获的所述能量为最大时所述子带所处的位置,其中所述參考位置基于所述候选者对。
44.根据权利要求34所述的设备,其中所述子带放置选择器经配置以针对至少ー个子带的所述集合的至少ー者的每ー者在參考位置的指定范围内寻找所述子带内具有最大值的样本在所述子带内居中时所述子带所处的位置,其中所述參考位置基于所述候选者对。
45.根据权利要求34所述的设备,其中针对所述多对不同候选者的至少ー者,所述子带放置选择器经配置以针对所述至少一个子带的至少ー者的每ー者且基于所述候选者对计算(A)所述子带的第一位置,使得所述子带排除所述所定位的峰值中的指定一者,其中所述第一位置在频域轴线上所述所指定的所定位峰值的ー侧上,以及(B)所述子带的第二位置,使得所述子带排除所述所指定的所定位峰值,其中所述第二位置在所述频域轴线上所述所指定的所定位峰值的另ー侧上;以及 针对所述至少一个子带的所述至少一者的每ー者识别所述第一和第二位置中所述子带具有最低能量的一者。
46.根据权利要求34所述的设备,其中所述设备包括位打包器,所述位打包器经配置以产生经编码信号,所述经编码信号指示所述对选定候选者的值以及至少ー个子带的所述对应的选定集合的姆一子带的内容。
47.根据权利要求34所述的设备,其中所述子带放置选择器经配置以针对所述多对不同候选者的每ー者选择子带的集合,且 其中所述设备包括 量化器,其经配置以量化对应于所述对选定候选者的所述选定子带集合; 解量化器,其经配置以将所述经量化子带集合解量化以获得经解量化子带集合;以及 子带放置逻辑,其经配置以通过将所述经解量化子带放置在基于所述对选定候选者的对应位置处来构造经解码信号, 其中所述经解量化子带在所述经解码信号内的位置不同于对应于所述对选定候选者的所述选定集合的所述对应子带在所述目标音频信号内的位置。
48.ー种具有有形特征的非瞬时计算机可读存储媒体,所述有形特征当由机器读取时致使所述机器 在频域中定位參考音频信号中的多个峰值; 选择谐波模型的基频的某数目Nf个候选者,每ー候选者基于所述频域中所述多个峰值的对应ー者的位置; 基于所述频域中所述多个峰值的至少两者的所述位置计算所述谐波模型的谐波之间的间隔的某数目Nd个候选者; 针对多对不同的所述基频和谐波间隔候选者的每ー者选择目标音频信号的至少ー个子带的集合,其中所述集合中每一子带在所述频域中的位置基于所述对候选者; 针对所述多对不同候选者的每ー者计算来自所述目标音频信号的至少ー个子带的所述对应集合的能量值;以及基于至少多个所述所计算的能量值从所述多对不同候选者中选择ー对候选者,其中所述数目Nf 和Nd中的至少ー者具有大于I的值 。
全文摘要
一种用于对表示信号的音频范围的变换系数集合进行译码的方案使用谐波模型来使频域中的显著能量区的位置之间的关系参数化。
文档编号G10L25/90GK103038821SQ201180037426
公开日2013年4月10日 申请日期2011年7月29日 优先权日2010年7月30日
发明者维韦克·拉金德朗, 伊桑·R·杜尼, 文卡特什·克里希南, 阿希什·塔瓦里 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1