用于噪声注入的系统、方法、设备和计算机可读媒体的制作方法

文档序号:2832828阅读:270来源:国知局
专利名称:用于噪声注入的系统、方法、设备和计算机可读媒体的制作方法
技术领域
本发明涉及音频信号处理领域。
背景技术
基于修改离散余弦变换(MDCT)的译码方案通常用于对一般音频信号进行译码,所述音频信号可以包含语音和/或非语音内容,例如音乐。现有的使用MDCT译码的音频编解码器的实例包含MPEG-1音频层3 (MP3)、杜比数码(杜比实验室,英国伦敦;也称为AC-3,且标准化为ATSC A/52)、Vorbis (Xiph. 0rg基金会,美国马萨诸塞州萨默维尔)、视窗媒体音频(WMA,微软公司,华盛顿州雷蒙德)、自适应变换声学译码(ATRAC,索尼公司,日本东京)和高级音频译码(AAC,最近在IS0/IEC14496-3:2009中标准化)。MDCT译码也是一些电信标准的组成部分,例如增强可变速率编解码器(EVRC,在第3代合作伙伴计划2 (3GPP2)文档C. S0014-D v3. 0 (2010年10月,电信行业联盟,马萨诸塞州阿灵顿)中标准化)。G. 718编解码器(“来自8-32kbit/s的语音和音频的帧误差稳健窄带和宽带嵌入式可变位速率译石马(Frame error robust narrowband and wideband embedded variable bit-rate codingof speech and audio from8_32kbit/s) ”(电信标准化部门(ITU-T),日内瓦,CH, 2008 年 6月,于2008年11月和2009年8月修改,于2009年3月和2010年3月修订))是使用MDCT译码的多层编解码器的一个实例。

发明内容
一种根据一般配置处理音频信号的方法,其包含基于来自所述音频信号的信息,在码簿的多个条目中选择一个条目;以及确定基于所述选定码簿条目的第一信号的零值元素在频率域中的位置。此方法包含计算所述确定的频率域位置处的所述音频信号的能量;计算所述音频信号的所述能量在所述确定的频率域位置之间的分布的测量值;以及基于所述计算出的能量和所述计算出的值,计算噪声注入增益因子。还揭示计算机可读存储媒体(例如,非暂时性媒体),其具有有形特征,所述有形特征使得读取所述特征的机器执行此方法。一种根据一般配置处理音频信号的设备,其包含用于基于来自所述音频信号的信息在码簿的多个条目中选择一个条目的装置;以及用于确定基于所述选定码簿条目的第一信号的零值元素在频率域中的位置的装置。此设备包含用于计算所述确定的频率域位置处的所述音频信号的能量的装置;用于计算所述音频信号的所述能量在所述确定的频率域位置之间的分布的测量值的装置;以及用于基于所述计算出的能量和所述计算出的值计算噪声注入增益因子的装置。—种根据另一一般配置处理音频信号的设备,其包含向量量化器,其经配置以基于来自所述音频信号的信息在码簿的多个条目中选择一个条目;以及零值检测器,其经配置以确定基于所述选定码簿条目的第一信号的零值元素在频率域中的位置。此设备包含能量计算器,其经配置以计算所述确定的频率域位置处的所述音频信号的能量;稀疏性计算器,其经配置以计算所述音频信号的所述能量在所述确定的频率域位置之间的分布的测量值;以及增益因子计算器,其经配置以基于所述计算出的能量和所述计算出的值,计算噪声注入增益因子。


图1展示MDCT操作的典型正弦窗形状的三个实例。图2展示不同窗函数w (η)的一个实例。图3Α展示根据一般配置处理音频信号的方法MlOO的框图。图3Β展示方法MlOO的实施方案MllO的流程图。图4A-C展示增益形状向量量化结构的实例。图5展示在脉冲编码之前和之后的输入频谱向量的实例。图6Α展示排序的一组频谱系数能量中的一子组的实例。图6Β展示稀疏因子值对增益调整因子值的映射的曲线图。图6C展示图6Β针对特定阈值的映射的曲线图。图7Α展示任务Τ500的此实施方案Τ502的流程图。图7Β展示任务Τ500的实施方案Τ504的流程图。图7C展示任务Τ502和Τ504的实施方案Τ506的流程图。图8Α展示任务Τ520的一实例的限幅操作的曲线图。图8Β展示任务Τ520针对特定阈值的一实例的曲线图。图SC展示可执行以执行任务Τ520的一实施方案的伪码列表。图8D展示可执行以执行噪声注入增益因子的基于稀疏性的调制的伪码列表。图SE展示可执行以执行任务Τ540的一实施方案的伪码列表。图9Α展示根据单调减小函数的LPC增益值(以分贝计)对因子ζ的值的映射的实例。图9Β展示图9Α针对特定阈值的映射的曲线图。图9C展示图9Α所示的映射的不同实施方案的一实例。图9D展示图9C针对特定阈值的映射的曲线图。图10A展示参考帧与目标帧中的子带位置之间的关系的实例。图10B展示根据一般配置的噪声注入方法Μ200的流程图。
图1OC展示根据一般配置的噪声注入设备MF200的框图。图1OD展示根据另一一般配置的噪声注入设备A200的框图。图11展示低带音频信号中的选定子带的实例。图12展示高带音频信号中的选定子带和残余分量的实例。图13A展示根据一般配置的用于处理音频信号的设备MF100的框图。图13B展示根据另一一般配置的用于处理音频信号的设备AlOO的框图。图14展示编码器E20的框图。图15A到E展示编码器ElOO的应用范围。图16A展示信号分类方法MZ100的框图。图16B展示通信装置DlO的框图。图17展示手持机HlOO的前视图、后视图和侧视图。
具体实施例方式在用于对信号向量进行编码以用于存储或传输的系统中,可能需要包含噪声注入算法以适当地调整被注入的噪声的增益、频谱形状和/或其它特性,以便使感知质量最大化,同时使要传输的信息量最小化。例如,可能需要如本文中所述应用稀疏因子,以控制此噪声注入方案(例如,以控制要注入的噪声的水平)。在此方面,可能需要特别注意避免向不像噪声的音频信号(例如,高音调信号或其它稀疏频谱)添加噪声,因为可以假设这些信号已经通过基础译码方案加以良好译码。同样,可能相对于译码的信号为被注入的信号的频谱成形或者其它方式以调整其频谱特性是有益的。除非受其上下文明确地限制,否则术语“信号”在本文中用以指示其普通意义中的任一者,包括如在导线、总线或其它传输媒体上表达的存储器位置(或存储器位置组)的状态。除非受其上下文明确地限制,否则本文中使用术语“产生”来指示其普通意义中的任一者,例如计算或以另外方式产生。除非受其上下文明确地限制,否则术语“计算”在本文中用以指示其普通意义中的任一者,例如运算、评估、平滑及/或从多个值中进行选择。除非受其上下文明确地限制,否则使用术语“获得”来指示其普通意义中的任一者,例如计算、导出、接收(例如,从外部装置)及/或检索(例如,从存储元件阵列)。除非受其上下文明确地限制,否则使用术语“选择”来指示其普通意义中的任一者,例如识别、指示、应用和/或使用两个或两个以上的组中的至少一者且不到全部。在术语“包含”用于本描述和权利要求书中的情况下,其不排除其它元件或操作。使用术语“基于(如在“A基于B”中)”来指示其普通意义中的任一者,包含以下情况⑴“从……导出”(例如,“B是A的前体”),
(ii)“至少基于”(例如“A至少基于B”),且如果在特定的上下文中合适,(iii) “等于”(例如,“A等于B”)。类似地,使用术语“响应于”来指示其普通意义中的任一者,包含“至少响应于”。除非另有指示,否则使用术语“系列”来指示两个或两个以上项目的序列。使用术语“对数”来指示底数为十的对数,但是此运算扩展到其它底数也在本发明的范围内。使用术语“频率分量”来指示一 组信号频率或频带中的一者,例如信号频率域(例如,由快速傅立叶变换或MDCT产生)或信号的子带(例如,巴克标度(Bark scale)或梅尔标度(melscale)子带)的频率域表示的样本。
除非另外指出,否则对具有特定特征的设备的操作的任何揭示内容还明确地希望揭示具有类似特征的方法(且反之亦然),且对根据特定配置的设备的操作的任何揭示内容还明确地希望揭示根据类似配置的方法(且反之亦然)。术语“配置”可用于参考一种方法、设备和/或系统,如由其特定上下文所指示。除非特定上下文另有指示,否则普遍且互换地使用术语“方法”、“过程”、“程序”和“技术”。具有多个子任务的“任务”也是方法。除非特定上下文另有指示,否则普遍且互换地使用术语“设备”和“装置”。术语“元件”和“模块”通常用于指示较大配置的一部分。除非受其上下文明确限制,否则在本文中使用术语“系统”来指示其普通意义中的任一者,包含“交互以服务于共同目的的一群组的元件”。以引用方式对一份文档的一部分的任何并入应当被理解为并入有所述部分内参考的术语定义或变化形式,而此些定义在文档中的其它地方以及并入部分中参考的任何图中出现。本文中所述的系统、方法和设备一般适用于频率域中的音频信号的译码表示。此表示的典型实例是变换域中的一系列变换系数。合适变换的实例包含离散正交变换,例如正弦单一变换。合适的正弦单一变换的实例包含离散三角变换,其包含但不限于离散余弦变换(DCT)、离散正弦变换(DST)和离散傅立叶变换(DFT)。合适变换的其它实例包含此些变换的重叠形式。合适变换的一特定实例是上文介绍的修改DCT (MDCT)。本揭示中始终参照音频频率范围的“低带”和“高带”(等效地称为“上部带”),并且参照零到四千赫(kHz)的低带和3. 5到七kHz的高带的特定实例。明确指出,本文中论述的原理不以任何方式限于此特定实例,除非明确陈述了此限制。这些编码、解码、分配、量化和/或其它处理的这些原理对其的应用被明确涵盖且在此揭示的频率范围的其它实例(同样不限于)包含具有0、25、50、100、150和200Hz中的任一者下的下界和3000、3500、4000和4500Hz中的任一者下的上界的低带,和具有3000、3500、4000、4500和5000Hz中的任一者下的下界和6000、6500、7000、7500、8000、8500和9000Hz中的任一者下的上界的高带。还明确涵盖且在此揭示此些原理(同样不限于)对于具有3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500 和 9000Hz 中的任一者下的下界和 10,10. 5、11、11· 5、12、
12.5、13、13. 5、14、14. 5、15、15. 5和16kHz中的任一者下的上界的高带的应用。还明确指出,虽然高带信号一般将在译码过程的较早阶段转换成较低采样速率(例如,经由重新采样和/或抽取),但是其仍然是高带信号,且其承载的信息仍然表示高带音频频率范围。包含对如本文中所述的噪声注入增益的计算和/或应用的译码方案可以应用于对任何音频信号(例如,包含语音)进行译码。或者,可能需要此译码方案仅用于非语音音频(例如,音乐)。在此情况下,所述译码方案可以配合分类方案一起使用以确定音频信号的每一帧的内容的类型,并且选择一种合适的译码方案。包含对如本文中所述的噪声注入增益的计算和/或应用的译码方案可以用作主要编解码器或者多层或多阶编解码器中的一层或一阶。在一个此实例中,使用此译码方案对音频信号(例如,低带或高带)的频率含量的一部分进行译码,且使用另一译码方案对信号的频率含量的另一部分进行译码。在另一此实例中,使用此译码方案对另一译码层的残余(即,原始信号与编码的信号之间的误差)进行译码。可能需要将音频信号处理为频率域中的信号的表示。此表示的典型实例是变换域中的一系列变换系数。通过对时域中的信号的PCM(伪码调制)样本的帧执行变换操作(例如,FFT或MDCT操作),可以获得信号的此变换域表示。变换域译码可有助于提高译码效率,例如通过支持利用信号的子带之间的能量谱在频率(例如,从一个子带到另一个)和/或时间(例如,从一个帧到另一个)上的相关的译码方案。正被处理的音频信号可以是对输入信号(例如,语音和/或音乐信号)的另一译码操作的残余。在一个此实例中,正被处理的音频信号是对输入音频信号(例如,语音和/或音乐信号)的线性预测译码(LPC)分析操作的残余。本文中所述的方法、系统和设备可以经配置以将音频信号作为一系列区段来处理。一区段(或“帧”)可以是对应于长度一般在从大约五或十毫秒到大约四十或五十毫秒的范围内的时域区段的变换系数块。时域区段可以是重叠(例如,邻近区段重叠25%或50% )或不重叠的。可能需要获得音频译码器中的高质量和低延迟两者。音频译码器可以使用大的帧大小来获得高质量,但遗憾的是,大的帧大小通常会导致较长的延迟。本文中所述的音频编码器的潜在优势包含对于短的帧大小的高质量译码(例如,二十毫秒的帧大小,其中有十毫秒的预看)。在一个特定实例中,将时域信号分成一系列二十毫秒的非重叠区段,并且获得与每一相邻巾贞重叠十毫秒的四十毫秒的窗上的用于每一巾贞的MDCTο可用于产生待由本文中揭示的系统、方法或设备处理的音频信号的MDCT变换操作的一个实例在上文引用的文档C. S0014-D v3. O的段落4. 13. 4 (修改离散余弦变换(MDCT),pp. 4-134到4-135)中予以描述,所述段落作为MDCT变换操作的一实例以引用的方式并入本文中。由本文中描述的方法、系统或设备处理的区段也可以是通过变换产生的块的一部分(例如,低带或高带),或者是由对此块的先前操作产生的块的一部分。在一个特定实例中,由此方法、系统或设备处理的一系列区段(或“帧”)中的每一者含有表示O到4kHz的低带频率范围的一组160MDCT系数。在一个特定实例中,由此方法、系统或设备处理的一系列帧中的每一者含有表示3. 5到7kHz的高带频率范围的一组140个MDCT系数。MDCT译码方案使用一编码窗,所述编码窗在两个或两个以上连续帧上延伸(即,与其重叠)。对于为M的帧长度,MDCT基于2M个样本的输入而产生M个系数。因此,MDCT译码方案的一个特征在于其允许变换窗在一个或一个以上帧边界上延伸而不会增加表示编码的帧所需的变换系数的数目。可以将M个MDCT系数的计算表示为X的
权利要求
1.一种处理音频信号的方法,所述方法包括 基于来自所述音频信号的信息,在码簿的多个条目中选择一个条目; 确定基于所述选定码簿条目的第一信号的零值元素在频率域中的位置; 计算所述确定的频率域位置处的所述音频信号的能量; 计算所述音频信号的所述能量在所述确定的频率域位置之间的分布的测量值;以及 基于所述计算出的能量和所述计算出的值,计算噪声注入增益因子。
2.根据权利要求1所述的方法,其中所述选定码簿条目是基于单位脉冲模式。
3.根据权利要求1和2中任一权利要求所述的方法,其中所述计算所述音频信号的所述能量的分布的测量值包含 计算所述确定的频率域位置中的每一者处的所述音频信号的元素的能量;以及 将所述元素的所述计算出的能量排序。
4.根据权利要求1到3中任一权利要求所述的方法,其中能量分布的所述测量值是基于以下两者之间的关系(A)所述确定的频率域位置处的所述音频信号的所述元素的适当子组的总能量,与(B)所述确定的频率域位置处的所述音频信号的所述元素的总能量。
5.根据权利要求1到4中任一权利要求所述的方法,其中所述噪声注入增益因子是基于以下两者之间的关系(A)所述确定的频率域位置处的所述音频信号的所述计算出的能量,与(B)在包含所述确定的频率域位置的频率范围中的所述音频信号的能量。
6.根据权利要求1到5中任一权利要求所述的方法,其中所述计算所述噪声注入增益因子包含 检测所述噪声注入增益因子的初始值不大于阈值;以及 响应于所述检测对所述噪声注入增益因子的所述初始值进行限幅。
7.根据权利要求6所述的方法,其中所述噪声注入增益因子是基于对所述被限幅的值应用所述能量分布的所述测量的所述计算出的值的结果。
8.根据权利要求1到7中任一权利要求所述的方法,其中所述音频信号是多个经修改的离散余弦变换系数。
9.根据权利要求1到8中任一权利要求所述的方法,其中所述音频信号是基于对第二音频信号的线性预测译码分析的残余。
10.根据权利要求9所述的方法,其中所述噪声注入增益因子还基于线性预测译码增益,且 其中所述线性预测译码增益是基于由对所述第二音频信号的所述线性预测译码分析产生的一组系数。
11.一种用于处理音频信号的设备,所述设备包括 用于基于来自所述音频信号的信息在码簿的多个条目中选择一个条目的装置; 用于确定基于所述选定码簿条目的第一信号的零值元素在频率域中的位置的装置; 用于计算所述确定的频率域位置处的所述音频信号的能量的装置; 用于计算所述音频信号的所述能量在所述确定的频率域位置之间的分布的测量值的装置;以及 用于基于所述计算出的能量和所述计算出的值计算噪声注入增益因子的装置。
12.根据权利要求11所述的设备,其中所述选定码簿条目是基于单位脉冲模式。
13.根据权利要求11和12中任一权利要求所述的设备,其中所述用于计算所述音频信号的所述能量的分布的测量值的装置包含 用于计算所述确定的频率域位置中的每一者处的所述音频信号的元素的能量的装置;以及 用于将所述元素的所述计算出的能量排序的装置。
14.根据权利要求11到13中任一权利要求所述的设备,其中能量分布的所述测量值是基于以下两者之间的关系(A)所述确定的频率域位置处的所述音频信号的所述元素的适当子组的总能量,与(B)所述确定的频率域位置处的所述音频信号的所述元素的总能量。
15.根据权利要求11到14中任一权利要求所述的设备,其中所述噪声注入增益因子是基于以下两者之间的关系(A)所述确定的频率域位置处的所述音频信号的所述计算出的能量,与(B)在包含所述确定的频率域位置的频率范围中的所述音频信号的能量。
16.根据权利要求11到15中任一权利要求所述的设备,其中所述用于计算所述噪声注入增益因子的装置包含 用于检测所述噪声注入增益因子的初始值不大于阈值的装置;以及 用于响应于所述检测对所述噪声注入增益因子的所述初始值进行限幅的装置。
17.根据权利要求16所述的设备,其中所述噪声注入增益因子是基于对所述被限幅的值应用所述能量分布的所述测量的所述计算出的值的结果。
18.根据权利要求11到17中任一权利要求所述的设备,其中所述音频信号是多个经修改的离散余弦变换系数。
19.根据权利要求11到18中任一权利要求所述的设备,其中所述音频信号是基于对第二音频信号的线性预测译码分析的残余。
20.根据权利要求19所述的设备,其中所述噪声注入增益因子还基于线性预测译码增益,且 其中所述线性预测译码增益是基于由对所述第二音频信号的所述线性预测译码分析产生的一组系数。
21.一种用于处理音频信号的设备,所述设备包括 向量量化器,其经配置以基于来自所述音频信号的信息在码簿的多个条目中选择一个条目; 零值检测器,其经配置以确定基于所述选定码簿条目的第一信号的零值元素在频率域中的位置; 能量计算器,其经配置以计算所述确定的频率域位置处的所述音频信号的能量; 稀疏性计算器,其经配置以计算所述音频信号的所述能量在所述确定的频率域位置之间的分布的测量值;以及 增益因子计算器,其经配置以基于所述计算出的能量和所述计算出的值来计算噪声注入增益因子。
22.根据权利要求21所述的设备,其中所述选定码簿条目是基于单位脉冲模式。
23.根据权利要求21和22中任一权利要求所述的设备,其中所述稀疏性计算器经配置以计算所述确定的频率域位置处的所述音频信号的元素的能量,并且将所述元素的所述计算出的能量排序。
24.根据权利要求21到23中任一权利要求所述的设备,其中能量分布的所述测量值是基于以下两者之间的关系(A)所述确定的频率域位置处的所述音频信号的所述元素的适当子组的总能量,与(B)所述确定的频率域位置处的所述音频信号的所述元素的总能量。
25.根据权利要求21到24中任一权利要求所述的设备,其中所述噪声注入增益因子是基于以下两者之间的关系(A)所述确定的频率域位置处的所述音频信号的所述计算出的能量,与(B)包含所述确定的频率域位置的频率范围中的所述音频信号的能量。
26.根据权利要求21到25中任一权利要求所述的设备,其中所述增益因子计算器经配置以检测所述噪声注入增益因子的初始值不大于阈值,且响应于所述检测对所述噪声注入增益因子的所述初始值进行限幅。
27.根据权利要求26所述的设备,其中所述噪声注入增益因子是基于对所述被限幅的值应用所述能量分布的所述测量的所述计算出的值的结果。
28.根据权利要求21到27中任一权利要求所述的设备,其中所述音频信号是多个经修改的离散余弦变换系数。
29.根据权利要求21到28中任一权利要求所述的设备,其中所述音频信号是基于对第二音频信号的线性预测译码分析的残余。
30.根据权利要求29所述的设备,其中所述噪声注入增益因子还基于线性预测译码增益,且 其中所述线性预测译码增益是基于由对所述第二音频信号的所述线性预测译码分析产生的一组系数。
31.一种计算机可读存储媒体,其具有有形特征,所述有形特征使得读取所述特征的机器执行根据权利要求1到10中任一权利要求所述的方法。
全文摘要
根据原始频谱的能量在频谱的未译码元素的位置之间的分布的测量值来控制在所述未译码元素处注入噪声的方案。
文档编号G10L19/038GK103069482SQ201180039077
公开日2013年4月24日 申请日期2011年8月17日 优先权日2010年8月17日
发明者维韦克·拉金德朗, 伊桑·罗伯特·杜尼, 文卡特什·克里希南 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1