带宽扩展器的制作方法

文档序号:2824949阅读:144来源:国知局
专利名称:带宽扩展器的制作方法
技术领域
本发明涉及用于改进音频信号的质量的装置和方法。更具体地,本发明涉及用于 扩展音频信号的带宽的装置和方法。
背景技术
可将例如话音或音乐的音频信号进行编码,以能够进行音频信号的高效传输或存 储。
音频信号可受限制于带宽,这典型地由传输系统或存储介质的可用容量来确定。 然而,在一些实例中,可期望按照比原始编码音频信号的带宽更宽的带宽来观察解码后的 音频信号。在这些实例中,可在解码器处实施人工带宽扩展,从而可通过使用从解码后的音 频信号本身单独确定的信息来扩展解码后的音频信号的带宽。
在移动电信领域中可存在一个人工带宽扩展的应用的这种实例。典型地,在例如 全球移动通信系统(GSM)的移动通信系统中,话音信号可受限于小于4kHz的带宽,换句话 说,受限于窄带话音信号。然而,自然发生的话音可包含高达IOkHz的主要频率分量。传统 的更高频率可有助于话音信号的总体质量和清晰度,与等同的窄带信号相比导致更清脆和更响亮的声音。
现有的通过人工带宽扩展来改进窄带话音的质量和清晰度的方法可部署生成额 外高频率分量的码书。所述码书可包括不同频谱特性的频率向量,所有频率向量覆盖感兴 趣的频率的范围。可通过选择最佳向量并对其增加来自接收的解码后信号的频谱分量,基 于逐个帧来扩展频率范围。
此外,人工带宽扩展方法可实施上采样技术,按更高频率分量建立接收的信号的 别名副本。然后,可调节别名的频率分量的大小或能量等级,以建立话音信号的代表性更高 频率。
然而,现有的人工带宽扩展的方法可遭遇不佳的质量和低效率。
例如,人工带宽扩展的一些方法可采用一种按进入话音帧的语音内容将他们归类 以确定上带封包。然后,所述封包可用于将低频率的频混所建立的频率频谱进行定形。
然而,使用这个方法生成的上带不能始终听起来自然。这可部分地导致在不同因 素之间的转换在话音信号中是自然平滑的事实。然而,使用将因素归类的系统可具有在判 断边界引入不连续性的结果。
其他因素也可倾向于使用上述人工带宽扩展方法(例如进入话音帧的不正确归类 和高带频谱形状的不精确估计)来进行非自然发音。发明内容
本发明考虑到现有人工带宽扩展方案可导致扩展的音频信号的总体观察的自然 性降低而做出。这个降低可特别地对于私密语音的总体观察是普遍的。
实施例旨在解决以上问题。
根据一些实施例的第一方面,提供一种方法,包括从音频信号生成激励信号,其 中在所述音频信号中包括多个频率分量;从音频信号提取特征向量,其中所述特征向量包 括至少一个频域分量特征和至少一个时域分量特征;从特征向量确定至少一个谱形参数, 其中所述至少一个谱形参数对应于包括属于其他多个频率分量的频率分量的子带信号;和 通过经由滤波器组过滤激励信号和用至少一个谱形参数加权过滤的激励信号来生成所述 子带信号。
根据实施例,该方法在生成激励信号时可包括通过用逆线性预测滤波器过滤所 述音频信号来生成剩余信号;基于线性预测滤波器用包括自回归移动平均滤波器的后滤波 器阶段来过滤剩余信号;和通过上采样和频谱交叠来自后滤波器阶段的输出来生成激励信号。
所述后滤波器阶段还包括频谱倾斜滤波器和谐波滤波器。
子带信号的频率分量根据包括多个重叠带的心理声学标准来分布,以及滤波器组 的频率特性对应于子带信号的频率分量的分布。
重叠带根据梅尔标度来分布,以及其中所述子带信号使用三角形遮蔽函数来遮 蔽。
或者,重叠带根据梅尔标度来分布,以及其中所述子带信号使用梯形遮蔽函数来 遮蔽。
从特征向量确定至少一个谱形参数包括使用神经网络来从特征向量确定至少一 个谱形参数,其中从音频信号提取的特征向量形成对于神经网络的输入目标向量,以及其 中对神经网络进行训练以提供用于输入目标向量的子带谱形参数。
所述谱形参数是子带能量等级值。
所述谱形参数是基于子带能量等级值的子带增益因子。
当音频信号的功率接近音频信号中噪音等级的估计时,使所述子带能量等级值衰 减。
所述特征向量的至少一个频域分量特征包括以下至少一个音频信号的多个能量 等级的组,其中所述多个能量等级的每个对应于音频信号的重叠带的能量;表示音频信号 的频域频谱的质心的值;和表示所述频域频谱的平整度的值。
所述特征向量的至少时域分量特征包括以下至少一个基于音频信号中导致音频 信号的波形方向改变的点处的梯度的总和的梯度指数;音频信号的帧的能量与音频信号的 先前帧的能量的比;和指示音频信号的帧是归类为活动还是不活动的语音活动性检测器。
该方法还包括将子带信号与音频信号组合,以提供带宽扩展的音频信号。
根据一些实施例的第二方面,提供一种装置,包括至少一个处理器和含有计算机 代码的至少一个存储器,所述至少一个存储器和所述计算机代码配置为通过所述至少一个 处理器使得所述装置至少执行从音频信号生成激励信号,其中在所述音频信号中包括多 个频率分量;从音频信号提取特征向量,其中所述特征向量包括至少一个频域分量特征和 至少一个时域分量特征;从特征向量确定至少一个谱形参数,其中所述至少一个谱形参数 对应于包括属于其他多个频率分量的频率分量的子带信号;和通过经由滤波器组过滤激励 信号和用至少一个谱形参数加权过滤的激励信号来生成所述子带信号。
根据一个实施例,该装置当所述至少一个存储器和所述计算机代码配置为使得所述装置至少执行生成激励信号时,还配置为执行通过用逆线性预测滤波器过滤所述音频 信号来生成剩余信号;基于线性预测滤波器用包括自回归移动平均滤波器的后滤波器阶段 来过滤剩余信号;和通过上采样和频谱交叠来自后滤波器阶段的输出来生成激励信号。
所述后滤波器阶段还包括频谱倾斜滤波器和谐波滤波器。
子带信号的频率分量根据包括多个重叠带的心理声学标准来分布,以及滤波器组 的频率特性对应于子带信号的频率分量的分布。
重叠带根据梅尔标度来分布,以及其中所述子带信号使用三角形遮蔽函数来遮 蔽。
或者,重叠带根据梅尔标度来分布,以及其中所述子带信号使用梯形遮蔽函数来 遮蔽。
所述至少一个存储器和所述计算机代码配置为通过所述至少一个处理器使得所 述装置至少执行从特征向量确定至少一个谱形参数,还配置为执行使用神经网络来从特 征向量确定至少一个谱形参数,其中从音频信号提取的特征向量形成对于神经网络的输入 目标向量,以及其中对神经网络进行训练以提供用于输入目标向量的子带谱形参数。
所述谱形参数是子带能量等级值。
所述谱形参数是基于子带能量等级值的子带增益因子。
当音频信号的功率接近音频信号中噪音等级的估计时,使所述子带能量等级值衰 减。
所述特征向量的至少一个频域分量特征包括以下至少一个音频信号的多个能量 等级的组,其中所述多个能量等级的每个对应于音频信号的重叠带的能量;表示音频信号 的频域频谱的质心的值;和表示所述频域频谱的平整度的值。
所述特征向量的至少时域分量特征包括以下至少一个基于音频信号中导致音频 信号的波形方向改变的点处的梯度的总和的梯度指数;音频信号的帧的能量与音频信号的 先前帧的能量的比;和指示音频信号的帧是归类为活动还是不活动的语音活动性检测器。
所述至少一个存储器和所述计算机代码还配置为执行将子带信号与音频信号组 合,以提供带宽扩展的音频信号。
根据一些实施例的第三方面,提供一种计算机程序产品,其中软件代码存储于计 算机可读介质中,其中所述代码在由处理器执行时实现以下步骤从音频信号生成激励信 号,其中在所述音频信号中包括多个频率分量;从音频信号提取特征向量,其中所述特征 向量包括至少一个频域分量特征和至少一个时域分量特征;从特征向量确定至少一个谱形 参数,其中所述至少一个谱形参数对应于包括属于其他多个频率分量的频率分量的子带信 号;和通过经由滤波器组过滤激励信号和用至少一个谱形参数加权过滤的激励信号来生成 所述子带信号。
根据实施例,所述代码在由处理器执行时实现生成激励信号,还实现通过用逆线 性预测滤波器过滤所述音频信号来生成剩余信号;基于线性预测滤波器用包括自回归移动 平均滤波器的后滤波器阶段来过滤剩余信号;和通过上采样和频谱交叠来自后滤波器阶段 的输出来生成激励信号。
所述后滤波器阶段还包括频谱倾斜滤波器和谐波滤波器。
子带信号的频率分量根据包括多个重叠带的心理声学标准来分布,以及滤波器组的频率特性对应于子带信号的频率分量的分布。
重叠带根据梅尔标度来分布,以及其中所述子带信号使用三角形遮蔽函数来遮 蔽。
或者,重叠带根据梅尔标度来分布,以及其中所述子带信号使用梯形遮蔽函数来 遮蔽。
所述代码在由处理器执行时实现从特征向量确定至少一个谱形参数,还实现使 用神经网络来从特征向量确定至少一个谱形参数,其中从音频信号提取的特征向量形成对 于神经网络的输入目标向量,以及其中对神经网络进行训练以提供用于输入目标向量的子 带谱形参数。
所述谱形参数是子带能量等级值。
所述谱形参数是基于子带能量等级值的子带增益因子。
当音频信号的功率接近音频信号中噪音等级的估计时,使所述子带能量等级值衰 减。
所述特征向量的至少一个频域分量特征包括以下至少一个音频信号的多个能量 等级的组,其中所述多个能量等级的每个对应于音频信号的重叠带的能量;表示音频信号 的频域频谱的质心的值;和表示所述频域频谱的平整度的值。
所述特征向量的至少时域分量特征包括以下至少一个基于音频信号中导致音频 信号的波形方向改变的点处的梯度的总和的梯度指数;音频信号的帧的能量与音频信号的 先前帧的能量的比;和指示音频信号的帧是归类为活动还是不活动的语音活动性检测器。
所述代码还实现将子带信号与音频信号组合,以提供带宽扩展的音频信号。
根据一些实施例的第四方面,提供一种装置,包括激励信号生成器,配置为从音 频信号生成激励信号,其中在所述音频信号中包括多个频率分量;特征提取器,配置为从音 频信号提取特征向量,其中所述特征向量包括至少一个频域分量特征和至少一个时域分量 特征;频谱参数确定器,配置为从特征向量确定至少一个谱形参数,其中所述至少一个谱形 参数对应于包括属于其他多个频率分量的频率分量的子带信号;和滤波器组,配置为通过 经由滤波器组过滤激励信号和用至少一个谱形参数加权过滤的激励信号来生成所述子带 信号。
激励信号生成器可包括逆线性预测滤波器,配置为通过过滤所述音频信号来生 成剩余信号;包括自回归移动平均滤波器的后滤波器阶段,配置为过滤剩余信号,其中自回 归移动平均滤波器取决于线性预测滤波器;和上采样器,配置为通过上采样和频谱交叠来 自后滤波器阶段的输出来生成激励信号。
所述后滤波器阶段还包括频谱倾斜滤波器和谐波滤波器。
子带信号的频率分量根据包括多个重叠带的心理声学标准来分布,以及滤波器组 的频率特性对应于子带信号的频率分量的分布。
重叠带根据梅尔标度来分布,以及其中所述子带信号使用以下至少一个来遮蔽 三角形遮蔽函数;和梯形遮蔽函数。
频谱参数确定器可包括神经网络,配置为从特征向量确定至少一个谱形参数,其 中从音频信号提取的特征向量形成对于神经网络的输入目标向量,以及其中对神经网络进 行训练以提供用于输入目标向量的子带谱形参数。
所述谱形参数是子带能量等级值。
所述谱形参数是基于子带能量等级值的子带增益因子。
滤波器组包括衰减器,配置为当音频信号的功率接近音频信号中噪音等级的估 计时,使所述子带能量等级值衰减。
所述特征向量的至少一个频域分量特征包括以下至少一个音频信号的多个能量 等级的组,其中所述多个能量等级的每个对应于音频信号的重叠带的能量;表示音频信号 的频域频谱的质心的值;和表示所述频域频谱的平整度的值。
所述特征向量的至少时域分量特征包括以下至少一个基于音频信号中导致音频 信号的波形方向改变的点处的梯度的总和的梯度指数;音频信号的帧的能量与音频信号的 先前帧的能量的比;和指示音频信号的帧是归类为活动还是不活动的语音活动性检测器。
该装置还包括信号组合器,配置为将子带信号与音频信号组合,以提供带宽扩展 的音频信号。
电子设备可包括上述装置。
芯片集可包括上述装置。


为了更好地理解本发明,现在通过实例参照附图,其中
图1示意性示出采用本发明实施例的电子设备;
图2示意性示出采用本发明实施例的解码器系统;
图3示意性示出采用本发明第一实施例的解码器;
图4示意性示出根据本发明一些实施例的带宽扩展器;
图5示出以下优点对于带宽扩展器的输入音频信号应用临界带和听觉遮蔽的属 性,以促进特征提取;
图6示出以下优点应用临界带,以促进人工带宽扩展的信号的生成;
图7示出以下优点布置由临界带确定子带的滤波器组;
图8示出一流程图,用于表示根据本发明一些实施例的带宽扩展器的操作;
图9示出一流程图,用于更详细表示如图4所示的带宽扩展器的实施例的操作的 一部分;和
图10示出一流程图,用于更详细表示如图4所示的带宽扩展器的实施例的操作的 另一部分。
具体实施方式
以下更详细地描述用于提供人工扩展解码后音频信号的带宽的可能机构。由此, 首先参照图1,其示出可根据本发明实施例结合编解码器的示例性电子设备10或装置的示 意性框图。
电子设备或装置10例如可以是移动终端和无线通信的用户装备。在一些其他实 施例中,装置10可以是电子设备中任意适合的音频或音频子系统组件,例如音频播放器 (还已知为MP3播放器)或媒体播放器(还已知为MP4播放器)。
电子设备10包括麦克风11,其经由模数变换器(ADC) 14链接至处理器21。处理器21进一步经由数模变换器(DAC) 32链接至扬声器33。处理器21进一步链接至收发器 (RX/TX) 13、用户接口(UI) 15和存储器22。
处理器21可配置为执行各种程序代码。实现的程序代码23可包括音频解码代码 或话音解码代码。实现的程序代码23例如可存储于存储器22,每当需要时由处理器21提 取。存储器22还可提供用于存储数据的分区24,例如,根据本发明编码了的数据。
在本发明的实施例中,可在基于电子的硬件或固件中实现解码代码。
用户接口 15使得用户能够例如经由键板向电子设备10输入命令,和/或例如经 由显示器从电子设备Iio获得信息。收发器13能够例如经由无线通信网络与其他电子设 备通信。
同样可理解,电子设备10的结构可按许多方式来补充和改变。
电子设备10的用户可使用麦克风11,用于输入要发送至某些其他电子设备或存 储于存储器22的数据分区24的话音。至此,由用户经过用户接口 15激活了对应的应用。 可通过处理器21运行的本申请使得处理器21执行在存储器22中存储的编码代码。
模数变换器14将输入模拟音频信号变换成数字音频信号,并向处理器21提供数 字音频信号。
电子设备10可经由其收发器13从另一电子设备接收具有对应编码数据的比特 流。或者,编码数据可存储于存储器22的数据分区24,例如,用于稍后由相同电子设备10 进行呈现。在这两个情况下,处理器21可执行在存储器22中存储的解码程序代码。处理 器21例如通过与参照图3和4所述相同的方式解码接收的数据,并向数模变换器32提供 解码的数据。数模变换器32将数字解码的数据转换成模拟音频数据,并经由扬声器33输 出他们。解码程序代码的执行也可通过经由用户接口 15由用户调用的应用来触发。
接收的解码数据也可存储于存储器22的数据分区24,而并非经由扬声器33立即 呈现,例如能够稍后呈现或转发至另一电子设备。
可理解,图3和4所述的示意性结构和图8、9和10中的方法步骤仅代表完整的带 宽扩展器的操作的一部分,如图1所示的电子设备中实现的示例性所示。
话音和音频编解码器的一般性操作是本领域已知的,并且不再详细描述无助于本 发明的实施例的操作的理解的这些编解码器的特点。
现在,关于图2至10更详细描述本申请的实施例。
图2中示出由本申请的实施例采用的话音和音频解码器的一般性操作。图2中示 意性示出一般的解码系统102。该系统102可包括存储或媒体信道(还已知为通信信道)106 和解码器108。
解码器108解压缩比特流112,并生成输出音频信号114。与输入信号110相关的 比特流112的比特率和输出音频信号114的质量是主要特征,这定义编码系统102的性能。
图3示意性示出根据本申请的一些实施例的解码器108。解码器108包括输入 302,经由媒体信道106由此接收编码的流112。一些实施例中,输入302连接至音频解码 器301。这样的实施例中,音频解码器301配置为从媒体或通信信道接收编码数据,由此可 存储和取出接收的数据。这样的实施例中,音频解码器301还配置为从媒体信道106解码 所述编码数据,以生成基于输出样本的音频流304。从音频解码器301输出的音频流可连接 至人工带宽扩展器303的输入。一些实施例中,带宽扩展器303可布置为扩展音频流输入304的带宽,以生成输出带宽扩展的音频信号306。
一些实施例中,带宽扩展的音频信号306可形成来自解码器108的输出音频信号 114。
可理解,一些实施例中,音频解码器301可具体地布置为解码由输入302传送的输 入编码数据。换句话说,可通过用于生成编码数据的音频编码技术来确定音频解码器301 采用的音频解码技术。
还可理解,一些实施例中,音频解码器301可布置为解码音频或话音编码数据。
例如,一些实施例中,音频解码器301可配置为解码根据自适应多速率(AMR)语音 编码标准编码了的话音信号。
AMR编解码的细节例如可在3GPP TS26. 090技术规范中找到。
参照图4,更详细示出根据一些实施例的音频带宽扩展器303。
音频带宽扩展器303包括输入401,其可配置为从音频解码器301接收音频样本流 输出304。
可理解,进入带宽扩展器303的解码音频样本流可看作低带信号。一些实施例中, 带宽扩展器303可随后分析低带信号,以识别特定特征。这样的实施例中,识别的特征可随 后用于建立高带音频信号,其可随后与低带音频信号组合以生成带宽扩展的音频信号306。
还可理解,一些实施例中,可在不需要来自编码器的额外端信息的情况下,形成带 宽扩展的音频信号的高带分量。
一些实施例中,输入低带信号可被确定为具有300至3400Hz的电话带宽,其中采 样频率为SkHz。这些实施例中,带宽扩展器303可将输入音频信号扩展至宽带音频信号,其 采样频率为16kHz,以及其频率范围可宽于输入的频率范围。
可理解,在这里,术语“高带”的使用可表示由带宽扩展器303生成的扩展的频率分量。
为了有助于理解本发明,以下参照图8的流程图更详细地说明宽带扩展器303的 操作。
一些实施例中,音频带宽扩展器303包括帧收集器403。
一些实施例中,输入401连接至帧收集器403,从而将输入音频信号(或者已知为 音频样本流)划分和整理成连续系列的音频帧。
一些实施例中,整理成帧的音频样本的数目可取决于输入音频信号的采样频率。
例如,一些实施例中,输入音频信号304的采样频率可以是8kHz。这样的实施例 中,帧收集器403可布置为将输入音频信号划分成多个音频帧,其中每个音频帧跨越12ms 的时间周期。换句话说,这样的实施例中,每个音频帧包括以8kHz的采样率的96个音频样 本。
此外,一些实施例中,帧收集器403可布置为具有重叠帧,从而更新帧的速率小于 音频帧的长度。
例如,一些实施例中,可通过帧收集器403以每IOms (80个样本)来更新音频帧, 从而在帧之间可存在16个样本的重叠。
可理解,一些实施例中,帧收集器403可按多采样频率和帧大小来运行,并且带宽 扩展器303的操作不限于一些实施例给出的实例。
作为图8的处理步骤801,示出由帧收集器403将输入音频样本整理成音频信号帧 404的步骤。
一些实施例中,人工带宽扩展器303包括时间频率变换器405。
一些实施例中,来自帧收集器403的输出可传递至时间频率变换器405,从而基于 时间的音频信号帧404可基于逐个帧经过基于正交的变换。
一些实施例中,基于正交的变换可实现为快速傅立叶变换(FFT),从而96个样本 的基于时间的音频信号帧404可变换成具有128点FFT的频域。这些实施例中,128点FFT 的应用可通过用额外零值样本填充音频信号帧404来应用。
可理解,一些实施例中,音频信号帧404到频率系数的变换促进频域特征的提取。
还可理解,一些实施例中,为音频信号帧404生成的频率系数可看作低带频域音 频信号。
如图8的处理步骤803示出将音频信号帧404变换成包括频率系数的频域表示的 步骤。
一些实施例中,人工带宽扩展器303包括特征提取器407。
这些实施例中,音频信号帧404的频域系数可传递至特征提取器407的输入。
一些实施例中,特征提取器407也可布置为从帧收集器403接收其他输入。这个 其他输入可用于将音频信号帧404直接从帧收集器403传递至特征提取器407,从而绕过时 间频率变换器405。
参照图4,这些实施例中,时域频域信号帧404可由连接440在帧收集器403和特 征提取器407之间传递。
一些实施例中,特征提取器407可用于从音频信号帧和音频信号帧的频域变换两 者提取特征。一些实施例中,从特征提取器407提取的特征可用于部分地生成音频信号帧 的扩展频率区域。
可理解,这里,音频信号帧的扩展频率区域可称为高带信号。
还可理解,这里,一些实施例中,音频信号帧的频域变换可称为频域信号。
一些实施例中,可对于输入音频信号和频域信号的每个帧提取包括频域和时域特 征两者的九维特征向量。
一些其他实施例中,可对于每个帧提取包括频域和时域特征两者的十维或其他数 目维度特征向量。
一些实施例中,可通过将频域信号分成多个重叠子带并随后确定每个子带的能 量,来到处频域特征向量的第一集。然后,这样的实施例中,每个子带能量值可形成特征向 量的频域分量。
一些实施例中,可通过将位于子带内的每个频域系数的大小乘方来确定每个子带 的能量。换句话说,这些实施例中,可至少部分地通过确定输入信号的频率系数的功率频谱 密度来提取频域特征。
一些实施例中,可将频域信号分成多个重叠子带,其中每个子带根据心理声学导 出的梅尔(mel)标度可具有相等带宽。
例如,在对于带宽扩展器303的输入音频信号具有SkHz的采样频率的一些实施例 中,低带音频信号可具有从250到3500Hz的有效频率范围。这些实施例中,可将频域信号分成5个子带,从而每个子带根据心理声学导出的梅尔标度可具有相等带宽。
一些实施例中、频率分量从Hz到梅尔标度的映射可表示为
m = 25951og10 (l+f/700),
其中f是Hz表示的频率,m是与频率分量f对应的梅尔标度映射。
这些实施例中,可根据三角形带通滤波器来过滤平分(梅尔标度)的重叠子带的 每一个。换句话说,可对于每个子带的频域分量应用三角形定形遮蔽(triangular shaped mask),以获得子带能量。
一些实施例中,三角形定形遮蔽可具有以下优点在人类听觉系统的相同临界带 中模型化频率的听觉遮蔽特性。
其他实施例中,可用梯形带通滤波器来过滤平分的重叠子带的每一个。
可理解,一些实施例中,可导出梯形或三角形的定形遮蔽滤波器,从而该滤波器宽 于人类听觉系统的临界带。
可理解,一些实施例中,该滤波器可随后应用于频域中的每个子带,这可具有以下 优点跨输入音频信号的宽度模型化人类听觉系统的频率分辨率。这个优点可在图5中看 出,图5在频域中示出将三角形定形滤波器应用于频域信号的分量。
参照图5,还可看出,一些实施例中,在频域中听觉滤波器在低频处具有的带宽比 位于高频处的听觉滤波器更窄。此外,还可看出,一些实施例中,每个随后的听觉滤波器的 带宽根据梅尔标度增加。
可理解,一些实施例中,可根据梅尔标度使用子带滤波器来过滤对于输入音频信 号帧的功率频谱密度值。换句话说,可根据图5使用基于听觉的子带滤波器的系列来过滤 功率频谱密度值。
还可理解,一些实施例中,以上过滤步骤具有以下优点将输入音频信号帧的功率 频谱密度表示分成在梅尔标度上均匀地分隔的多个子带。
一旦将输入音频信号帧过滤成了多个子带,这些实施例中,可通过计算在子带中 过滤的功率频谱密度值的总和来确定对于每个子带的能量。
一般地,可理解,一些实施例中,可通过初始地计算信号(其中可通过将频谱大小 值乘方来确定其功率频谱)的频域频谱来确定子带能量等级值。然后,对于每个子带,可 使用听觉滤波器(例如上述三角形窗口)将构成讨论中的特定子带的功率频谱值加权(或定 形)。然后,通过子带中加权的功率频谱分量的总和来给出每个子带的能量。
一些实施例中,可存在5个子带能量值,其中每个子带能量值可对应于5个子带之 一。然而,可理解,在一些其他实施例中可确定多于或少于5个子带能量值。
可理解,子带能量值可提供用于音频信号帧404的频谱形状和功率等级的简明表/Jn ο
还可理解,在一些实施例中,与前5个子带对应的子带能量可形成为每个音频信 号帧提取的特征向量的前5个特征。
一些实施例中,可根据分贝标度转换与5个子带对应的子带能量。
一些实施例中,特征提取器407也可从频域信号提取其他频域特征。这些其他频 域特征可基于频域信号的频谱的质心,或者还已知为重心。
一些实施例中,可通过使用由时间频率变换器405计算的频谱的乘方大小来确定频域信号的频谱的质心C。
根据一些实施例,对于N个样本的频域信号频谱的质心C可确定为
权利要求
1.一种方法,包括 从音频信号生成激励信号,其中在所述音频信号中包括多个频率分量; 从音频信号提取特征向量,其中所述特征向量包括至少一个频域分量特征和至少一个时域分量特征; 从特征向量确定至少一个谱形参数,其中所述至少一个谱形参数对应于包括属于其他多个频率分量的频率分量的子带信号;和 通过经由滤波器组过滤激励信号和用至少一个谱形参数加权过滤的激励信号来生成所述子带信号。
2.如权利要求1所述的方法,其中生成激励信号包括 通过用逆线性预测滤波器过滤所述音频信号来生成剩余信号; 基于线性预测滤波器用包括自回归移动平均滤波器的后滤波器阶段来过滤剩余信号;和 通过上采样和频谱交叠来自后滤波器阶段的输出来生成激励信号。
3.如权利要求2所述的方法,其中所述后滤波器阶段还包括频谱倾斜滤波器和谐波滤波器。
4.如权利要求1至3所述的方法,其中子带信号的频率分量根据包括多个重叠带的心理声学标准来分布,以及滤波器组的频率特性对应于子带信号的频率分量的分布。
5.如权利要求4所述的分发,其中重叠带根据梅尔标度来分布,以及其中所述子带信号使用以下至少一个来遮蔽 三角形遮蔽函数;和 梯形遮蔽函数。
6.如权利要求1至5所述的方法,其中从特征向量确定至少一个谱形参数包括 使用神经网络来从特征向量确定至少一个谱形参数,其中从音频信号提取的特征向量形成对于神经网络的输入目标向量,以及其中对神经网络进行训练以提供用于输入目标向量的子带谱形参数。
7.如权利要求1至6所述的方法,其中所述谱形参数是子带能量等级值。
8.如权利要求7所述的方法,其中所述谱形参数是基于子带能量等级值的子带增益因子。
9.如权利要求7和8所述的方法,其中当音频信号的功率接近音频信号中噪音等级的估计时,使所述子带能量等级值衰减。
10.如权利要求1至9所述的方法,其中所述特征向量的至少一个频域分量特征包括以下至少一个 音频信号的多个能量等级的组,其中所述多个能量等级的每个对应于音频信号的重叠带的能量; 表示音频信号的频域频谱的质心的值;和 表示所述频域频谱的平整度的值。
11.如权利要求1至10所述的方法,其中所述特征向量的至少时域分量特征包括以下至少一个 基于音频信号中导致音频信号的波形方向改变的点处的梯度的总和的梯度指数;音频信号的帧的能量与音频信号的先前帧的能量的比;和 指示音频信号的帧是归类为活动还是不活动的语音活动性检测器。
12.如权利要求1至11中任一项所述的方法,还包括 将子带信号与音频信号组合,以提供带宽扩展的音频信号。
13.一种装置,包括至少一个处理器和含有计算机代码的至少一个存储器,所述至少一个存储器和所述计算机代码配置为通过所述至少一个处理器使得所述装置至少执行 从音频信号生成激励信号,其中在所述音频信号中包括多个频率分量; 从音频信号提取特征向量,其中所述特征向量包括至少一个频域分量特征和至少一个时域分量特征; 从特征向量确定至少一个谱形参数,其中所述至少一个谱形参数对应于包括属于其他多个频率分量的频率分量的子带信号;和 通过经由滤波器组过滤激励信号和用至少一个谱形参数加权过滤的激励信号来生成所述子带信号。
14.如权利要求13所述的装置,其中所述至少一个存储器和所述计算机代码配置为使得所述装置至少执行生成激励信号,还配置为执行 通过用逆线性预测滤波器过滤所述音频信号来生成剩余信号; 基于线性预测滤波器用包括自回归移动平均滤波器的后滤波器阶段来过滤剩余信号;和 通过上采样和频谱交叠来自后滤波器阶段的输出来生成激励信号。
15.如权利要求13所述的装置,其中所述后滤波器阶段还包括频谱倾斜滤波器和谐波滤波器。
16.如权利要求13至15所述的装置,其中子带信号的频率分量根据包括多个重叠带的心理声学标准来分布,以及滤波器组的频率特性对应于子带信号的频率分量的分布。
17.如权利要求16所述的装置,其中重叠带根据梅尔标度来分布,以及其中所述子带信号使用以下至少一个来遮蔽三角形遮蔽函数;和梯形遮蔽函数。
18.如权利要求13至17所述的装置,其中所述至少一个存储器和所述计算机代码配置为通过所述至少一个处理器使得所述装置至少执行从特征向量确定至少一个谱形参数,还配置为执行 使用神经网络来从特征向量确定至少一个谱形参数,其中从音频信号提取的特征向量形成对于神经网络的输入目标向量,以及其中对神经网络进行训练以提供用于输入目标向量的子带谱形参数。
19.如权利要求13至18所述的装置,其中所述谱形参数是子带能量等级值。
20.如权利要求19所述的装置,其中所述谱形参数是基于子带能量等级值的子带增益因子。
21.如权利要求19和20所述的装置,其中当音频信号的功率接近音频信号中噪音等级的估计时,使所述子带能量等级值衰减。
22.如权利要求13至21所述的装置,其中所述特征向量的至少一个频域分量特征包括以下至少一个 音频信号的多个能量等级的组,其中所述多个能量等级的每个对应于音频信号的重叠带的能量; 表示音频信号的频域频谱的质心的值;和 表示所述频域频谱的平整度的值。
23.如权利要求13至22所述的装置,其中所述特征向量的至少时域分量特征包括以下至少一个 基于音频信号中导致音频信号的波形方向改变的点处的梯度的总和的梯度指数; 音频信号的帧的能量与音频信号的先前帧的能量的比;和 指示音频信号的帧是归类为活动还是不活动的语音活动性检测器。
24.如权利要求13至23中任一项所述的装置,其中所述至少一个存储器和所述计算机代码还配置为执行 将子带信号与音频信号组合,以提供带宽扩展的音频信号。
25.一种计算机程序产品,其中软件代码存储于计算机可读介质中,其中所述代码在由处理器执行时实现以下步骤 从音频信号生成激励信号,其中在所述音频信号中包括多个频率分量; 从音频信号提取特征向量,其中所述特征向量包括至少一个频域分量特征和至少一个时域分量特征; 从特征向量确定至少一个谱形参数,其中所述至少一个谱形参数对应于包括属于其他多个频率分量的频率分量的子带信号;和 通过经由滤波器组过滤激励信号和用至少一个谱形参数加权过滤的激励信号来生成所述子带信号。
26.如权利要求25所述的计算机程序产品,其中所述代码在由处理器执行时实现生成激励信号,还实现 通过用逆线性预测滤波器过滤所述音频信号来生成剩余信号; 基于线性预测滤波器用包括自回归移动平均滤波器的后滤波器阶段来过滤剩余信号;和 通过上采样和频谱交叠来自后滤波器阶段的输出来生成激励信号。
27.如权利要求25所述的计算机程序产品,其中所述后滤波器阶段还包括频谱倾斜滤波器和谐波滤波器。
28.如权利要求25至27所述的计算机程序产品,其中子带信号的频率分量根据包括多个重叠带的心理声学标准来分布,以及滤波器组的频率特性对应于子带信号的频率分量的分布。
29.如权利要求28所述的计算机程序产品,其中重叠带根据梅尔标度来分布,以及其中所述子带信号使用以下至少一个来遮蔽三角形遮蔽函数;和梯形遮蔽函数。
30.如权利要求25至29所述的计算机程序产品,其中所述代码在由处理器执行时实现从特征向量确定至少一个谱形参数,还实现 使用神经网络来从特征向量确定至少一个谱形参数,其中从音频信号提取的特征向量形成对于神经网络的输入目标向量,以及其中对神经网络进行训练以提供用于输入目标向量的子带谱形参数。
31.如权利要求25至30所述的计算机程序产品,其中所述谱形参数是子带能量等级值。
32.如权利要求31所述的计算机程序产品,其中所述谱形参数是基于子带能量等级值的子带增益因子。
33.如权利要求31和32所述的计算机程序产品,其中当音频信号的功率接近音频信号中噪音等级的估计时,使所述子带能量等级值衰减。
34.如权利要求25至33所述的计算机程序产品,其中所述特征向量的至少一个频域分量特征包括以下至少一个 音频信号的多个能量等级的组,其中所述多个能量等级的每个对应于音频信号的重叠带的能量; 表示音频信号的频域频谱的质心的值;和 表示所述频域频谱的平整度的值。
35.如权利要求25至34所述的计算机程序产品,其中所述特征向量的至少时域分量特征包括以下至少一个 基于音频信号中导致音频信号的波形方向改变的点处的梯度的总和的梯度指数; 音频信号的帧的能量与音频信号的先前帧的能量的比;和 指示音频信号的帧是归类为活动还是不活动的语音活动性检测器。
36.如权利要求25至35中任一项所述的计算机程序产品,其中所述代码还实现 将子带信号与音频信号组合,以提供带宽扩展的音频信号。
全文摘要
一种用于扩展音频信号的带宽的装置,所述装置配置为从音频信号生成激励信号,其中在所述音频信号中包括多个频率分量;从音频信号提取特征向量,其中所述特征向量包括至少一个频域分量特征和至少一个时域分量特征;从特征向量确定至少一个谱形参数,其中所述至少一个谱形参数对应于包括属于其他多个频率分量的频率分量的子带信号;和通过经由滤波器组过滤激励信号和用至少一个谱形参数加权过滤的激励信号来生成所述子带信号。
文档编号G10L21/02GK103026407SQ201080068258
公开日2013年4月3日 申请日期2010年5月25日 优先权日2010年5月25日
发明者V·M·米吕拉, L·拉克索宁, H·J·普拉卡, P·I·阿尔库 申请人:诺基亚公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1