从音频信号提取重要频谱分量的方法和设备以及使用其的低比特率音频信号编码和/或...的制作方法

文档序号:2830119阅读:183来源:国知局
专利名称:从音频信号提取重要频谱分量的方法和设备以及使用其的低比特率音频信号编码和/或 ...的制作方法
技术领域
本发明总体发明构思涉及一种音频信号编码和/或解码系统,更具体地 讲,涉及一种提取音频信号的重要频谱分量的方法和设备以及使用其的对低 比特率音频信号编码和解码的方法和设备。
背景技术
"MPEG(运动图像专家组)音频"是用于高质量高性能立体声编码的 ISO/IEC标准。MPEG音频与运动图像编码根据MPEG的ISO/IEC SC29/WG11 一起被标准化。对于MPEG音频,基于32个频带的子带编码(频带分解编码) 和改进离散余弦变换(MDCT)用于压缩,具体地讲,通过使用心理特征执行高 性能压缩。与传统压缩编码方案相比,MPEG音频可实现高质量的声音。为了高性能地压缩音频信号,MPEG音频利用"感知编码"压缩方案以 减小音频信号的压缩量,在该"感知编码"压缩方案中,通过使用感测音频 信号的人类的敏感特性来去除详细的低敏感信息。此外,在MPEG音频中,无声阶段的最小可听限制和掩蔽特性主要用于 使用听觉心理特征的感知编码。无声阶段的最小可听限制是听觉可感知的声 音的最小级别。最小可听限制与在无声阶段听觉可感知的噪声的限制有关。 最小可听限制根据声音的频率改变。在一些频率,可听到比最小可听限制高 的声音,但是在另一些频率,可能不会听到比最小可听限制低的声音。此外, 特定声音的感测限制可根据与该特定声音一起听到的其他声音大大改变。这 被称为"掩蔽效应"。发生掩蔽效应的频率的宽度被称为临界带。为了有效地 利用听觉心理特征(例如,临界带),将声音信号分解为频谱分量很重要。为此, 频带被分为32个子带,随后执行子带编码。另外,在MPEG音频中,滤波器组用于消除32个子带的混叠噪声。
发明内容
技术问题MPEG音频包括使用滤波器组和心理模型的比特分配和量化。通过 MDCT产生的系数分配有最佳量化比特,并且通过使用心理模型2被压缩。 用于分配最佳比特的心理模型2通过使用扩散函数基于FFT来估计掩蔽效 应。因此,需要相对大量的复杂度。通常,对于低比特率(32kbps或更少)音频信号的压缩,可分配给信号的 比特数不足以量化音频信号的所有频谱分量及其无损编码。因此,需要提取 感知的重要频谱分量(ISC)和量化及其无损编码。技术方案本发明总体发明构思提供一种从音频信号提取重要频谱分量以低比特率 压缩音频信号的方法和设备。本发明总体发明构思还提供一种使用从音频信号提取重要频谱分量的方 法和设备的低比特率音频信号编码方法和设备。本发明总体发明构思还提供一种对通过低比特率音频信号编码方法和设 备编码的低比特率音频信号解码的低比特音频信号解码方法和设备。将在接下来的描述中部分阐述本发明另外的方面和优点,还有一部分通 过描述将是清楚的,或者可以经过本发明总体发明构思的实施而得知。可通过提供一种提取音频信号的重要频谱分量(ISC)的方法来实现本发 明总体发明构思的前述和/或其他方面和优点,该方法包括通过使用心理模 型计算包括变换的频谱音频信号的信号掩蔽比(SMR)值的感知重要性,使用 SMR值将掩蔽阈值小于所述频语音频信号的掩蔽阈值的频谱音频信号选作 为第一 ISC;根据预定权重因数从选作为第一 ISC的频谱音频信号提取频谱 峰值以选择第二 ISC。可通过使用权重因数将被获得的当前信号的频率附近 的预定数量的频谱值获得权重因数。该方法还可包括获得频带的SNR(信噪比);和将具有低SNR的频带中峰 值大于预定值的频语分量选作为ISC。还可通过提供一种提取音频信号的重要频i普分量(ISC)的方法来实现本发明总体发明构思的前述和/或其他方面和优点,该方法包括通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性;使 用SMR将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作 为第一 ISC;和获得选作为第一 ISC的频谱音频信号中的频带的SNR以将具 有低SNR的频带中峰值大于预定值的频语分量的频镨音频信号选作为另一 ISC。还可通过提供一种低比特率音频信号编码方法来实现本发明总体发明构思的前述和/或其他方面和优点,该方法包括通过使用心理模型计算包括频 语音频信号的SMR(信号掩蔽比)值的感知重要性;使用SMR值将掩蔽阈值小 于所述频i普音频信号的掩蔽阈值的频镨音频信号选作为第一 ISC;和根据预 定权重因数从选作为第一ISC的频谱音频信号提取频谱峰值,并将具有该频 语峰值的频率的频谱音频信号选作为第二 ISC;和对具有第二 ISC的频谱音 频信号执行量化和无损编码。提取频语峰值的步骤可包括获得频带的 SNR(信噪比),并且通过使用SNR将具有低SNR的频带中峰值大于预定值的 频谱分量选作为第三ISC。低比特率音频信号编码方法还可包括通过使用 MDCT(改进离散余弦变换)和MDST(改进离散正弦变换)来将时域音频信号变 换为频i普音频信号以产生频谱音频信号。对ISC音频信号执行量化的步骤可 包括根据使用的比特量和量化误差将音频信号分成多个组以最小化附加信 息;根据SMR(信号掩蔽比)和所述多组的动态范围的数据分布确定量化步长; 和通过使用所述多组的一个或多个预定量化器对音频信号量化。可通过使用 采用组的最大值规格化的值和量化步长确定量化器。量化可以是Max-Lloyd 量化。对量化的信号执行无损编码的步骤可包括上下文算术编码。执行上下 文算术编码的步骤可包括采用指示ISC的存在的频语索引表示组成帧的频 谱分量;和根据与先前帧的相关性和相邻ISC的分布选择随机模型,以对音 频信号的量化值以及包括量化器信息、量化步骤、分组信息和频镨索引值的 附加信息执行无损编码。还可通过提供一种低比特率音频信号编码方法来实现本发明总体发明构 思的前述和/或其他方面和优点,该方法包括通过使用心理^t型计算包括频 谱音频信号的SMR(信号掩蔽比)值的感知重要性;使用SMR值将掩蔽阈值小 于所述频i普音频信号的掩蔽阈值的频谱信号选作为第一 ISC;获得选作为第一 ISC的频语音频信号中的频带的SNR,并且使用SNR将具有低SNR的频 带中峰值大于预定值的频谱分量选作为另一ISC;和对于具有另一ISC的频 语音频信号执行量化和无损编码。还可通过提供一种提取音频信号ISC(重要频镨分量)的设备来实现本发 明总体发明构思的前述和/或其他方面和优点,该设备包括心理建模单元, 通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感 知重要性;第一ISC选择单元,使用SMR将掩蔽阈值小于所述频谱音频信号 的掩蔽阈值的频谱音频信号选作为第一ISC;和第二ISC选择单元,根据预 定权重因数从选作为第一 ISC的频语音频信号提取频谱峰值并选择第二 ISC。 可通过使用权重因数将被获得的当前信号的频率附近的预定数量的频谱值获 得第二ISC选择单元的权重因数。该设备还可包括第三ISC选择单元,获 得频带的SNR(信噪比),并通过使用SNR将具有低SNR的频带中峰值大于 预定值的频语分量选作为第三ISC。还可通过提供一种提取音频信号ISC(重要频谱分量)的设备来实现本发 明总体发明构思的前述和/或其他方面和优点,该设备包括心理建模单元, 通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感 知重要性;第一ISC选择单元,使用SMR将掩蔽阈值小于所述频谱音频信号 的掩蔽阈值的频谱音频信号选作为第一ISC;和另一ISC选择单元,获得选 作为第一ISC的频谱音频信号中的频带的SNR,并且使用SNR将具有低SNR 的频带中峰值大于预定值的频谱分量选作为另一 ISC。还可通过提供一种低比特音频信号编码提取设备来实现本发明总体发明 构思的前述和/或其他方面和优点,该设备包括心理建^f莫单元,通过使用心 理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性; 第一ISC(重要频谱分量)选择单元,使用SMR值将掩蔽阈值小于所述频镨音 频信号的掩蔽阈值的频语音频信号选作为第一ISC;第二ISC选择单元,才艮 据预定权重因数从选作为第一 ISC的频谱音频信号提取频语峰值并且选择第 二ISC;量化器,对具有第二ISC的频谱音频信号量化;和无损编码器,对 量化的信号执行无损编码。低比特率音频信号编码设备还可包括第三ISC选"^单元,获得频带的 SNR(信噪比),并且使用SNR将具有低SNR的频带中峰值大于预定值的频i普 分量选作为第三ISC。低比特率音频信号编码设备还可包括T/F变换单元,通过使用MDCT(改 进离散余弦变换)和MDST(改进离散正弦变换)来将时域音频信号变换为频谱 音频信号。量化器可包括分组单元,根据使用的比特量和量化误差将频谱音频信 号分为多个组以最小化附加信息;量化步长确定单元,才艮据SMR(信号掩蔽比) 和所述多个组的数据分布(动态范围)确定量化步长;和组量化器,通过使用所 述多组的预定量化器对频傳音频信号量化。组量化器的量化可以是 Max-LIoyd量化,无损编码器的无损编码可以是上下文算术编码。无损编码器可包括索引单元,采用指示ISC的存在的频谱索引表示组 成帧的频谱分量;随机模型无损编码器,根据与先前帧的相关性和相邻ISC 的分布选择随机模型,并且对频谱音频信号的量化值以及包括量化器信息、 量化步长、分组信息和频谱索引值的附加信息执行无损编码。还可通过提供一种低比特音频信号编码设备来实现本发明总体发明构思 的前述和/或其他方面和优点,该设备包括心理建模单元,通过使用心理模 型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性;第一 ISC(重要频谱分量)选择单元,使用感知重要性将掩蔽阈值小于所述频镨音频 信号的掩蔽阈值的频谱音频信号选作为第一ISC;另一ISC选择单元,获得 选作为第一ISC的频谱音频信号中的频带的SNR,并且通过使用SNR将具有 低SNR的频带中峰值大于预定值的频谱分量选作为另一ISC;和量化器,对 具有所述另一ISC的频谱音频信号量化;和无损编码器,对量化的信号执行 无损编码。还可通过提供一种低比特音频信号解码方法来实现本发明总体发明构思 的前述和/或其他方面和优点,该方法包括恢复指示ISC(重要频i普分量)的 存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值; 参照恢复的量化器信息、量化步长和分组信息对音频信号执行逆量化;和将 逆量化的值变换为时域信号。还可通过提供一种低比特音频信号解码设备来实现本发明总体发明构思 的前述和/或其他方面和优点,该设备包括无损解码器,提取用于帧的随机 模型信息,并且通过使用该随机模型信息恢复指示ISC(重要频谱分量)的存在 的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值;逆 量化器,参照恢复的量化器信息、量化步长和分组信息执行逆量化;和F/T变换单元,将逆量化的值变换为时域信号。还可通过提供一种实现用于执行以下方法的计算机程序的计算机可读介 质来实现本发明总体发明构思的前述和/或其他方面和优点,该方法包括根据心理模型计算包括变换的频i普音频信号的信号掩蔽比(SMR)值的感知重要 性,使用感知重要性将掩蔽阔值小于所述频谱音频信号的掩蔽阈值的频谱音 频信号选作为一个或多个第一重要频谱分量(ISC);根据预定权重因数从选作 为一个或多个第一 ISC的频语音频信号提取频语峰值以选择将被用于对频谱 音频信号编码的一个或多个第二ISC。还可通过提供一种实现用于执行以下方法的计算机程序的计算机可读介 质来实现本发明总体发明构思的前述和/或其他方面和优点,该方法包括对 音频信号恢复指示重要频镨分量(ISC)的存在的索引信息、量化器信息、量化 步长、ISC分组信息和音频信号量化值;根据恢复的量化器信息、量化步长 和分组信息对音频信号执行逆量化;和将逆量化的信号变换为时域信号。还可通过提供一种音频信号编码和/或解码系统来实现本发明总体发明 构思的前述和/或其他方面和优点,该系统包括编码器,根据频带的信号掩 蔽比(SMR)值、以及权重因数和信噪比(SNR)中的一个选择具有一个或多个重 要频i普分量(ISC)的频谱音频信号,并且纟艮据关于选4奪的ISC的信息对频谱音 频信号编码;和解码器,根据所述信息对编码频谱音频信号解码。还可通过提供一种音频信号编码和/或解码系统来实现本发明总体发明 构思的前述和/或其他方面和优点,该系统包括编码器,根据频带的信号掩 蔽比(SMR)值、以及权重因数和信噪比(SNR)中的一个选择具有一个或多个重 要频i普分量(ISC)的频谱音频信号,并且根据关于选4奪的ISC的信息对频谱音 频信号编码。还可通过^^是供一种音频信号编码和/或解码系统来实现本发明总体发明 构思的前述和/或其他方面和优点,该系统包括解码器,根据关于ISC的信 息对编码的音频信号解码。可根据频谦音频信号的频带的信号掩蔽比(SMR) 值、以及权重因数和信噪比(SNR)中的一个获得ISC。


通过下面结合附图对实施例进行的详细描述,本发明总体发明构思的这 些和/其他方面和优点将会变得更加清楚和更易于理解,其中图1是示出根据本发明总体发明构思的实施例的从输入的音频信号提取重要频谱分量以按低比特率压缩音频信号的设备的框图;重要频谱分量以按低比特率压缩音频信号的方法的流程图;图3是示出根据本发明总体发明构思的实施例的从输入的音频信号提取 重要频谱分量以按低比特率压缩音频信号的方法的示意图;图4是示出根据本发明总体发明构思的实施例的使用从输入的音频信号 提取重要频谱分量的设备按低比特率压缩音频信号的低比特率音频信号编码 设备的构造的框图;图5是示出图4的设备的量化器的框图;图6是示出图4的设备的无损编码单元的框图;图7是示出根据本发明总体发明构思的实施例的使用从音频信号提取重 要频i普分量的方法的低比特率音频信号编码方法的流程图; 图8是示出图7的方法的ISC量化的详细流程图;提取重要频i普分量的设备编码的低比特率音频信号进行解码的低比特率音频 信号解码设备的框图;和信号的重要频谱分量的设备编码的低比特率音频信号进行解码的低比特率音 频信号解码方法的流程图。
具体实施方式
现在将对本发明总体发明构思的实施例进行详细参照,其示例在附图中 表示,在整个附图中,相同的标号始终表示相同的部件。以下通过参考附图 描述实施例以解释本发明总体发明构思。图1是示出根据本发明总体发明构思的实施例的从输入的音频信号提取 重要频语分量(ISC)以按低比特率压缩音频信号的设备的框图。音频信号ISC 提取设备包括心理建模单元100和ISC选择单元150。心理建模单元100对根据心理特征变换的频谱音频信号计算信号掩蔽比 (SMR)值。通过使用改进离散余弦变换(MDCT)和改进离散正弦变换 (MDST)(而不是离散傅立叶变换(DFT》产生输入到心理建模单元100的频语音频信号。由于MDCT和MDST分别代表音频信号的实部和虚部,因此可表 示音频信号的相位信息。因此,可解决DFT和MDCT之间不匹配的问题。 当通过使用经受了 DFT的时域音频信号量化MDCT的系数时发生不匹配的问题。ISC选择单元150通过使用SMR值从音频信号选择ISC。 ISC选择单元 150包括第一 ISC选择器152、第二 ISC选择器154和第三ISC选择器156 以分别选择一个或多个第一 ISC、第二 ISC和第三ISC。 一个或多个第一 ISC、 第二 ISC和/或第三ISC可被称为ISC。第一 ISC选择器152通过使用由心理建模单元100计算的SMR值选择 掩蔽阈值小于频谱音频信号的掩蔽阁值的一个或多个频谱信号作为一个或多 个第一重要频谱分量(ISC)。第二 ISC选择器154根据预定权重因数通过从在第一 ISC选择器152中 选作为一个或多个第一 ISC的音频信号提取频谱峰值来选择一个或多个第二 ISC。在一个或多个第一ISC中搜索频i普峰值。基于信号的大小确定频谱峰值。 由经过MDCT和MDST变换的信号的实部平方加上虚部平方的根来定义信号 的大小。通过使用该信号附近的频语值获得该信号的权重因数。通过使用当 前信号(当前信号的权重因数将被获得)的频率附近的预定数量的频谱值来获 得第二ISC选择器154中的权重因数。可通过使用等式1获得该权重因数。等式l『=_1_这里,ISCkl表示权重因数将被获得的当前信号的大小,isc,i和isc」表示当 前信号附近的信号的大小。此外,len表示当前信号附近的信号的数量。基于该信号的峰值和权重因数选择第二 ISC。例如,峰值和权重因数的 乘积与预定阈值进行比较以仅选择大于该阈值的值作为第二ISC。第三ISC选择器156对音频信号执行信噪比(SNR)均衡。也就是,该音 频信号的频谱分量被分为频带,并且获得这些频带的SNR,在具有低SNR的 频带中,峰值大于预定值的频谱分量被选作为一个或多个第三ISC。执行这 种操作来防止ISC集中在特定频带上。换句话说,在具有低SNR的频带中选 择主要峰值,从而在整个频带中这些频带的SNR近似相等。其结果是,具有低SNR的频带的SNR值增加,从而整个频带的SNR值近似相等。组成ISC选择单元150的第一 ISC选择器152、第二 ISC选择器154和 第三ISC选择器156可选择性地用于提取具有感知的重要频谱分量(ISC)的音 频信号。例如,仅第一ISC选择器152和第二ISC选择器154可被使用。然 而,仅第一ISC选择器152和第三ISC选择器156可被使用。否则,所有的 第一 ISC选择器152、第二 ISC选择器154和第三ISC选择器156都可被使 用。因此,可从音频信号提取第一 ISC、第二 ISC和/或第三ISC以被用作ISC, 从而在音频信号的所有频语分量的量化和/或其无损编码中使用提取的ISC压 缩音频信号。图2是示出根据本发明总体发明构思的实施例的提取音频信号的重要频 谱分量以按低比特率压缩音频信号的方法的流程图。参照图1和图2,通过 使用心理模型计算变换到频域的音频信号的SMR值(操作200)。接下来,通 过使用SMR值,在掩蔽阈值低于频域中的音频信号的掩蔽阈值的频语信号被 选作为第一 SIC(操作220)。根据预定权重因数从选作为第一 ISC的音频信号提取频谱峰值并将该频 语峰值选作为第二 ISC(操作240)。可通过使用当前信号(当前信号的权重因数前述图1的第二ISC选择器154的操作相同。因此,省略对其的描述。通过执行SNR均衡选择频率(或频带)的第三ISC(操作260)。也就是,音 频信号的频i普分量被分为频带,获得频带的SNR,并且在具有低SNR的频带 中,峰值大于预定值的频语分量被选作为第三ISC。第一ISC、第二ISC和第 三ISC可被统称为ISC。如上所述,执行这种搡作来防止ISC集中在特定频 带上。换句话说,在具有低SNR的频带中选择主要峰值,从而在整个频带中, 具有低SNR的频带的SNR近似相等。其结果是,具有低SNR的频带的SNR 值增加,从而整个频带的SNR值近似相等。另 一方面,可选择地使用操作220至260中的ISC提取。例如,仅操作 200和200可被用于提取ISC。然而,仅操作200和260可用于提取ISC。否 则,所有的操作200、 240和260可用于提取ISC。图3是示出根据本发明总体发明构思的实施例的从输入的音频信号提取 重要频语分量以按低比特率压缩音频信号的方法的示意图。参照图2和图3, 例如使用MDCT和MDST将输入的音频信号变换为频i普音频信号,并且根据与可听见信号和听不见信号相应的心理模型的心理特征计算与变换的频谱音频信号相应的信号掩蔽比(SMR)值。可根据SNR值、权重因数(或权重最大值) 和/或SNR均衡获得具有第一 ISC、第二 ISC和/或第三ISC的频谱音频信号。图4是示出根据本发明总体发明构思的实施例的使用提取音频信号的重 要频谱分量的设备的低比特率音频信号编码设备的构造的框图。低比特率音 频信号编码设备包括ISC提取器420、量化器440和无损编码器460。低比特 率音频信号编码设备还可包括T/F变换单元400。参照图1和图4, T/F变换单元400通过使用改进离散余弦变换(MDCT) 和改进离散正弦变换(MDST)将时域音频信号变换为频谱信号(频谱音频信 号)。通过使用MDCT和MDST(而不是离散傅立叶变换(DFT))产生输入给ISC 提取器420的心理模型的频谱音频信号。通过这样做,MDCT和MDST代表 实部和虚部,从而可另外表示音频信号的相位分量。因此,可解决DFT和 MDST不匹配的问题。当通过使用经过DFT的时域音频信号量化MDCT的 系数时发生不匹配问题。ISC提取器420从频语音频信号提取具有ISC的音频信号。ISC提取器 420可以与图1的音频信号ISC提取设备相同,因此省略对其的描述。也就 是,ISC提取器420包括心理建模单元100和ISC选择单元150来选择具有 ISC的音频信号。量化器440量化ISC的音频信号。如图5所示,量化器440包括分组单 元442、量化步长确定单元444和量化器446。分组单元442根据使用的比特量和量化误差执行分组以最小化附加信 息。下面执行对选择的ISC的量化。首先,根据比率失真对选择的ISC执行 分组以最小化附加信息。比率失真表示使用的比特量和量化误差之间的关系。 使用的比特量和量化误差可交替换位。也就是,如果使用的比特量增加,则 量化误差减少。相反,如果使用的比特量减少,则量化误差增加。选择的ISC被分组, 并且分组的成本被计算。执行分组从而降低成本。各组可以形成为相同,并且可以合并,从而降低频带的成本。此外,如 等式2所示,通过将各组所需的比特数和关于比特数的附加信息相加来获得 成本。等式2成本=qbit+附加信息[比特数]这里,qbit表示每一组所需的比特数,附加信息包括缩放因数、量化信息等。当完成分组时,量化步长确定单元444根据SMR和各组的数据分布(动 态范围)确定量化步长。此外,采用组成该组的ISC的最大值将该ISC规格化。量化器446量化组的音频信号。通过使用采用组的ISC的最大值规格化 的值和量化步长来确定量化器446。量化可以是Max-LIoyd量化。无损编码器460对量化的信号执行无损编码。如图6所示,无损编码器 460包括索引单元462和随机模型无损编码器464。无损编码可以是上下文算 术编码。索引单元462产生一个或多个频谱索引以代表构成每一帧的频谱分量。 频语索引指示ISC的存在。通过使用上下文算术编码对ISC的频谱信息编码。 更具体地讲,通过代表ISC的选择的频语索引设置构成每一帧的频谱分量。 频谱索引可以是具有代表ISC的存在或不存在的0或1的信号。随机模型无损编码器464根据与先前帧的相关性和相邻ISC的分布选择 随才;i4莫型,并且对音频信号的量化值和附加信息(包括量化器信息、量化步长、 分组信息和频谱索引信息)执行无损编码。图7是示出根据本发明总体发明构思的实施例的使用音频信号ISC提取 方法的低比特率音频信号编码方法的流程图。参照图4和图7,通过使用改进离散余弦变换(MDCT)和改进离散正弦变 换(MDST)来将时域音频信号变换为频i普信号(操作700)。变换的频谱音频信 号被输入到心理模型。在心理模型中,计算信号掩蔽比(SMR)以预测频谱音 频信号的重要性(操作720)。通过使用SMR值提取ISC(操作740)。该ISC提 取可以与图2的ISC提取方法相同,因此省略对其的描述。在提取ISC之后,执行ISC量化(操作760)。在图8中示出ISC量化的 详细操作。参照图8,根据使用的比特量和量化误差之间的关系执行分组以 最小化附加信息(操作762)。该分组可以与图5的分组单元442的分组相同, 因此省略对其的描述。在分组之后,根据SMR和各组的数据分布(动态范围)确定量化步长(操 作764)。此外,采用ISC的最大值将组成组的ISC规格化。接下来,通过使用采用组的最大值规格化的值和量化步长确定量化器。量化可以是Max-LIoyd量化。参照回图7,在量化之后,执行无损编码(操作780)。通过上下文算术编 码对ISC的量化值和频谱信息编码。此外,通过代表ISC的选择的频谱索引 设置组成每一帧的频谱分量。频镨索引分别采用0和1代表ISC的存在和不 存在。接下来,对频谱索引的值编码。根据与先前帧的相关性和相邻ISC的 分布选择随机模型,并且执行无损编码。接下来,对编码值执行比特打包。图9是示出对使用提取音频信号的重要频i普分量的设备编码的低比特率 音频信号进行解码的低比特率音频信号解码设备的框图。低比特率音频信号 解码设备包括无损解码器900、逆量化器920和F/T变换单元940。无损解码器900提取各组的随机模型信息,并且通过使用随机模型信息 恢复各组的指示ISC的存在的索引信息、量化器信息、量化步长、ISC分组 信息和音频信号量化值。逆量化器920参照恢复的量化器信息、量化步长和分组信息执行逆量化。F/T变换单元940将逆量化的值变换为时域信号。的音频信号的设备编码的低比特率音频信号进行解码的低比特率音频信号解 码方法的流程图。将参照图9和图10描述^^比特率音频信号解码方法和i殳备的操作。首先,通过无损解码器900提取帧的随机模型信息(操作1000)。接下来, 通过使用随机模型信息恢复指示ISC的存在的索引信息、量化器信息、量化 步长、ISC分组信息和音频信号量化值(操作1020)。接下来,由逆量化器920 根据恢复的量化器信息、量化步长和分组信息对量化值逆量化(操作1040)。 在逆量化之后,通过F/T变换单元940将逆量化的值变换为时域信号(操作 1060)。根据提取具有ISC的音频信号的方法和设备以及使用该方法和设备的低比特率音频信号编码/解码方法和设备,能够有效地对感知重要频谱分量编码 以获得低比特率的高声音质量。此外,能够通过使用心理模型提取感知重要 分量,无需相位信息执行编码,并且有效地代表低比特率频谱信号。此外,可 在需要低比特率音频编码方案的所有应用中和下一代音频方案中应用本发明。本发明总体发明构思也可实现为计算机可读记录介质上的计算机可读代 码。计算机可读记录介质是可存储其后由计算机系统读取的数据的任何数据 存储装置。计算机可读记录介质的例子包括只读存储器(ROM)、随机存取存储器(RAM)、 CD-ROM、磁带、软盘、关学数据存储装置和载波(例如,通过 互联网的数据传输)。计算机可读记录介质也可分布在网络连接的计算机系 统,从而以分布方式存储和执行计算机可读代码。此外,本发明所属领域的 编程人员容易解释实现本发明的功能性程序、代码和代码段。尽管已经显示和描述了本发明总体发明构思的一些实施例,但是本领域 的技术人员应该理解,在不脱离本发明总体发明构思的原理和精神的情况下, 可以对这些实施例进行改变,在权利要求及其等同物中限定本发明总体发明 构思的范围。
权利要求
1、一种音频信号编码和/或解码系统的方法,该方法包括根据心理模型对变换的频谱音频信号计算包括SMR值的感知重要性;根据计算的感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一ISC;和根据预定权重因数从选作为所述一个或多个第一ISC的频谱音频信号提取频谱峰值以选择将被用于对频谱音频信号编码的一个或多个第二ISC。
2、 如权利要求l所述的方法,其中,提取频i普峰值作为一个或多个第二 ISC的步骤包括根据权重因数将被获得的当前信号的频率附近的预定数量 的频i普值获得权重因数。
3、 如权利要求1所述的方法,还包括 获得与频谦音频信号的频带相应的SNR;和将具有低SNR的频带中峰值大于预定值的频谱分量选作为将被用于对 频谱音频信号编码的一个或多个第三ISC。
4、 一种音频信号编码和/或解码系统的方法,该方法包括 根据心理模型对变换的频谱音频信号计算包括SMR值的感知重要性; 根据计算的感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一ISC;和获得与具有所述一个或多个第一 isc的频谱音频信号的频带相应的多个另一ISC。
5、 一种低比特音频信号编码方法,包括根据心理模型对频语音频信号计算包括SMR值的感知重要性;根据感知重要性将掩蔽阈值小于所述频i普音频信号的掩蔽阈值的频谱音 频信号选作为一个或多个第一ISC;和根据预定权重因数从具有所述一个或多个第一 ISC的频谱音频信号提取 频谱峰值,并将该频谱峰值的频率选作为一个或多个第二ISC;和根据所述一个或多个第一 ISC和第二 ISC对频谱音频信号执行量化和无 损编码。
6、 如权利要求5所述的低比特率音频信号编码方法,其中,提取频i普峰值的步骤包括获得频语音频信号的频带的SNR,并且将具有低SNR的频带 中峰值大于预定值的频谱分量选作为一个或多个第三ISC。
7、 如权利要求5所述的低比特率音频信号编码方法,其中,计算包括频 谱音频信号的SMR值的感知重要性的步骤包括通过使用MDCT和MDST 来将时域音频信号变换为频谱音频信号,以产生频谱音频信号。
8、 如权利要求5所述的低比特率音频信号编码方法,其中,对频语音频 信号执行量化的步骤包括根据使用的比特量和量化误差执行分组以形成多个组,从而最小化附加 信息;根据SMR和所述多个组的动态范围的数据分布确定量化步长;和 通过使用所述多个组的预定量化器对频谱音频信号量化。
9、 如权利要求8所述的低比特率音频信号编码方法,其中,对频语音频 信号量化的步骤包括采用组的最大值规格化的值和量化步长确定量化器。
10、 如权利要求8所述的低比特率音频信号编码方法,其中,执行量化 的步骤包括执行Max-LIoyd量化。
11、 如权利要求8所述的低比特率音频信号编码方法,其中,对量化的 信号执行无损编码的步骤包括执行上下文算术编码。
12、 如权利要求11所述的低比特率音频信号编码方法,其中,执行上下 文算术编码的步骤包括使用组成频i普音频信号的帧的频谱分量产生一个或多个频谱索引以指示 第一ISC和第二ISC中的至少一个的存在;和根据与先前帧的相关性和相邻ISC的分布选择随机模型,并且对频谱音 频信号的量化值以及包括量化器信息、量化步长、分组信息和频语索引值的 附加信息执行无损编码。
13、 一种低比特率音频信号编码方法,包括根据心理模型计算包括频谱音频信号的SMR值的感知重要性; 根据感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频语信号选作为一个或多个第一ISC;获得具有第一 ISC的频语音频信号的频带的SNR,并且将具有低SNR 的频带中峰值大于预定值的频谱分量选作为 一个或多个另一 ISC;和对具有所述一个或多个第一 ISC和另一 ISC中的至少一个的频谱音频信号执行量化和无损编码。
14、 一种提取音频信号的分量的设备,包括心理建模单元,根据心理模型计算包括变换的频谱音频信号的SMR值 的感知重要性;第一 ISC选择单元,根据感知重要性将掩蔽阈值小于所述频谱音频信号 的掩蔽阈值的频语音频信号选作为一个或多个第一 ISC;和第二 ISC选择单元,根据预定权重因数从选作为笫一 ISC的频谱音频信 号提取频谱山,值以选"f奪一个或多个第二 ISC。
15、 如权利要求14所述的设备,其中,通过使用权重因数将被获得的当 前信号的频率附近的预定数量的频谱值获得第二 ISC选择单元的权重因数。
16、 如权利要求14所述的设备,还包括第三ISC选择单元,获得频i普音频信号的频带的SNR,并将具有低SNR 的频带中峰值大于预定值的频镨分量选作为一个或多个第三ISC。
17、 一种提取音频信号的分量的设备,包括心理建模单元,根据心理模型计算包括变换的频谱音频信号的SMR值 的感知重要性;第一 ISC选择单元,使用感知重要性将掩蔽阔值小于所述频谱音频信号 的掩蔽阈值的频i普音频信号选作为一个或多个第一ISC;和另一 ISC选择单元,获得与具有所述一个或多个第一 ISC的频谱音频信 号的频带相应的SNR,并且将具有低SNR的频带中峰值大于预定值的频谱分 量选作为一个或多个另一 ISC。
18、 一种低比特音频信号编码设备,包括心理建模单元,根据心理模型计算包括变换的频谱音频信号的SMR值 的感知重要性;第一ISC选择单元,使用SMR值将掩蔽阈值小于所述频谱音频信号的 掩蔽阈值的频语音频信号选作为第一 ISC;第二 ISC选择单元,根据预定权重因数从选作为第一 ISC的频谱音频信 号提取频i普峰值以选择第二 ISC;量化器,对与第一ISC和第二ISC相应的频谱音频信号量化;和无损编码器,对量化的信号执行无损编码。
19、 如权利要求18的低比特率音频信号编码设备,还包括第三ISC选择单元,获得频谱音频信号的频带的SNR,并且将具有低SNR 的频带中峰值大于预定值的频谱分量选作为第三ISC。
20、 如权利要求18的低比特率音频信号编码设备,还包括T/F变换单元,通过使用MDCT和MDST来将时域音频信号变换为频谱 音频信号。
21、 如权利要求18的低比特率音频信号编码设备,其中,量化器包括 分组单元,根据使用的比特量和量化误差对频谱音频信号执行分组以最小化附加信息;量化步长确定单元,根据SMR和各组的数据分布确定量化步长;和 量化器,通过使用各组的预定量化器对频谱音频信号量化。
22、 如权利要求21的低比特率音频信号编码设备,其中,量化器使用 Max-LIoyd量化对频谱音频信号量化。
23、 如权利要求21的低比特率音频信号编码设备,其中,无损编码器使 用上下文算术编码执行无损编码。
24、 如权利要求23的低比特率音频信号编码设备,其中,无损编码器包括索引单元,使用组成频i普音频信号的帧的频谱分量产生频谱索引以指示 第一ISC和第二ISC的存在;和随机模型无损编码器,根据与先前帧的相关性和相邻ISC的分布选择随 机模型,并且对频谱音频信号的量化值以及包括量化器信息、量化步长、分 组信息和频谱索引值的附加信息执行无损编码。
25、 一种低比特率音频信号编码设备,包括心理建模单元,根据心理模型计算包括变换的频谱音频信号的SMR值 的感知重要性;第一 ISC选择单元,使用感知重要性将掩蔽阈值小于所述频i普音频信号 的掩蔽阈值的频谱信号选作为第一 ISC;第三ISC选择单元,获得与选作为第一ISC的频谱音频信号中的频带相 应的SNR,并且将具有低SNR的频带中峰值大于预定值的频谱分量选作为另 一ISC;量化器,对具有第一ISC和所述另一ISC的频i普音频信号量化;和 无损编码器,对量化的信号执行无损编码。
26、 一种低比特音频信号解码方法,包括对音频信号恢复指示ISC的存在的索引信息、量化器信息、量化步长、 ISC分组信息和音频信号量化值;根据恢复的量化器信息、量化步长和分组信息对音频信号执行逆量化;和将逆量化的信号变换为时域信号。
27、 如权利要求26所述的低比特率音频信号解码方法,还包括 通过使用对音频信号的帧预测的随机模型信息对指示ISC的存在的索引信息、量化步长和ISC分组信息执行无损解码。
28、 如权利要求26所述的低比特率音频信号解码方法,还包括 通过使用预定随机模型对指示ISC的存在的索引信息、量化步长和ISC分组信息执行无损解码。
29、 如权利要求26所述的低比特率音频信号解码方法,恢复ISC的步骤 包括对ISC解码;和通过使用指示ISC的存在的索引信息将解码的ISC映射到频谱轴。
30、 一种低比特率音频信号解码设备,包括无损解码器,提取用于音频信号的帧的随机模型信息,并且通过使用该 随机模型信息恢复指示ISC的存在的索引信息、量化器信息、量化步长、ISC 分组信息和音频信号量化值;逆量化器,根据恢复的量化器信息、量化步长和分组信息对音频信号执 4亍逆量4匕;详pF/T变换单元,将逆量化的信号变换为时域信号。
31、 如权利要求30所述的低比特率音频信号解码设备,其中,无损解码 器通过使用对音频信号的帧预测的随机模型信息对指示ISC的存在的索引信 息、量化步长和ISC分组信息执行无损解码。
32、 如权利要求30所述的低比特率音频信号解码设备,其中,无损解码 器通过使用预定随机模型对指示ISC的存在的索引信息、量化步长和ISC分 组信息执行无损解码。
33、 如权利要求30所述的低比特率音频信号解码设备,其中,无损解码 器对ISC解码,并通过使用指示ISC的存在的索引信息将解码的ISC映射到步页^普^由。
34、 一种实现用于执行以下方法的计算机程序的计算机可读介质,该方 法包括根据心理模型计算包括变换的频谱音频信号的SMR值的感知重要性; 将掩蔽阔值小于所述频谱音频信号的掩蔽阔值的频谱音频信号选作为一个或多个第一ISC;和根据预定权重因数从选作为所述一个或多个第一 ISC的频谱音频信号提取频语峰值以选择将被用于对频谱音频信号编码的一个或多个第二 ISC。
35、 一种实现用于执行以下方法的计算机程序的计算机可读介质,该方 法包括对音频信号恢复指示ISC的存在的索引信息、量化器信息、量化步长、 ISC分组信息和音频信号量化值;根据恢复的量化器信息、量化步长和分组信息对音频信号执行逆量化;和将逆量化的信号变换为时域信号。
36、 一种音频信号编码和/或解码系统,包括编码器,根据频带的SMR值、以及权重因数和SNR中的一个选择具有 一个或多个ISC的频谱音频信号,并且根据关于选择的ISC的信息对频谱音 频信号编码;和解码器,根据所述信息对编码频谱音频信号解码。
37、 一种音频信号编码和/或解码系统,包括编码器,根据频谦音频信号的频带的SMR值、以及权重因数和SNR中 的一个选择具有一个或多个ISC的频谱音频信号,并且根据关于选择的ISC 的信息对频语音频信号编码。
38、 一种音频信号编码和/或解码系统,包括解码器,根据关于一个或多个ISC的信息对编码的音频信号解码。
全文摘要
一种提取具有重要频谱分量(ISC)的音频信号的方法和设备、以及使用该提取ISC的方法和设备的低比特率音频信号编码/解码方法。提取ISC的方法包括通过使用心理模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性,使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC;根据预定权重因数从选作为ISC的频谱音频信号提取频谱峰值以选择第二ISC。因此,可有效地对感知重要频谱分量编码,从而获得低比特率的高声音质量。此外,通过使用心理模型能够提取感知重要频谱分量,能够无需相位信息执行编码,并且能够有效地表示低比特率的频谱信号。此外,该方法和设备可被应用到需要低比特率音频编码方案的所有应用中以及下一代音频方案中。
文档编号G10L19/00GK101223576SQ200680025920
公开日2008年7月16日 申请日期2006年7月14日 优先权日2005年7月15日
发明者吴殷美, 康斯坦丁·奥斯波夫, 波利斯·库德里亚索夫, 金重会 申请人:三星电子株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1