低比特率音频信号解码方法

文档序号：2833588阅读：380来源：国知局

专利名称：低比特率音频信号解码方法
技术领域：
本发明总体发明构思涉及一种音频信号编码和/或解码系统，更具体地讲，涉及一种提取音频信号的重要频谱分量的方法和设备以及使用其的对低比特率音频信号编码和解码的方法和设备。
背景技术：
“MPEG(运动图像专家组)音频”是用于高质量高性能立体声编码的IS0/IEC标准。MPEG音频与运动图像编码根据MPEG的IS0/IEC SC29/WG11 一起被标准化。对于MPEG音频，基于32个频带的子带编码(频带分解编码)和改进离散余弦变换(MDCT)用于压缩，具体地讲，通过使用心理特征执行高性能压缩。与传统压缩编码方案相比，MPEG音频可实现
高质量的声音。为了高性能地压缩音频信号，MPEG音频利用“感知编码”压缩方案以减小音频信号的压缩量，在该“感知编码”压缩方案中，通过使用感测音频信号的人类的敏感特性来去除详细的低敏感信息。此外，在MPEG音频中，无声阶段的最小可听限制和掩蔽特性主要用于使用听觉心理特征的感知编码。无声阶段的最小可听限制是听觉可感知的声音的最小级别。最小可听限制与在无声阶段听觉可感知的噪声的限制有关。最小可听限制根据声音的频率改变。在一些频率，可听到比最小可听限制高的声音，但是在另一些频率，可能不会听到比最小可听限制低的声音。此外，特定声音的感测限制可根据与该特定声音一起听到的其他声音大大改变。这被称为“掩蔽效应”。发生掩蔽效应的频率的宽度被称为临界带。为了有效地利用听觉心理特征(例如，临界带)，将声音信号分解为频谱分量很重要。为此，频带被分为32个子带，随后执行子带编码。另外，在MPEG音频中，滤波器组用于消除32个子带的混叠噪声。

发明内容
技术问题MPEG音频包括使用滤波器组和心理声学模型的比特分配和量化。通过MDCT产生的系数分配有最佳量化比特，并且通过使用心理声学模型2被压缩。用于分配最佳比特的心理声学模型2通过使用扩散函数基于FFT来估计掩蔽效应。因此，需要相对大量的复杂度。通常，对于低比特率(32kbps或更少)音频信号的压缩，可分配给信号的比特数不足以量化音频信号的所有频谱分量及其无损编码。因此，需要提取感知的重要频谱分量(ISC)和量化及其无损编码。技术方案本发明总体发明构思提供一种从音频信号提取重要频谱分量以低比特率压缩音频信号的方法和设备。本发明总体发明构思还提供一种使用从音频信号提取重要频谱分量的方法和设备的低比特率音频信号编码方法和设备。本发明总体发明构思还提供一种对通过低比特率音频信号编码方法和设备编码的低比特率音频信号解码的低比特音频信号解码方法和设备。将在接下来的描述中部分阐述本发明另外的方面和优点，还有一部分通过描述将是清楚的，或者可以经过本发明总体发明构思的实施而得知。可通过提供一种提取音频信号的重要频谱分量(ISC)的方法来实现本发明总体发明构思的前述和/或其他方面和优点，该方法包括:通过使用心理声学模型计算包括变换的频谱音频信号的信号掩蔽比(SMR)值的感知重要性，使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一 ISC ;根据预定权重因数从选作为第一 ISC的频谱音频信号提取频谱峰值以选择第二 ISC。可通过使用权重因数将被获得的当前信号的频率附近的预定数量的频谱值获得权重因数。该方法还可包括获得频带的SNR(信噪比)；和将具有低SNR的频带中峰值大于预定值的频谱分量选作为ISC。还可通过提供一种提取音频信号的重要频谱分量(ISC)的方法来实现本发明总体发明构思的前述和/或其他方面和优点，该方法包括:通过使用心理声学模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性；使用SMR将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一 ISC ;和获得选作为第一 ISC的频谱音频信号中的频带的SNR以将具有低SNR的频带中峰值大于预定值的频谱分量的频谱音频信号选作为另一 ISC。还可通过提供一种低比特率音频信号编码方法来实现本发明总体发明构思的前述和/或其他方面和优点，该方法包括:通过使用心理声学模型计算包括频谱音频信号的SMR(信号掩蔽比)值的感知重要性；使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一 ISC ;和根据预定权重因数从选作为第一 ISC的频谱音频信号提取频谱峰值，并将具有该频谱峰值的频率的频谱音频信号选作为第二 ISC ;和对具有第二 ISC的频谱音频信号执行量化和无损编码。提取频谱峰值的步骤可包括:获得频带的SNR(信噪比)，并且通过使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为第三ISC。低比特率音频信号编码方法还可包括:通过使用MDCT (改进离散余弦变换)和MDST (改进离散正弦变换)来将时域音频信号变换为频谱音频信号以产生频谱音频信号。对ISC音频信号执行量化的步骤可包括:根据使用的比特量和量化误差将音频信号分成多个组以最小化附加信息；根据SMR(信号掩蔽比)和所述多组的动态范围的数据分布确定量化步长；和通过使用所述多组的一个或多个预定量化器对音频信号量化。可通过使用采用组的最大值规格化的值和量化步长确定量化器。量化可以是Max-Lloyd量化。对量化的信号执行无损编码的步骤可包括:上下文算术编码。执行上下文算术编码的步骤可包括:采用指示ISC的存在的频谱索引表示组成帧的频谱分量；和根据与先前帧的相关性和相邻ISC的分布选择随机模型，以对音频信号的量化值以及包括量化器信息、量化步骤、分组信息和频谱索引值的附加信息执行无损编码。还可通过提供一种低比特率音频信号编码方法来实现本发明总体发明构思的前述和/或其他方面和优点，该方法包括:通过使用心理声学模型计算包括频谱音频信号的SMR(信号掩蔽比)值的感知重要性；使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱信号选作为第一 ISC ;获得选作为第一 ISC的频谱音频信号中的频带的SNR，并且使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为另一 ISC ;和对于具有另一 ISC的频谱音频信号执行量化和无损编码。还可通过提供一种提取音频信号ISC(重要频谱分量)的设备来实现本发明总体发明构思的前述和/或其他方面和优点，该设备包括:心理建模单元，通过使用心理声学模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性；第一 ISC选择单元，使用SMR将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC ;和第二 ISC选择单元，根据预定权重因数从选作为第一 ISC的频谱音频信号提取频谱峰值并选择第二 ISC。可通过使用权重因数将被获得的当前信号的频率附近的预定数量的频谱值获得第二 ISC选择单元的权重因数。该设备还可包括:第三ISC选择单元，获得频带的SNR(信噪比)，并通过使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为第三ISC。还可通过提供一种提取音频信号ISC(重要频谱分量)的设备来实现本发明总体发明构思的前述和/或其他方面和优点，该设备包括:心理建模单元，通过使用心理声学模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性；第一 ISC选择单元，使用SMR将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC ;和另一 ISC选择单元，获得选作为第一 ISC的频谱音频信号中的频带的SNR，并且使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为另一 ISC。还可通过提供一种低比特音频信号编码提取设备来实现本发明总体发明构思的前述和/或其他方面和优点，该设备包括:心理建模单元，通过使用心理声学模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性；第一 ISC(重要频谱分量)选择单元，使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一 ISC ;第二 ISC选择单元，根据预定权重因数从选作为第一 ISC的频谱音频信号提取频谱峰值并且选择第二 ISC ;量化器，对具有第二 ISC的频谱音频信号量化；和无损编码器，对量化的信号执行无损编码。低比特率音频信号编码设备还可包括:第三ISC选择单元，获得频带的SNR(信噪比)，并且使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为第三ISC。低比特率音频信号编码设备还可包括:T/F变换单元，通过使用MDCT (改进离散余弦变换)和MDST (改进离散正弦变换)来将时域音频信号变换为频谱音频信号。量化器可包括:分组单元，根据使用的比特量和量化误差将频谱音频信号分为多个组以最小化附加信息；量化步长确定单元，根据SMR(信号掩蔽比)和所述多个组的数据分布(动态范围)确定量化步长；和组量化器，通过使用所述多组的预定量化器对频谱音频信号量化。组量化器的量化可以是Max-Lloyd量化，无损编码器的无损编码可以是上下文算术编码。
无损编码器可包括:索引单元，采用指示ISC的存在的频谱索引表示组成帧的频谱分量；随机模型无损编码器，根据与先前帧的相关性和相邻ISC的分布选择随机模型，并且对频谱音频信号的量化值以及包括量化器信息、量化步长、分组信息和频谱索引值的附加信息执行无损编码。还可通过提供一种低比特音频信号编码设备来实现本发明总体发明构思的前述和/或其他方面和优点，该设备包括:心理建模单元，通过使用心理声学模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性；第一 ISC(重要频谱分量)选择单元，使用感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一 ISC ;另一 ISC选择单元，获得选作为第一 ISC的频谱音频信号中的频带的SNR，并且通过使用SNR将具有低SNR的频带中峰值大于预定值的频谱分量选作为另一 ISC ;和量化器，对具有所述另一 ISC的频谱音频信号量化；和无损编码器，对量化的信号执行无损编码。还可通过提供一种低比特音频信号解码方法来实现本发明总体发明构思的前述和/或其他方面和优点，该方法包括:恢复指示ISC(重要频谱分量)的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值；参照恢复的量化器信息、量化步长和分组信息对音频信号执行逆量化；和将逆量化的值变换为时域信号。还可通过提供一种低比特音频信号解码设备来实现本发明总体发明构思的前述和/或其他方面和优点，该设备包括:无损解码器，提取用于帧的随机模型信息，并且通过使用该随机模型信息恢复指示ISC(重要频谱分量)的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值；逆量化器，参照恢复的量化器信息、量化步长和分组信息执行逆量化；和F/T变换单元，将逆量化的值变换为时域信号。还可通过提供一种实现用于执行以下方法的计算机程序的计算机可读介质来实现本发明总体发明构思的前述和/或其他方面和优点，该方法包括:根据心理声学模型计算包括变换的频谱音频信号的信号掩蔽比(SMR)值的感知重要性，使用感知重要性将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为一个或多个第一重要频谱分量(ISC);根据预定权重因数从选作为一个或多个第一 ISC的频谱音频信号提取频谱峰值以选择将被用于对频谱音频信号编码的一个或多个第二 ISC。还可通过提供一种实现用于执行以下方法的计算机程序的计算机可读介质来实现本发明总体发明构思的前述和/或其他方面和优点，该方法包括:对音频信号恢复指示重要频谱分量(ISC)的存在的索引信息、量化器信息、量化步长、ISC分组信息和音频信号量化值；根据恢复的量化器信息、量化步长和分组信息对音频信号执行逆量化；和将逆量化的信号变换为时域信号。还可通过提供一种音频信号编码和/或解码系统来实现本发明总体发明构思的前述和/或其他方面和优点，该系统包括:编码器，根据频带的信号掩蔽比(SMR)值、以及权重因数和信噪比(SNR)中的一个选择具有一个或多个重要频谱分量(ISC)的频谱音频信号，并且根据关于选择的ISC的信息对频谱音频信号编码；和解码器，根据所述信息对编码频谱音频信号解码。还可通过提供一种音频信号编码和/或解码系统来实现本发明总体发明构思的前述和/或其他方面和优点，该系统包括:编码器，根据频带的信号掩蔽比(SMR)值、以及权重因数和信噪比(SNR)中的一个选择具有一个或多个重要频谱分量(ISC)的频谱音频信号，并且根据关于选择的ISC的信息对频谱音频信号编码。还可通过提供一种音频信号编码和/或解码系统来实现本发明总体发明构思的前述和/或其他方面和优点，该系统包括:解码器，根据关于ISC的信息对编码的音频信号解码。可根据频谱音频信号的频带的信号掩蔽比(SMR)值、以及权重因数和信噪比(SNR)中的一个获得I SC。

通过下面结合附图对实施例进行的详细描述，本发明总体发明构思的这些和/其他方面和优点将会变得更加清楚和更易于理解，其中:图1是示出根据本发明总体发明构思的实施例的从输入的音频信号提取重要频谱分量以按低比特率压缩音频信号的设备的框图；图2是示出根据本发明总体发明构思的实施例的从输入的音频信号提取重要频谱分量以按低比特率压缩音频信号的方法的流程图；图3是示出根据本发明总体发明构思的实施例的从输入的音频信号提取重要频谱分量以按低比特率压缩音频信号的方法的示意图；图4是示出根据本发明总体发明构思的实施例的使用从输入的音频信号提取重要频谱分量的设备按低比特率压缩音频信号的低比特率音频信号编码设备的构造的框图；图5是示出图4的设备的量化器的框图；图6是示出图4的设备的无损编码单元的框图；图7是示出根据本发明总体发明构思的实施例的使用从音频信号提取重要频谱分量的方法的低比特率音频信号编码方法的流程图；图8是示出图7的方法的ISC量化的详细流程图；图9是示出根据本发明总体发明构思的实施例的对通过使用从音频信号提取重要频谱分量的设备编码的低比特率音频信号进行解码的低比特率音频信号解码设备的框图；和图10是示出根据本发明总体发明构思的实施例的对通过使用提取音频信号的重要频谱分量的设备编码的低比特率音频信号进行解码的低比特率音频信号解码方法的流程图。
具体实施例方式现在将对本发明总体发明构思的实施例进行详细参照，其示例在附图中表示，在整个附图中，相同的标号始终表示相同的部件。以下通过参考附图描述实施例以解释本发明总体发明构思。图1是示出根据本发明总体发明构思的实施例的从输入的音频信号提取重要频谱分量(ISC)以按低比特率压缩音频信号的设备的框图。音频信号ISC提取设备包括心理建模单元100和ISC选择单元150。心理建模单元100对根据心理特征变换的频谱音频信号计算信号掩蔽比(SMR)值。通过使用改进离散余弦变换(MDCT)和改进离散正弦变换(MDST)(而不是离散傅立叶变换(DFT))产生输入到心理建模单元100的频谱音频信号。由于MDCT和MDST分别代表音频信号的实部和虚部，因此可表示音频信号的相位信息。因此，可解决DFT和MDCT之间不匹配的问题。当通过使用经受了 DFT的时域音频信号量化MDCT的系数时发生不匹配的问题。ISC选择单元150通过使用SMR值从音频信号选择ISC。ISC选择单元150包括第一 ISC选择器152、第二 ISC选择器154和第三ISC选择器156以分别选择一个或多个第一ISC、第二 ISC和第三ISC。一个或多个第一 ISC、第二 ISC和/或第三ISC可被称为ISC。第一 ISC选择器152通过使用由心理建模单元100计算的SMR值选择掩蔽阈值小于频谱音频信号的掩蔽阈值的一个或多个频谱信号作为一个或多个第一重要频谱分量(ISC)。第二 ISC选择器154根据预定权重因数通过从在第一 ISC选择器152中选作为一个或多个第一 ISC的音频信号提取频谱峰值来选择一个或多个第二 ISC。在一个或多个第一 ISC中搜索频谱峰值。基于信号的大小确定频谱峰值。由经过MDCT和MDST变换的信号的实部平方加上虚部平方的根来定义信号的大小。通过使用该信号附近的频谱值获得该信号的权重因数。通过使用当前信号(当前信号的权重因数将被获得)的频率附近的预定数量的频谱值来获得第二 ISC选择器154中的权重因数。可通过使用等式I获得该权重因数。等式权利要求
1.一种低比特率音频信号解码方法，包括: 提取音频信号的帧的概率模型信息；针对音频信号产生指示感知重要频谱分量的存在的索引信息、量化器信息、量化步长、分组信息和音频信号量化值；根据量化器信息、量化步长和分组信息对音频信号执行逆量化；将逆量化的信号变换为时域信号。
2.如权利要求1所述的低比特率音频信号解码方法，其中，通过考虑使用的比特量和量化误差对音频信号的频谱分量进行分组以形成多个组来获得分组信息，以便最小化附加信息。
3.如权利要求1所述的低比特率音频信号解码方法，还包括: 通过使用提取的概率模型信息对指示感知重要频谱分量的存在的索引信息、量化步长和分组信息执行无损解码。
4.如权利要求1所述的低比特率音频信号解码方法，其中，产生感知重要频谱分量的步骤包括: 对感知重要频谱分量进行解码；通过使用指示感知重要频谱分量的存在的索引信息将解码的感知重要频谱分量映射到频谱轴。
5.一种低比特率音频信号解码设备，包括: 无损解码器，提取用于音频信号的帧的概率模型信息，并且通过使用该概率模型信息产生指示感知重要频谱分量的存在的索引信息、量化器信息、量化步长、分组信息和音频信号量化值；逆量化器，根据量化器信息、量化步长和分组信息对音频信号执行逆量化；和 F/T变换单元，将逆量化的信号变换为时域信号。
6.如权利要求5所述的低比特率音频信号解码设备，其中，通过考虑使用的比特量和量化误差对音频信号的频谱分量进行分组以形成多个组来获得分组信息，以便最小化附加信息。
7.如权利要求5所述的低比特率音频信号解码设备，其中，无损解码器通过使用提取的概率模型对指示感知重要频谱分量的存在的索引信息、量化步长和分组信息执行无损解码。
8.如权利要求5所述的低比特率音频信号解码设备，其中，无损解码器对感知重要频谱分量进行解码，并且通过使用指示感知重要频谱分量的存在的索引信息将解码的感知重要频谱分量映射到频谱轴。
9.一种音频信号编码和/或解码系统，包括: 编码器，选择具有根据频带的信号掩蔽比SMR值、权重因数和信噪比SNR中的至少一个提取的一个或多个感知重要频谱分量的频谱音频信号，并且根据关于选择的感知重要频谱分量的信息对频谱音频信号编码，所述信息包括分组信息；和解码器，根据所述信息对编码的频谱音频信号解码。
10.如权利要求9所述的音频信号编码和/或解码系统，其中，通过考虑使用的比特量和量化误差对音频信号的频谱分量进行分组以形成多个组来获得分组信息，以便最小化附加信息。
11.一种音频信号编码系统，包括: 编码器，选择具有根据频谱音频信号的频带的信号掩蔽比SMR值、权重因数和信噪比SNR中的至少一个提取的一个或多个感知重要频谱分量的频谱音频信号，并且根据关于选择的感知重要频谱分量的信息对频谱音频信号编码，所述信息包括分组信息。
12.如权利要求11所述的音频信号编码系统，其中，通过考虑使用的比特量和量化误差对音频信号的频谱分量进行分组以形成多个组来获得分组信息，以便最小化附加信息。
13.一种音频信号解码系统，包括: 解码器，对编码的频谱音频信号解码，其中，通过选择具有根据频带的信号掩蔽比SMR值、权重因数和信噪比SNR中的至少一个提取的一个或多个感知重要频谱分量的频谱音频信号，并且根据关于选择的感知重要频谱分量的信息对频谱音频信号编码，已经产生了编码的频谱音频信号，所述信息包括分组信息。
14.如权利要求13所述的音频信号解码系统，其中，通过考虑使用的比特量和量化误差对音频信号的频谱分量进行分组`以形成多个组来获得分组信息，以便最小化附加信息。
全文摘要
一种提取具有重要频谱分量(ISC)的音频信号的方法和设备、以及使用该提取ISC的方法和设备的低比特率音频信号编码/解码方法。提取ISC的方法包括通过使用心理声学模型计算包括变换的频谱音频信号的SMR(信号掩蔽比)值的感知重要性，使用SMR值将掩蔽阈值小于所述频谱音频信号的掩蔽阈值的频谱音频信号选作为第一ISC；根据预定权重因数从选作为ISC的频谱音频信号提取频谱峰值以选择第二ISC。因此，可有效地对感知重要频谱分量编码，从而获得低比特率的高声音质量。此外，通过使用心理声学模型能够提取感知重要频谱分量，能够无需相位信息执行编码，并且能够有效地表示低比特率的频谱信号。
文档编号G10L19/035GK103106902SQ20121044138
公开日2013年5月15日申请日期2006年7月14日优先权日2005年7月15日
发明者金重会, 吴殷美, 康斯坦丁·奥斯波夫, 波利斯·库德里亚索夫申请人:三星电子株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金重会;吴殷美;康斯坦丁·奥斯波夫;波利斯·库德里亚索夫;
技术所有人：三星电子株式会社;
我是此专利的发明人

上一篇：复杂网络声音同步演示系统及演示方法
上一篇：复合多层机械阻抗板的薄型宽频吸声结构的制作方法