用于立体声编码的方法、装置和计算机程序产品的制作方法

文档序号：2830574阅读：193来源：国知局

专利名称：用于立体声编码的方法、装置和计算机程序产品的制作方法
技术领域：
本发明的示例性实施例总体上涉及音频编码系统，并且特别地涉及用于改进立体声信号的编码条件的技术。
背景技术：
在音频编码系统中，输入的时域音频信号被压缩，以便显著降低表示该信号所需的比特率。理想地，编码信号的比特率是这样的，即，该比特率符合传输信道的限制或最小化编码文件的大小。前者通常用于实时通信以及流式服务中，而当在本地存储音频内容或者通过高音频质量进行下载时，对后者的部署越来越广泛。
通常音频编码器目的在于最小化在任何给定比特率下的感知失真
(perceptual distortion)。然而，比特率越低，对于编码器来说，满足目标比特率和零感知失真就越有挑战性。另一编码情形是在保持感知失真听不见的同时最小化编码文件大小。
在两种情况下，需要应用高级编码模型和技术来最大化终端用户体验。通常，最终定义任何编码系统的整体性能的是具有最坏情况信号(即，难以编码的信号)的(编码)性能。定义任何编码系统的整体性能的另一因素是为了实现给定比特率或音频质量级别而需要的资源以及编码速度。对于商业应用来说，并且尤其对于移动使用来说，编码速度和存储需求常常扮演重要角色。
在尝试实现更低比特率而不降低感知失真的情况下，应当开发并充分利用新的音频编码方法。已经在现有技术的音频编码中广泛使用的这些方法中的一种方法是立体声信号的高效编码。感知音频编码器在频域对输入信号进行编码，因为在频域中可以最好地描述人的听觉特性。频镨样本通常基于频带而被量化，并且量化器通过增加或降低相应的量化器步长来使
量化噪声成形，直到噪声刚好低于听觉掩蔽门限(auditory masking threshold )。
一方面，所引入的感知失真对人耳来说是听不见的。另一方面，这限制了最低可能的比特率。从文献已知，可以借助于中侧(M/S, Mid-Side) 和强度立体声(IS)编码来最好地描述和实现对立体声信号的编码。在 M/S立体声编码中，左和右(L/R)输入声道净皮变换成和差信号(sum and difference signals )。(参见J. D. Johnston和A. J. Ferreira， "Sum-difference stereo transform coding" ， /C4S5P-92 Co"/emice及m /^， 1992， pp. 569-572 (下文为)，由此通过引用的方式将其内容全部合并于此)。特别地，中央声道(mid channel)是左声道和右声道的平均，而侧声道(sidechannel)是被二所除的两个声道之间的差。然后，选择要求最低数目的比特以达到零感知失真的声道组合(即，L/R相对于M/S )。对于最大编码效率来说，该变换按照与频率和时间有关的方式来完成。M/S 立体声编码对高质量、高比特率立体声编码尤其有用。
对于尝试达到较低的立体声比特率，IS立体声编码通常已经结合M/S 编码来4吏用。在IS编码中，一部分频语仅按照单声道模式(mono mode) 来编码，并且通过传输用于左声道和右声道的不同标度因子(scaling factor)来重新构造立体声图像(stereo image )。(参见1996年7月授予美国飞利浦公司的才示题为 "Subband coded digital transmission system using some composite signal"的美国专利No. 5,539,829 (下文中为"，829 专利，，)，以及1997年2月授予美国飞利浦公司的标题为"Subband coded digital transmission system using some composite signals"的美国专利No. 5,606,618 (下文中为"，618专利，，)，由此通过引用的方式将其各自的内容全部合并于此)。然而，众所周知，IS立体声在低频处表现很差，因而限制了可用的比特率范围。
在低比特率(例如，低于1.5bps )处，对M/S立体声编码的使用由于可用比特的缺乏而造成通常不能保持全部空间图像。经常发生从一个声道到其它声道的也被称为串音(cross talk)的谱泄露。这种退化(degradation) 将对输出质量具有明显影响。当空间图像在左声道和右声道之间没有均匀分布时，该退化尤其令人烦扰。
因此，需要改进在一系列比特率之上的编码。

发明内容
整体而言，本发明的示例性实施例尤其通过提供用于在任何给定比特率下实现高立体声质量的技术，来提供对已知现有技术的改进。特别地，根据示例性实施例，在使用中侧(M/S)立体声编码(即，将左和右(L/R) 输入信号变换成中央和侧信号(M/S)，并且在两个信号对之间进行选择) 时，当在L/R和M/S信号之间进行选择之前，可以基于在左输入信号与右输入信号之间的能量差，对在进行该判定中所使用的掩蔽门限进行修改。当
在两个输入声道的能量级别之间存在大差异时，这指示一个输入声道在感知上比另一个更重要。该听觉特征应当被包括在编码过程中，以便获得可能的最佳质量。因此，才艮据示例性实施例，具有较少能量的左信号或右信号的掩蔽门限将按比例向上调整，从而指示在不创建可听人为因素 (audible artifacts)的情况下，更大量的噪声是可允许的。更大量的可允许噪声还降低了对相应的输入声道进行编码所需的比特量，因而增加了将选择L/R输入信号而不是与其对应的M/S信号的可能性。在一个输入声道在感知上比另一个更为主导的情况下，优选L/R输入信号，以便限制声道串音的扩散(这通常同样被感知为十分恼人的人为因素)。另外，在一个示例性实施例中，当在L/R相对于M/S信号的情况下进行选择之后，以及在量化所选择的信号之前，可以对最后的掩蔽门限进行进一步的修改，以便由量化器在期望比特率与多个可用比特之间创建更好的匹配。这通过向另一声道分派更多可允许的噪声而改进了在感知上更为主导的输入声道的质量。在量化器开始用完比特的情况下，将针对在感知上较不重要的输入声道发生粗略量化，留下更重要的比特用于主导声道的编码。依照一个方面，提供了一种立体声编码方法。在一个示例性实施例中，
该方法可以包括(1)接收左和右输入信号；(2)导出与相应的左和右输入信号相关联的左和右掩蔽门限；以及(3)至少部分基于在与相应的左和右输入信号相关联的能量之间的关系，修改左或右掩蔽门限中的至少一个。
在一个示例性实施例中，该方法可以进一步包括确定与相应的左和右输入信号相关联的能量。与左或右输入信号中的一个相关联的能量将包括最大能量，而与其它输入信号相关联的能量将包括最小能量。然后可以至少部分基于最大能量与最小能量的比值来确定标度值(sack value)。该标度值可以与预定门限进行比较，并且在标度值超过预定门限的情况下，该方法可以进一步包括修改与包括最小能量的输入信号相关联的掩蔽门限。
根据该示例性实施例，修改掩蔽门限可以涉及将所导出的掩蔽门限乘以门限标度，所述门限标度与预定值或所确定的标度值中的较小值相等。
在另一示例性实施例中，该方法可以进一步包括至少部分基于左和右输入信号来确定中央和侧信号。在一个示例性实施例中，这可以涉及对左和右输入信号进行平均以便确定中央信号，以及取左和右输入信号的差并且将该差除以二，从而确定侧信号。然后，该方法可以进一步包括至少部分基于左和右掩蔽门限，在左和右输入信号与中央和侧输入信号之间进行选择。在该示例性实施例中，修改左或右掩蔽门限的步骤可以当在两个信号对之间进行选择之前实现。在两个信号对之间进行选择可以涉及至少部分基于左和右掩蔽门限来确定与左和右输入信号相关联的第一组合感知熵(entropy);至少部分基于中央和侧掩蔽门限来确定与中央和侧信号相关联的第二组合感知熵；以及将第一和第二组合感知熵进行比较以确定哪个更低。
在又一示例性实施例中，该方法还可以包括在选择了左和右输入信号的情况下，进一步4务改左或右掩蔽门限中的至少一个，或者在选择了中央和侧信号的情况下，进一步修改中央或侧掩蔽门限中的至少一个。然后，可以至少部分基于对应的掩蔽门限来量化所选择的信号。
依照另一方面，提供了用于立体声编码的装置。在一个示例性实施例，
该装置可以包括编码器，所述编码器被配置以便(1)接收左和右输入信号；(2)导出与相应的左和右输入信号相关联的左和右掩蔽门限；以及(3)至少部分基于在与相应的左和右输入信号相关联的能量之间的关系，l务改左或右掩蔽门限中的至少一个。
根据又一方面，提供了一种被配置以便实现立体声编码的设备。在一个示例性实施例中，该设备可以包括(1)用于接收左和右输入信号的装置；(2)用于导出与相应的左和右输入信号相关联的左和右掩蔽门限的装置；以及(3)用于至少部分基于在与相应的左和右输入信号相关联的能量之间的关系来修改左或右掩蔽门限中的至少一个的装置。
依照又一方面，提供了一种用于立体声编码的计算积一呈序产品。该计算机程序产品含有在其中存储了计算机可读程序代码部分的至少一个计
算机可读存储介质。一个示例性实施例的计算机可读程序代码部分包括 (1)第一可执行部分，用于接收左和右输入信号；(2)第二可执行部分，用于导出与相应的左和右输入信号相关联的左和右掩蔽门限；以及(3) 第三可执行部分，用于至少部分基于在与相应的左和右输入信号相关联的能量之间的关系，^"改左或右掩蔽门限中的至少一个。

因而总体而言已经描述了本发明的示例性实施例，现在将参照附图，
附图不一定按比例绘制，并且在附图中
图l是将从本发明的示例性实施例受益的编码和解码系统的框图2是根据本发明的示例性实施例的编码器的示意性才匡图3是根据本发明的示例性实施例的能够操作的移动台的示意性框
图；以及图4是图示了根据本发明的示例性实施例为了提供改进的中侧立体声编码而可以采取的操作的流程图。
具体实施例方式
现在将参照附图在下文中更充分地描述本发明的示例性实施例，在附图中示出了一些而不是所有的本发明实施例。实际上，本发明的示例性实施例可以以很多不同的形式来体现，并且不应当被解释为限于在此阐述的实施例；相反，提供这些实施例以便本公开将满足可应用的法律要求。贯穿全文相同的数字指的是相同的元件。
概述
整体而言，本发明的示例性实施例提供了一种改进的技术用于实现中侧(M/S)立体声编码，其可以以所有比特率(包括低比特率)来递送改进的立体声质量。根据示例性实施例，附加步骤被添加到编码过程，由此当在信号对之间进行选择之前，修改了在对于何时将使用中央和侧信号而不是左和右输入信号所进行的确定中使用的参数。特别地，可以基于在两个输入信号的能量之间的关系来修改与左或右输入信号相关联的掩蔽门限。例如，在左和右输入信号的最大能量与这两个信号的最小能量的比值超过预定门限的情况下，可以按比例调整与具有这两个信号的最少能量 (即，最小能量)的输入信号相关联的掩蔽门限。该调整的结果是使得在一个输入声it^感知上比另一个更重要的情况下，选择L/R信号而不是与其对应的M/S信号。这是有益的，因为在两个输入声道之间的能量级别显示大差异的情况下，L/R输入信号是优选的。另外，根据一个示例性实施例，一旦已经进行了在信号对之间的选择，就可以再次基于在左和右输入信号的能量之间的关系，进一步修改所选择的信号的掩蔽门限。该进一步的修改改进了在用于量化的可用比特数与期望比特率之间的匹配。特别地，该实施例通过向另一声道分派更多可允许的噪声，改进了在感知上更为主导的输入信道的质量。在量化器开始用完比特的情况下，粗略量化将针对在感知上较不重要的输入信道而发生，留下更重要的比特用于主导声道的
1编码。
整体系统和通用M/S立体声编码器
现在参照图1，图1提供了根据本发明示例性实施例的整体音频编码和解码系统的基^f匡图。如图所示，整体系统可以包括编码器102 (例如，高级音频编码(AAC)编码器，或者具有i普带复制的增强型AAC编码器 (eAAC+))，其净皮配置以^更接收音频信号101，按照例如以下所讨论的方式来对信号进行编码，以及通过通信信道103向解码器104传送所编码的音频信号。
特别地，如图2所示，图2提供了才艮据一个示例性实施例的编码器102 的较为详细的图示，编码器102可以包括左和右时间-频率映射器201L和 201R，左和右时间-频率映射器201L和201R被配置以便分别在时域中接收左和右音频输入信号，以及使用例如傅立叶变换将这些信号转换到频域中。编码器102可以进一步包括用于生成左、右、中央和侧掩蔽门限幼&、沩Of、沩和沩/^的装置，诸如门限生成处理元件202。所生成的掩蔽门限定义了所允许的噪声，可以在不创建可听人为因素的情况下将所允许的噪声引入每个谱带，并且所允许的噪声基于的是由编码器102所接收到的左和右音频输入信号以及心理声学模型(psychoacoustical model )。所使用的模型的细节和实施方式在本发明的示例性实施例的范围之外，但是可以基于例:fi口在E. Zwicker、 H. Fasti在"Psychoacoustics, Facts and Models" Springer画Verlag, 19卯的第四章中或者ISO/IEC JTC1/SC29/WG11 (MPEG-2 AAC)， Generic Coding of Moving Pictures and Associated Audio, Advanced Audio Coding, International Standard 13818-7, ISO/IEC， 1997中所描述的模型。
另外，编码器102可以包括用于将左和右输入信号变换成中央和侧信号以及用于选择将要使用的信号组合的装置，诸如变换和选择处理元件 203。特别地，如上所述，中央信号可以通过将左和右输入信号进行平均来生成，而侧信号可以通过取这两个信号之间的差并除以二来生成。一旦已经生成了中央和侧信号，便可以进行关于哪些信号(即，L/R或M/S)需要最低比特率或产生最大编码增益的确定。如下面较为详细讨论的，本发
明的示例性实施例基于在左和右输入信号之间的能量差，通过修改由202 所生成的掩蔽门限中的一个而改进了该判定进行过程。通过修改掩蔽门限，在两个输入声道中的一个在感知上比另一个更为主导的情况下，将选择 L/R信号而不是与其对应的M/S信号。
编码器102可以进一步包括量化器204和比特流多路复用器205，量化器204被配置以便量化所选择的信号(即，L/R信号或M/S信号)，从而实现期望比特率，而比特流多路复用器205被配置以使基于量化器204 的输出来创建比特流。如本领域的普通技术人员将认识的，编码器102的任何以上元件均可以包括用于依照本发明的示例性实施例来实现一个或多个上述功能的各种装置，包括在此较为特别示出并描述的那些装置。然而应当理解，一个或多个元件可以包括用于实现一个或多个类似功能的备选装置，而不背离本发明的精神和范围。同样，编码器102的元件可以包括全硬件组件、全软件组件，或者硬件和软件组件的任何组合。例如，门限
元件中体现，诸如孩i处理器、专用集成电路(ASIC)等。
返回图1,在收到所编码的信号时，于是，解码器104可以被配置以便解码所接收到的信号，从而输出原始解码的音频信号101'。如本领域的普通技术人员所已知的，任何数目的电子设备(例如，蜂窝电话、个人数字助理(PDA)、膝上型计算机、个人计算机(PC)等)均可以包括上述编码器102和解码器104。通过例子，现在参照图3，图3图示了一种类型的电子设备，其可以包括上述编码器102或解码器104。如图所示，电子设备可以是移动台10，并且特别地，可以是蜂窝电话。然而，应当理解，图示和下文中所描述的移动台仅是可以受益于本发明的一种类型的电子设备的图示，并且因此，不应当视为限制本发明的范围。虽然移动台10的若干实施例被图示并且出于举例的目的将在下文中描述，但是诸如PDA、寻呼机、膝上型计算机的其它类型的移动台以及包括移动无线设备和固定有线设备这二者在内的其它类型的电子系统也可以易于釆用本发明的实施例。
移动台包括用于依照本发明的示例性实施例实现一个或多个功能的各种装置，包括在此较为特别示出和描述的那些装置。然而，应当理解，移动台可以包括用于实现一个或多个类似功能的备选装置，而不背离本发明
的精神和范围。更具体地，例如，如图3所示，除了天线302之外，移动台10还包括发射机304、接收机306，以及分别向发射机304提WI"号和从接收机306接收信号的诸如处理设备308的装置，例如，处理器、控制器等。这些信号包括依照可应用的蜂窝系统的空中接口标准的信令信息，以及用户语音和/或用户生成的数据。就此而言，移动台能够在一个或多个空中接口标准、通信协议、调制类型和接入类型的情况下操作。更特别地，移动台能够依照任何多个第二代(2G)、 2.5G和/或第三代(3G)通信协议等来操作。此外，举例来说，移动台能够依照任何多个不同无线组网技术来操作，包括蓝牙、IEEE 802.11 WLAN (或Wi-Fi )、 IEEE 802.16 WiMAX、超宽带(UWB)等。
要理解，诸如处理器、控制器或其它计算设备的处理设备308包括用于实现移动台的视频、音频和逻辑功能所需的电路，并且能够执行用于实现在此所讨论的功能性的应用程序。例如，处理设备可以包括各种装置，包括数字信号处理器设备、」敞处理器i殳备，以及各种模数转换器、数模转换器和其它支持电路。移动设备的控制和信号处理功能根据设备相应的能力而在这些设备之间分配。因而，处理设备308还包括用于在调制和发射之前巻积编码以及交织消息和数据的功能性。此外，处理i殳备308可以包括用于操作可存储在存储器中的一个或多个软件应用的功能性。例如，控制器能够操作连通性程序，诸如常规Web浏览器。然后，举例来说，连通性程序可以诸如根据HTTP和/或无线应用协议(WAP)允许移动台发射和接收Web内容。
在一个示例性实施例中(未示出)，处理元件308可以包括以上参照图 1和图2所讨论的编码器102和/或解码器104。可选地，编码器102和/或解码器104可以是在通信上耦合于处理元件308的离散组件。移动台还可以包括诸如用户接口的装置，例如包括常规耳机或扬声器
310、扩音器314、显示器316,所有这些都耦合到控制器308。允许移动设备接收数据的用户输入接口可以包括允许移动台接收数据的任何多个设备，诸如键板318、触摸显示器(未示出)、扩音器314或其它输入设备。在包括,的实施例中，键板可以包括常规数字(0-9)和相关键(#、 *) 以及用于操作移动台的其它键，并且可以包括一整套字母数字键或可被激活来提供一整套字母数字键的键集。尽管未示出，然而移动台可以包括电池(诸如振动电池组)，用于向操作移动台所需的各种电路供电，以及视情况提供机械振动作为可检测的输出。
移动台还可以包括通常存储与移动订户相关的信息元素的装置，诸如存储器，包括例如订户身份模块(SIM )320、可装卸用户身份模块(R-UIM ) (未示出)等。除了 SIM之外，移动设备还可以包括其它存储器。就此而言，移动台可以包括易失性存储器322以及其它非易失性存储器324，其可以是嵌入式的和/或可以是可装卸的。例如，其它非易失性存储器可以是嵌入式或可装卸多媒体存储卡(MMC )、安全数字(SD )存储卡、存储棒、 EEPROM、闪存、硬盘等。存储器可以存储由移动设备使用的任何多个信息段或信息量和数据，用于实现移动台的功能。例如，存储器可以存储能够唯一地标识移动i殳备的标识符，诸如国际移动设备标识(IMEI)代码、国际移动订户标识(IMSI)代码、移动设备综合服务数字网(MSISDN) 代码，等等。存储器还可以存储内容。存储器可以例如存储用于应用和其它计算机程序的计算机程序代码。例如，在本发明的一个实施例中，存储
器可以存储用于实现下面参照图4所讨论的改进的中侧立体声编码的步骤的计算枳4呈序代码。
主要结合移动通信应用描述了本发明示例性实施例的方法、系统、装置和计算;fcO^呈序产品。然而，应当理解，可以结合移动通信行业中的以及
移动通信行业外的各种其它应用来利用本发明实施例的方法、系统、装置和计算机程序产品。例如，可以结合有线和/或无线网络(例如，因特网)
应用来利用本发明示例性实施例的方法、系统、装置和计算机程序产品。中侧立体声编码的方法
现在参照图4，现将描述依照本发明的示例性实施例实现M/S立体声编码的方法。如图所示，过程开始于操作401，其中，左和右时域输入信号丄,和及,由编码器102接收。在操作402中，所接收到的信号丄,和凡可以(例如，通过左和右时间-频率映射器201L和201R)才艮据等式1 ^f皮分别转换成频域信号々和及/ :
々=f aj ;以及等式1
其中f (^表示时间到频率的变换。
接下来，在操作403，例如通过变换和选择处理元件203，可以根据以下等式生成中央和侧频域信号iW^和&:
Af,- 及yj/2;以及等式2
根据一个示例性实施例，具有长度Af的s力k j!5^,表示为其实现了 M/S 立体声编码的频带的边界。理想地，该长度也符合人类可听系统的临界带的边界。
在操作404中，丄,及,3f,和&的掩蔽门限^r。 ^r及、幼,m和,/b^ 可以基于心理声学模型(如由门限生成处理元件202所表示的)分别从频镨输入信号导出。如上所述，本领域技术人员已知该模型的细节和实施方式。在一个示例性实施例中，可以为左、右、中央和/或侧信号导出普通掩蔽门限。可选地，掩蔽门限对每个信号或信号的任何组合可以不同。
根据常规M/S立体声编码系统，下一步骤将是基于给定信号的感知熵 (即，基于当前帧为了实现零感知失真所需的最小比特数的估计)，在L/R 输入信号与M/S输入信号之间进行选择。然而，在低比特率，选择和后续量化由于用于对和(即，量化信号)进行编码的低数目的可用比特而造成未能有效执行。因而，根据本发明的示例性实施例，为了在所有比特率处显著改进立体声质量，当在L/R信号与M/S信号之间进行选择之前，可以基于在左和右所接收到的输入信号之间的能量差，例如通过变换和选择处理元件203，对所导出的掩蔽门限进行修改(操作405)。特别地，令五i和&分别表示左和右输入声道的幀能量。
AM
A=2>/(y)2 等式3
乂=0 乂=0
其中乂表示标度因子带(scalefactorband)的索引。
然后，可以根据以下来修改输入掩蔽门限中的一个
如果，scale >2，则等式6;
等式4
否则，什么也不祸
其中，
sc"/e = 0.7 /7rev^^/e+ (M^LY (五i, ￡^ ) /^f/iV (五o五及)).0.3 等式5 其中，/7m^cfl/e在启动时被初始化为零，并JL^示先前帧的标度值，并且其中MM和AT/iV分别表示指定参数的最大值和最小值。此外，
如果五i >五&则A; 等式6a 否则，B
其中，
爿.'幼r及(/)=幼,及(/) . //r/^oi/e，等式6b
凡'=幼^(Z). ^rSca/e， 0 S / < M 其中/表示频镨槽(bin )的索引，M表示V&Q^"的长度或频带的边界(如以上所指示的)，并且
^Wc"/e = M77V(20， sc"/e) 等式6c
换句话说，比较了左和右输入声道的能量。如果在两个能量之间的比值大于给定门限值，则按比例调整具有两个能量中较小值的声道的掩蔽门限。特别地，如可以看到的，根据一个示例性实施例，三分贝能量差可以触发对掩蔽门限中的一个的修改，以便实现对于是否应当为i普带激活M/S (即，是否应当使用M/S信号而不是L/R信号)的更好的判定。返回图4，在操作406中，最后进行了关于是否用M/S信号替换L/R 信号的确定。如以上简述的，基于各种信号的感知熵(PE)来进行该确定。感知熵的计算使用所导出的掩蔽门限(其可能已经在或可能并未在以上操作404中被修改)。特别地，可以如下为每个频i普槽计算所需的比特数的估计(即，PE):
尸五(义,r,/，,A:卜log2
6.r,
等式7
"乂
其中，如上所述，/和y分别是频i普槽和标度因子带的索引，T)表示带7中的掩蔽门限，A是带y的宽度，并且《是带/中的频if^L。
然后选择给出了最小比特计数的信号配置来用于量化(例如通过量化
器204)。该选择是在谱带的基础上完成的，并且向每个谱带分派一个信令
比特，其由接收端用来检测是否发送了中央和侧信号而不是左和右声道信
号。然后，可以最务使用该信息，以便将M/S信号转换回到L/R声道信号。该选择可以如下进行
MSF/一:H ，:'尸、:&"， o^<M 等式8
其中
凡ew—1
尸五^ = Z i^(M/,^w,y,/,/Le")+ Z /^(&,^^,"^:e") 等式9
)=0 y=o
尸^ = S ^—，^^"',"^6")+ Z尸五(i ,，^^,力'，凡e")
其中，/Le"表示第/个频带的长度，并且可以基于以下等式来计算
/Le" = ^/Z)0#e"/ +1) — sy&Q^"(z') 等式10
于是，将要量化的信号是
一丄,C^O,(0,…,^聯《+1)), MSH喂(O == '0'
2"=
M,0，,(a…,W争W +1))，
其它
等式ll
2
/2
i , ( (/),…,^&O,"0' +1)), MSF一(O == '0'
.." +1)),
其它等式11对于0&、M是重复的。
换句话说，对于每个镨带，为左和右输入信号以及中央和侧信号的组合计算感知熵。在中央和侧信号的感知熵小于左和右信号的感知熵的情况下(即，在为了实现零感知失真，中央和侧信号的当前帧所需要的最小比特数少于左和右信号的当前帧所需要的最小比特数的情况下)，那么选择中央和侧信号用于量化。这对于每个镨带是重复的。要注意，感知熵是关于在操作404中导出的(并且在某些情况下，在操作405中被修改的)掩蔽门限的函数。
在选择了用于量化的信号之后，在操作407中，根据一个示例性实施例，可以再次修改掩蔽门限，以便在用于量化器的可用比特数与期望比特率之间创建更好的匹配。特别地，可以如下进行该修改<formula>formula see original document page 21</formula>
换句话说，如果每样本的比特数小于1.5，那么可以再次比较左和右输入信号的能量级别。在左信号的能量更大的情况下，那么可以基于标度因子来修改右或侧信号的掩蔽门限(无论在以上的操作406中选择了哪个)。在右信号的能量更大的情况下，则可以修改左或中央信号的掩蔽门限。另一方面，如果每样本的比特数不小于1.5(即，等于或大于1.5)，那么可以不对掩蔽门限进行修改。这对于输入信号的每个镨带都是重复的。
最后，在操作408中，可以由量化器204来量化所选择的信号，以便满足要求的比特率，并且在操作409中，所量化的信号由比特流多路复用器205转换成比特流。
结论基于以上描述，本发明的示例性实施例可以改进在低比特率情况下的立体声图像重构。当空间图像在左和右输入信号之间不均匀分布时，该改进尤其清楚。使用本发明的示例性实施例，可以减少在声道之间的串音，从而改进整个空间图像质量。另外，根据示例性实施例，当立体声内容在左和右声道之间均匀分布时，信号的质量能够被保持，使得相比于常规解决方案来说不存在性能损失。
如上所述并且如本领域技术人员将理解的，本发明的实施例可以被配置为方法、系统或装置。因此，本发明的实施例可以由包括全硬件、全软件或者软件和硬件的任何组合在内的各种装置组成。此外，本发明的实施例可以采取在使得计算机可读程序指令体现在存储介质中的计算机可读存储介质上的计算机程序产品的形式(例如，计算机软件)。可以利用任何适
当的计算机可读存储介质，包括硬盘、CD-ROM、光存^i殳备或磁存^i殳备。
已经参照方法、装置(即，系统)和计算机程序产品的框图和流程图说明描述了本发明的示例性实施例。可以理解，框图和流程图说明的每个框以及在框图和流程图说明中的框块的组合可以分别通过包括计算机程序指令的各种装置来实现。这些计算机程序指令可以被加载到通用计算机、专用计算机或其它可编程数据处理装置上以产生机器，从而使得在计算机或其它可编程数据处理装置上执行的指令创建用于实现在一个或多个流程
框中所指定的功能的装置。
这些计算机程序指令还可以存储在计算机可读存储器中，该计算机可
读存储器可以引导计算机或其它可编程数据处理装置以特定方式起作用，从而使得存储在计算机可读存储器中的指令产生包括用于实现在一个或多个流程框所指定的功能的计算机可读指令在内的制品。计算机程序指令还可以被加载到计算机或其它可编程数据处理装置上，以便使一系列操作步骤在计算机或其它可编程装置上实现来产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令提供用于实现在一个或多个流程框中所指定的功能的步骤。因此，框图和流程图说明的框块支持用于实现指定功能的装置組合、用于实现指定功能的步骤组合，以及用于实现指定功能的程序指令装置。还可以理解，框图和流程图说明中的每个框以及在框图和流程图说明中的框块的组合可以通过基于专用硬件的计算机系统(其实现指定功能或步骤) 或者专用硬件和计算机指令的组合来实现。
受益于在前述描述和相关附图中所提供的教导，本发明的这些示例性实施例所属领域的技术人员将想到在此阐述的本发明的很多修改和其它实施例。因此，应当理解，本发明的实施例不限于所公开的具体实施例，并且修改和其它实施例也将包括在所附权利要求的范围之内。尽管在此采用了特定术语，然而它们仅是在一般性和描述性的意义上使用，而不用于限制性目的。
权利要求
1. 一种立体声编码方法，所述方法包括接收左和右输入信号；导出与相应的左和右输入信号相关联的左和右掩蔽门限；以及至少部分基于在与相应的左和右输入信号相关联的能量之间的关系，修改左或右掩蔽门限中的至少一个。
2. 根据权利要求l所述的方法，其进一步包括确定与相应的左和右输入信号相关联的能量，其中与左或右输入信号中的一个相关联的能量包括最大能量，并且与左或右输入信号中的另一个相关联的能量包括最小能量；至少部分基于最大能量与最小能量的比值来确定标度值；将所述标度值与预定门限相比较；以及如果所述标度值超过了所述预定门限，则修改与包括最小能量的输入信号相关联的掩蔽门限。
3. 根据权利要求2所述的方法，其中修改所述掩蔽门限包括将所导出的掩蔽门限乘以门限标度，所述门限标度与预定值或所确定的标度值中的较小值相等。
4. 根据权利要求l、 2或3所述的方法，其进一步包括至少部分基于左和右输入信号来确定中央和侧信号；以及至少部分基于左和右掩蔽门限，在左和右输入信号与中央和侧信号之间进行选择。
5. 根据权利要求4所述的方法，其中当在左和右输入信号与中央和侧信号之间进行选择之前，修改所述左或右掩蔽门限。
6. 根据权利要求4或5所述的方法，其中在左和右输入信号与中央和侧信号之间进行选择包括确定与所述左和右输入信号相关联的第一组合感知熵，所述第一组合感知熵至少部分基于所述左和右掩蔽门限；确定与所述中央和侧信号相关联的第二组合感知熵，所述第二组合感知熵至少部分基于中央和侧掩蔽门限；以及将第一和第二组合感知熵进行比较以确定哪个更低。
7. 根据权利要求4、 5或6所述的方法，其中确定中央信号包括对左和右输入信号进行平均，并且其中确定侧信号包括取左和右输入信号之间的差并且将所述差除以二。
8. 根据权利要求4、 5、 6或7所述的方法，其进一步包括在选择了左和右输入信号的情况下，进一步修改左或右掩蔽门限中的至少一个；在选择了中央和侧信号的情况下，进一步修改中央或侧掩蔽门限中的至少一个；以及至少部分基于对应的掩蔽门限来量化所选择的信号。
9. 一种用于立体声编码的装置，所述装置包括编码器，其被配置以便接收左和右输入信号；导出与相应的左和右输入信号相关联的左和右掩蔽门限；以及至少部分基于在与相应的左和右输入信号相关联的能量之间的关系，修改左或右掩蔽门限中的至少一个。
10. 根据权利要求9所述的装置，其中所述编码器被进一步配置以便确定与相应的左和右输入信号相关联的能量，其中与左或右输入信号中的一个相关联的能量包括最大能量，并且与左或右输入信号中的另一个相关联的能量包括最小能量；至少部分基于最大能量与最小能量的比值来确定标度值；将所述标度值与预定门PM目比较；以及如果所述标度值超过了所述预定门限，则修改与包括最小能量的输入信号相关联的掩蔽门限。
11. 根据权利要求10所述的装置，其中为了修改所述掩蔽门限，所述编码器被进一步配置以便将所导出的掩蔽门限乘以门限标度，所述门限标度与预定值或所确定的标度值中的较小值相等。
12. 根据权利要求9、 10或11所述的装置，其中所述编码器进一步包括变换和选择处理元件，所述变换和选择处理元件,皮配置以寸更至少部分基于左和右输入信号来确定中央和侧信号；以及至少部分基于左和右掩蔽门限，在左和右输入信号与中央和侧信号之间进行选择。
13. 根据权利要求12所述的装置，其中所述编码器被进一步配置以便当在左和右输入信号与中央和侧信号之间进行选择之前，修改所述左或右掩蔽门限。
14. 根据权利要求12或13所述的装置，其中所述编码器被进一步配置以便在选择了左和右输入信号的情况下，进一步修改左或右掩蔽门限中的至少一个；以及在选择了中央和侧信号的情况下，进一步修改中央或侧掩蔽门限中的至少一个。
15. 根据权利要求14所述的装置，其中所述编码器进一步包括量化器，所述量化器被配置以便至少部分基于对应的掩蔽门限来量化所选择的信号。
16. —种被配置以便实现立体声编码的设备，所述设备包括用于接收左和右输入信号的装置；用于导出与相应的左和右输入信号相关联的左和右掩蔽门限的装置；以及用于至少部分基于在与相应的左和右输入信号相关联的能量之间的关系来修改左或右掩蔽门限中的至少一个的装置。
17. 根据权利要求16所述的设备，其进一步包括用于确定与相应的左和右输入信号相关联的能量的装置，其中与左或右输入信号中的一个相关联的能量包括最大能量，并且与左或右输入信号中的另一个相关联的能量包括最小能量；用于至少部分基于最大能量与最小能量的比值来确定标度值的装置；用于将所述标度值与预定门FM目比较的装置；以及用于如果所述标度值超过了所述预定门限，则修改与包括最小能量的输入信号相关联的掩蔽门限的装置。
18. 根据权利要求17所述的设备，其中用于修改所述掩蔽门限的装置包括用于将所导出的掩蔽门限乘以门限标度的装置，所述门限标度与预定值或所确定的标度值中的较小值相等。
19. 根据权利要求16、 17或18所述的设备，其进一步包括用于至少部分基于左和右输入信号来确定中央和侧信号的装置；以及用于至少部分基于左和右掩蔽门限来在左和右输入信号与中央和侧信号之间进行选择的装置。
20. 根据权利要求19所述的设备，其中用于修改左或右掩蔽门限的装置包括用于当在左和右输入信号与中央和侧信号之间进行选择之前修改所述左或右掩蔽门限的装置。
21. 根据权利要求19或20所述的设备，其中用于在左和右输入信号与中央和侧信号之间进行选择的装置进一步包括用于确定与所述左和右输入信号相关联的第一组合感知熵的装置，所述第一组合感知熵至少部分基于所述左和右掩蔽门限；用于确定与中央和侧信号相关联的第二组合感知熵的装置，所述第二组合感知熵至少部分基于中央和侧掩蔽门限；以及用于将第一和第二组合感知熵进行比较以确定哪个更低的装置。
22. 根据权利要求19、 20或21所述的设备，其进一步包括用于在选择了左和右输入信号的情况下，进一步^"改左或右掩蔽门限中的至少一个的装置；用于在选择了中央和侧信号的情况下，进一步修改中央或侧掩蔽门限中的至少一个的装置；以及用于至少部分基于对应的掩蔽门限来量化所选择的信号的装置。
23. —种用于立体声编码的计算机程序产品，其中所述计算机程序产品包括存储了计算机可读程序代码部分的至少一个计算机可读存储介质，所述计算机可读程序代码部分包括第一可执行部分，用于接收左和右输入信号；第二可执行部分，用于导出与相应的左和右输入信号相关联的左和右掩蔽门限；以及第三可执行部分，用于至少部分基于在与相应的左和右输入信号相关联的能量之间的关系，修改左或右掩蔽门限中的至少一个。
24. 根据权利要求23所述的计算机程序产品，其进一步包括第四可执行部分，用于确定与相应的左和右输入信号相关联的能量，其中与左或右输入信号中的一个相关联的能量包括最大能量，并且与左或右输入信号中的另一个相关联的能量包括最小能量；第五可执4于部分，用于至少部分基于最大能量与最小能量的比值来确定标度值；第六可执行部分，用于将所述标度值与预定门卩M目比较；以及第七可执行部分，用于如果所述标度值超过了所述预定门限，则修改与包括最小能量的输入信号相关联的掩蔽门限。
25. 根据权利要求24所述的计算机程序产品，其中所述第三可执行部分被配置以便将所导出的掩蔽门限乘以门限标度，所述门限标度与预定值或所确定的标度值中的较小值相等。
26. 根据权利要求23、 24或25所述的计算机程序产品，其进一步包括第四可执行部分，用于至少部分基于左和右输入信号来确定中央和侧信号；以及第五可执行部分，用于至少部分基于左和右掩蔽门限来在左和右输入信号与中央和侧信号之间进行选择。
27. 根据权利要求26所述的计算机程序产品，其中所述第三可执行部分被配置以便当所述第五可执行部分在左和右输入信号与中央和侧信号之间进行选择之前，修改所述左或右掩蔽门限。
28. 根据权利要求26或27所述的计算机程序产品，其中所述第五可执行部分^皮配置以便确定与所述左和右输入信号相关联的第一组合感知熵，所述第一组合感知熵至少部分基于所述左和右掩蔽门限；确定与所述中夹和侧信号相关联的第二组合感知熵，所述第二组合感知熵至少部分基于中央和侧掩蔽门限；以及将第一和第二组合感知熵进行比较以确定哪个更低。
29. 根据权利要求26、 27或28所述的计算机程序产品，其进一步包括第六可执行部分，用于在选择了左和右输入信号的情况下，进一步修改左或右掩蔽门限中的至少一个；第七可执行部分，用于在选择了中央和侧信号的情况下，进一步修改中央或侧掩蔽门限中的至少一个；以及第八可执行部分，用于至少部分基于对应的掩蔽门限来量化所选择的信号。
全文摘要
提供了一种方法、系统、装置和计算机程序产品用于改进的立体声编码。特别地，所述方法、系统、装置和计算机程序产品提供了用于实现中侧(M/S)立体声编码的技术，其中附加步骤被添加到编码过程，由此，当在信号对之间进行选择之前，修改在对于何时将使用中央和侧信号而不是左和右输入信号所进行的确定中使用的参数。特别地，与左或右输入信号相关联的掩蔽门限可以基于在这两个输入信号的能量之间的关系来修改。另外，一旦已经进行了在信号对之间的选择，便可以再次基于在左和右输入信号的能量之间的关系，进一步修改所选择的信号的掩蔽门限。
文档编号G10L19/00GK101548315SQ200780043393
公开日2009年9月30日申请日期2007年11月7日优先权日2006年11月30日
发明者J·奥扬佩雷申请人:诺基亚公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J.奥扬佩雷
技术所有人：诺基亚公司
我是此专利的发明人

上一篇：用于编码和解码具有各种声道的多对象音频信号的设备和方法
上一篇：语音波形内插装置及方法