保真度优化的可变帧长编码的制作方法

文档序号:2834595阅读:429来源:国知局
专利名称:保真度优化的可变帧长编码的制作方法
技术领域
本发明总的来说涉及音频信号的编码,尤其是多声道音频信号的编码。
背景技术
对在保持高音频质量的同时以低比特率传送和存储音频信号存在高度的市场需要。特别是,在传输资源或存储器受限的情况下,低比特率操作是一个必要的成本因素。例如在诸如GSM、UMTS或CDMA之类的移动通信系统中的流发送和消息发送应用中通常是这种情况。
当今,不存在以对移动通信系统中的使用来说在经济上令人感兴趣的比特率来提供高立体声音频质量的标准化编解码器可用。对于可用的编解码器,可以对音频信号进行单声道传输。在某种程度上的立体声传输也是可用的。然而,比特率限制通常需要十分剧烈地限制立体声表达。
音频信号立体声或多声道编码的最简单的方式是将不同声道的信号作为单个且独立的信号来分开编码。在立体声FM无线电传输中使用的并且确保与传统单声道无线电接收机兼容的另一基本方式是传送所涉及的两个声道的和信号以及差信号。
现有技术的音频编解码器(例如MPEG-1/2层III以及MPEG-2/4AAC)使用了所谓的联合立体声编码。根据这一技术,联合处理不同声道的信号,而不是分开且单独进行处理。两种最经常使用的联合立体声编码技术被称为“中/侧”(M/S)立体声编码和强度立体声编码,它们通常被应用在要被编码的立体声的子带或者多声道信号上。
在以下的意义上M/S立体声编码类似于在立体声FM无线电中所述的过程它编码并发送声道子带的和信号以及差信号,因而利用了声道子带之间的冗余。例如在J.D.Johnston的美国专利5,285,498中描述了一种基于M/S立体声编码的编码器的结构和操作。
另一方面,强度立体声能够利用立体声的不相关性。它发送(不同子带的)多个声道的联合强度以及指示所述强度是如何分布在多个声道中的某种位置信息。强度立体声只是提供声道的频谱幅度信息。不传递相位信息。为此以及由于时间上的声道间信息(更具体而言为声道间的时间差)特别是在较低频率时具有主要的心理声学相关性,因此只能在高于例如2KHz的高频上使用强度立体声。在例如R.Veldhuis等人的欧洲专利0497413中描述了一种强度立体声编码方法。
在2002年5月于德国慕尼黑召开的第112届AES会议上由C.Faller等人发表的题为“Binaural cue coding applied to stereoand multi-channel audio compression(对立体声和多声道音频压缩所实施的技术心理声学编码)”的会议论文中描述了一种最新发展的立体声编码方法。该方法是一种参数多声道音频编码方法。基本原理是,在编码侧来自N个声道C1、C2、…CN的输入信号被组合成一个单声道信号m。使用任何的传统单声道音频编解码器对所述单声道信号进行音频编码。同时,从声道信号中取得参数,这些参数描述该多声道图像。这些参数被编码并且与音频位流一起被发送给解码器。解码器首先解码单声道信号m’,然后基于多声道图像的参数描述来重新产生声道信号C1’、C2’、…、CN’。
技术心理声学编码(BCCBinaural cue coding)方法的原理在于,其发送编码的单声道信号和所谓的BCC参数。BCC参数包括编码的声道间电平差以及原始多声道输入信号的各子带的声道间时间差。解码器通过基于BCC参数对单声道信号施加子带级的电平和相位调整来重新产生不同的声道信号。与例如M/S或者强度立体声相比的优势在于,以低得多的比特率来传输包含时间上的声道间信息的立体声信息。然而,这一技术在编码器和解码器处、在每个声道上都需要计算要求高的时间频率转换。
而且,BCC并不处理以下的问题,许多立体声信息(特别是在低频时)是扩散的,即它们不来自任一特定方向。扩散的声场存在于立体声记录的两个声道中,但是它们在很大程度上相对于彼此是异相的。如果诸如BCC之类的算法碰到了具有大量扩散声场的记录,则所再现的立体声图像将会变得混乱,由于BCC算法只能把特定频带的信号分配(pan)到左声道或者右声道,因此会出现从左边跳到右边的情形。
用于编码立体声信号并确保扩散声场的良好再现的一种可能的方法是使用一种与FM立体声无线电广播所用的技术非常类似的编码方案,即分开编码单声道(左+右)以及差(左-右)信号。
在C.E.Holt等人的美国专利5,434,948中描述了一种技术,其使用与BCC类似的技术来编码单声道信号和侧信息。在这种情形下,侧信息由预测滤波器组成并且可选地包括一个残留信号。在被施加到该单声道信号上时由最小均方算法所估计的预测滤波器允许预测这些多声道音频信号。利用这一技术,可以以十分低的比特率编码多声道音频源,然而这是以质量下降为代价的,如以下进一步讨论的。
最后,为了完整性,要提到一种在3D音频中使用的技术。该技术通过利用所谓的头部相关滤波器对声源信号进行滤波来分析右和左声道信号。然而,该技术需要分开不同的声源信号,因而通常不能应用在立体声或多声道编码中。

发明内容
基于信号特别是一个主信号和一个或多个侧信号的帧的编码的现有编码方案的问题在于,把音频信息分成帧会引入令人讨厌的可感知的人工产物。将信息分成具有相对较长的持续时间的帧通常降低了平均的请求比特率。这对于例如包含大量扩散声音的音乐来说会是有益的。然而对于瞬时丰富的音乐或语音来说,快速的瞬时变化将会渗透在帧持续时间上,从而产生虚幻的声音或者甚至预回声问题。反之,对短帧编码将给出更为精确的声音表示,从而最小化能量,但是需要较高的传输比特率以及较高的计算资源。因此,编码效率也会随着很短的帧长度而降低。引入更多的帧边界也会引入编码参数的不连续性,这会表现为可感知的人工产物。
基于主和一个或若干侧信号的编码的技术方案的另一问题在于,它们通常需要相对较大的计算资源。特别是,当使用短帧时,处理从一个帧到另一个帧的参数中的不连续性是一项复杂的任务。当使用长帧时,瞬时声音的估计误差会引起非常大的侧信号,从而又增加传输的速率要求。
因此本发明的一个目的是提供一种编码方法和设备,其改进了多声道音频信号的感知质量,特别是避免了诸如预回声、虚幻声音或帧不连续性人工产物之类的人工产物。本发明的另一目的是提供一种编码方法和设备,其需要较少的处理能力并且具有更加恒定的传输比特率要求。
上述目的是通过根据所附的专利权利要求书的方法和设备实现的。一般而言,多音信号用于创建主信号(通常是单声道信号)和侧信号。根据现有技术的编码原理对主信号进行编码。对于侧信号提供了多种编码方案。每种编码方案的特征在于一组不同长度的子帧。子帧的总长度对应于编码方案的编码帧的长度。这些组的子帧包括至少一个子帧。至少部分地根据多音信号的当前信号内容来选择要在侧信号上使用的编码方案。
在一个实施例中,选择或者在编码之前基于信号的特征分析而进行。在另一个实施例中,通过每种编码方案对侧信号进行编码,并基于对编码质量的测量来选择最好的编码方案。
在一个优选实施例中,创建一个侧残留信号以作为在侧信号和使用平衡因子缩放后的主信号之间的差。所述平衡因子被选择用于最小化侧残留信号。对优化的侧残留信号和平衡因子进行编码,并将其提供作为表示该侧信号的参数。在解码器侧,侧残留信号和主信号被用来恢复侧信号。
在另一个优选实施例中,对侧信号的编码包括能量轮廓缩放,以便避免预回声效应。此外,不同编码方案可以包括在分开的子帧中的不同编码过程。
本发明的主要优点在于,改善了对于音频信号的感知的保存。而且,本发明仍然允许以非常低的比特率来进行多声道信号传输。


通过参考以下的描述和附图可以最好地理解本发明及其另外的目的和优点,在附图中图1是用于发送多音信号的系统的方框图;图2a是在发射机中的编码器的框图;图2b是在接收机中的解码器的框图;图3a是说明具有不同长度的编码帧的图;图3b和3c是根据本发明的侧信号编码器单元的实施例的框图;图4是使用平衡因子编码侧信号的编码器的实施例的框图;图5是用于多信号系统的编码器的实施例的框图;图6是适于对来自图5的设备的信号进行解码的解码器的实施例的框图;
图7a和b是说明一种预回声人工产物的图;图8是根据本发明的侧信号编码器单元的实施例的框图,其在不同的子帧中采用了不同的编码原理;图9说明了在不同的频率子带中使用不同编码原理;图10是根据本发明的编码方法的实施例的基本步骤的流程图;以及图11是根据本发明的解码方法的实施例的基本步骤的流程图。
具体实施例方式
图1说明了一个典型的系统1,在其中可以有益地使用本发明。发射机10包含一个天线12,其包括相关的硬件和软件以能够向接收机20发送无线电信号5。发射机10除了多个其它部分之外还包括多声道编码器14,其将多个输入声道16的信号变换成适于无线电传输的输出信号。以下将进一步详细描述合适的多声道编码器14的实例。可以从例如音频信号存储器18提供输入声道16的信号,例如音频记录的数字表示的数据文件、磁带或者音频的聚乙烯盘等等。还可以“实况”提供输入声道16的信号,例如从一组话筒19提供。如果音频信号还不是数字格式,则在进入多声道编码器14之前对其进行数字化。
在接收机20侧,具有相关硬件和软件的天线22处理表示多音音频信号的无线电信号5的接收。在此执行通常的功能,例如误差校正。解码器24解码所接收的无线电信号5,并且将由此携带的音频数据变换成多个输出声道26的信号。输出信号可以被提供给例如扬声器29进行立即呈现,或者可以被存储在任何种类的音频信号存储器28中。
系统1可以是例如电话会议系统、用于提供音频服务或其它音频应用的系统。在一些系统中,例如在电话会议系统中,通信必须是双工类型的,而从一个服务供应商向订户分发音乐则可以基本上是单向类型的。从发射机10到接收机20的信号传输也可以用任何其它的方式进行,例如通过不同种类的电磁波、电缆或光纤以及它们的组合。
图2a说明根据本发明的编码器的实施例。在这一实施例中,多音信号是包含在输入端16A和16B处接收的两个声道a和b的立体声信号。声道a和b的信号被提供给预处理单元32,在那里可以执行不同的信号调节过程。来自预处理单元32的输出的信号(也许被修改过)在加法单元34中进行求和。所述加法单元34还把所得到的和除以因子2。以这种方式产生的信号xmono是该立体声信号的主信号,因为它基本上包括来自两个信道的所有数据。在这一实施例中,主信号因而表示一个纯“单声道”信号。主信号xmono被提供给主信号编码器单元38,其根据任何合适的编码原理来编码所述主信号。这些原理可以在现有技术中获得,因而在此不作进一步的讨论。主信号编码器单元38给出输出信号pmono,作为表示主信号的编码参数。
在减法单元36中,声道信号的差(除以因子2)被提供作为侧信号xside。在这一实施例中,侧信号表示立体声信号的两个声道之间的差。侧信号xside被提供给侧信号编码单元30。以下将进一步讨论侧信号编码单元30的优选实施例。根据将在下面进一步详细讨论的侧信号编码过程,侧信号xside被转换成表示侧信号xside的编码参数pside。在某些实施例中,还利用主信号xmono的信息来进行编码。箭头42指示了这种设备,其中利用了原始未编码的主信号xmono。在进一步的其它实施例中,在侧信号编码单元30中所使用的主信号信息可以从表示该主信号的编码参数pmono中推断出来,如虚线44所指示的。
表示主信号xmono的编码参数pmono是第一输出信号,以及表示侧信号xside的编码参数pside是第二输出信号。在通常情形下,这两个输出信号pmono、pside一起表示完整的立体声声音,它们在多路复用器单元40被多路复用成一个传输信号52。然而,在其它实施例中,可以分开进行第一和第二输出信号pmono、pside的传输。
在图2b中,以框图形式说明了根据本发明的解码器24的实施例。所接收的信号54(包含表示主和侧信号信息的编码参数)被提供给解复用器单元56,它分别分出第一和第二输入信号。对应于主信号的编码参数pmono的第一输入信号被提供给主信号解码器单元64。以传统的方式,表示主信号的编码参数pmono被用于产生一个解码的主信号x”mono,它尽可能地类似于编码器14(图2a)中的主信号xmono(图2a)。
类似地,对应于侧信号的第二输入信号被提供给一个侧信号解码器单元60。在这里,表示侧信号的编码参数pside被用于恢复解码的侧信号x”side。在一些实施例中,解码过程利用有关主信号x”mono的信息,如箭头65所指示的。
所解码的主和侧信号x”mono、x”side被提供给一个加法单元70,其提供一个表示声道a的原始信号的输出信号。类似地,由减法单元68提供的差提供了一个表示声道b的原始信号的输出信号。可以根据现有技术的处理过程在后处理器单元74中对这些声道信号进行后处理。最终,在解码器的输出端26A和26B提供声道信号a和b。
如在发明内容中所述,通常以每次一帧的方式进行编码。一帧包括在一个预定时间周期内的音频采样。在图3a的底部,示例了持续时间为L的帧SF2。在无阴影部分内的音频采样要一起被编码。前面的采样和随后的采样在其它帧中进行编码。无论如何,把采样分成帧都将在帧边界处引入一些不连续。多变的声音将给出多变的编码参数,从而基本上在每个帧边界处发生变化。这将产生可感知的误差。对这种情形稍微进行补偿的一种方法是使编码不但基于要被编码的采样,而且基于在该帧的绝对附近的采样,如由阴影部分所指示的。以这种方法,在不同的帧之间将是比较柔和的转换。作为备选方案或者补充,有时利用内插技术来降低由帧边界引起的可感知的人工产物。然而,所有这些过程都需要大量的附加计算资源,并且对于某些特定编码技术而言,也许难于提供任何的资源。
因此,使用尽可能长的帧将是有益的,因此帧边界的数目会小。而且编码效率通常会变高,并且必要的传输比特率通常也被最小化。然而,长帧所带来的问题是预回声人工产物和虚幻声音。
通过替代地利用较短的帧,例如分别具有L/2和L/4的持续时间的SF1或甚至SF0,本领域的技术人员认识到,编码效率会被降低,传输比特率必须比较高,并且帧边界人工产物的问题将增加。然而,较短的帧较少经受例如其它可感知的人工产物,比如虚幻的声音和预回声。为了能够尽可能多地最小化编码误差,应当使用尽可能短的帧长。
根据本发明,通过使用依赖于当前信号内容的帧长度来编码侧信号可以改进音频感知。由于不同帧长度对于音频感知的影响将根据要被编码的声音的特性而不同,因此通过让信号本身的特性来影响所使用的帧长度可以获得改进。主信号的编码不是本发明的目的,因此不进行详细描述。然而,主信号所用的帧长度可以与侧信号所使用的帧长度相等,或者可以不相等。
由于小的瞬时变化,所以例如在一些情形下使用相对较长的帧对侧信号进行编码是有益的。对于具有大量扩散的声场的记录比如音乐会记录会出现这种情形。在其它情形下,例如在立体声语音会话中,短帧则可能是优选的。可以用两种基本方法来判断选取哪种帧长度。
在图3b中说明根据本发明的侧信号编码器单元30的一个实施例,其中利用了闭环判断。在此使用了长度为L的基本编码帧。产生了多个编码方案81,由子帧90的分开的集合80来表征。子帧90的每个集合80包括一个或者多个子帧90,它们具有相同或不同的长度。然而子帧90的集合80的总长度总是等于基本编码帧长度L。参考图3b,顶部编码方案被表征为只包含一个长度为L的子帧的子帧集合。下一个子帧集合包含两个长度为L/2的子帧。第三集合包含两个长度为L/4的子帧以及后面的一个长度为L/2的子帧。
通过所有的编码方案81对被提供给侧信号编码器单元30的信号xside进行编码。在顶部的编码方案中,以一块来编码整个基本编码帧。然而在其它的编码方案中,在相互分开的各个子帧中对信号xside进行编码。来自每个编码方案的结果被提供给选择器85。保真度测量装置83确定每个编码信号的保真度测量值(measure)。保真度测量值是一个客观的质量值,优选的为信噪比测量值或者加权的信噪比。比较与每种编码方案相关的保真度测量值,并且其结果控制一个切换装置87,用于从给出最好的保真度测量值的编码方案中选择表示该侧信号的编码参数,以作为来自侧信号编码器单元30的输出信号pside。
优选地,测试帧长度的所有可能的组合,并选择给出最好的客观质量(例如信噪比)的子帧的集合。
在本实施例中,根据下式选择所用的子帧的长度lsf=l∫/2n,其中lsf是子帧的长度,lf是编码帧的长度,以及n是一个整数。在本实施例中,在0和3之间选择n。然而,将可能使用任何帧长度,只要集合的总长度保持恒定。
在图3c中说明了根据本发明的侧信号编码器单元30的另一个实施例。在此,帧长度判断是一个基于信号的统计特性的开环判断。换言之,将使用侧信号的频谱特征以作为用于决定打算使用哪种编码方案的基础。如前所述,可以获得被表征为不同子帧的集合的不同编码方案。然而,在这一实施例中,选择器85被放置在实际编码之前。输入的侧信号xside进入选择器85和信号分析单元84。分析的结果成为开关86的输入,在开关中只使用一种编码方案81。来自该编码方案的输出也将是来自侧信号编码器单元30的输出信号pside。
开环判断的优点在于只要执行一次实际编码。然而缺点在于,信号特征的分析实际上会非常复杂,并且难以事先预测可能的特性以便能够在开关86中给出适当的选择。在信号分析单元84中必须执行和包含许多的声音统计分析。编码方案中任何小的变化都可能完全颠倒统计特性。
通过使用闭环选择(图3b),可以互换编码方案而无需对单元的其余部分进行任何变化。另一方面,如果要研究许多编码方案,则计算要求会很高。
这种对侧信号进行可变帧长编码的益处在于,可以在两种情形之间进行选择一方面是精细的时间分辨率和粗糙的频率分辨率,另一方面是粗糙的时间分辨率和精细的频率分辨率。以上的实施例将以最佳可能的方式来保持立体声图像。
对于在不同编码方案中所使用的实际编码还会有一些要求。特别是,当使用闭环选择时,用于执行多个或多或少同时编码的计算资源必须大。编码过程越复杂,所需要的计算能力就越多。此外,在传输时的低比特率也是优选的。
在US 5,434,948中给出的方法使用了单声道(主)信号的滤波形式来比拟侧信号或者差信号。滤波器的参数被优化,并且允许随时间变化。然后表示侧信号的编码的滤波器参数被发送。在一个实施例中,也发送一个残留侧信号。在许多情形下,这种方法将可能用作在本发明范围内的侧信号编码方法。然而,该方法具有一些缺陷。由于滤波器阶数必须很高来提供精确的侧信号估计,所以滤波器系数和任何残留侧信号的量化通常需要相对较高的传输比特率。滤波器自身的估计也会有问题,特别是在瞬时丰富的音乐中。估计误差将给出一个修改的侧信号,其有时在幅度方面比未修改的信号大。这将导致较高的比特率需要。而且,如果每N个采样计算一组新的滤波器系数,则需要内插这些滤波器系数以产生从一组滤波器系数到另一组的平滑转换,如上面所讨论的。滤波器系数的内插是一项复杂的任务,并且在内插中的误差将会表现为大的侧误差信号,从而导致差值误差信号编码器所需的较高比特率。
避免内插的需要的一种方法是基于逐个采样来更新滤波器系数,并且依靠后向自适应分析。为了可以良好运行,要求残留编码器有相当高的比特率。因此,这对于低速率立体声编码不是一个好的备选方案。
存在以下例如对于音乐来说很常见的情形,其中单声道信号和差信号几乎是不相关的。于是滤波器估计变得非常困难,附加的风险只是使得差值误差信号编码器的情况更糟。
根据US 5,434,948的解决方案可以在下面的情形下良好工作其中滤波器系数随着时间的变化很慢,例如在会议电话系统中。在音乐信号的情形下,该方法并不很好地工作,因为滤波器需要快速改变以跟踪立体声图像。这意味着,必须使用幅度非常不同的子帧长度,其意味着要测试的组合数目快速增加。这又意味着用于计算所有可能的编码方案的要求变得高得不切实际。
因此,在优选实施例中,基于以下思想来编码侧信号即通过使用一个简单的平衡因子来代替复杂的比特率消耗的预测滤波器,从而降低单声道信号和侧信号之间的冗余。然后编码这一操作的残留。所述残留的幅度相对较低,并且不需要非常高的比特率需求来进行传送。这一思想的确非常适于和前面所述的可变帧集合方法相结合,因为计算复杂度低。
使用与可变帧长度方法结合的平衡因子消除了对复杂内插的需要以及内插可能引起的相关问题。而且,使用简单的平衡因子代替复杂的滤波器产生更少的估计问题,因为平衡因子的可能的估计误差具有更少的影响。优选的解决方案将能够以良好的质量和受限的比特率要求以及计算资源来再现平滑信号(panned signal)和扩散声场。
图4说明了根据本发明的立体声编码器的优选实施例。该实施例与图2a所示的实施例非常类似,然而,揭示了侧信号编码器单元30的细节。该实施例的编码器14不具备任何的预处理单元,并且输入信号被直接提供给加法和减法单元34、36。在乘法器33中单声道信号x单声道和某一平衡因子gsm相乘。在减法单元35中,相乘后的单声道信号被从侧信号x侧中减去(即基本上是这两个声道之间的差值),以产生侧残留信号。通过优化器37基于单声道信号和侧信号的内容来确定平衡因子gsm,以便根据质量标准来最小化侧残留信号。所述质量标准优选为最小均方标准。根据任一编码器过程在侧残留编码器39中对侧残留信号进行编码。优选地,侧残留编码器39是一个低比特率变换编码器,或者一个码本激励线性预测(CELPCodebook Excited LinearPrediction)编码器。表示侧信号的编码参数pside则包含了表示侧残留信号的编码参数pside residual和优化的平衡因子49。
在图4的实施例中,用于合成侧信号的单声道信号42是单声道编码器38的目标信号xmono。如上所述(结合图2a),也可以利用单声道编码器38的本地合成信号。在后一情形下会增加总编码器时延,并会增加侧信号的计算复杂度。另一方面,质量会比较好,因为有可能修复在单声道编码器中产生的编码错误。
如下以更加精确的方式来描述基本编码方案。将两个声道信号表示为a和b,它们可以是立体声对的左声道和右声道。通过相加将声道信号组合成一个单声道信号,并且通过相减而组合成一个侧信号。该操作以等式的形式被描述为xmono(n)=0.5(a(n)+b(n))xside(n)=0.5(a(n)-b(n)).
有益的是以2为因子来缩小xmono和xside信号。在此,这暗示着存在其它产生xmono和xside的方法。可以使用例如xmono(n)=γa(n)+(1-γ)b(n)xside(n)=γa(n)-(1-γ)b(n)0≤γ≤1.0.
在输入信号的块上,根据下式计算修改后的或者残留的侧信号xside residual(n)=xside(n)-f(xmono.xside)xmono(n),其中f(xmono,xside)是平衡因子函数,其基于来自侧和单声道信号的N个采样的块(即子帧)来争取从侧信号中尽可能多地消除。换言之,使用平衡因子来最小化残留侧信号。在以均方为准进行最小化的特殊情形下,这等价于最小化残留侧信号xside residual的能量。
在上述特殊情形下,f(xmono,xside)被描述为
f(xmono,xside)=RsmRmm]]>Rmm=[Σn=frame startframe endxmono(n)xmono(n)]]]>Rsm=[Σn=frame startframe endxside(n)xmono(n)],]]>其中xside是侧信号,以及xmono是单声道信号。注意到,该函数基于以“帧开始”开始和以“帧结束”结束的块。
有可能在频域中增加加权来计算平衡因子。这是通过利用加权滤波器的脉冲响应对xside和xmono信号卷积来完成的。这样有可能将估计误差移动到更不易被听到的频率范围内。这被称为感知加权。
由函数f(xmono,xside)给出的平衡因子值的量化形式被发送到解码器。在产生修改的侧信号时最好已经说明了这些量化。然后获得以下的表达式xside residual(n)=xside(n)-gQxmono(n)gQ=Qg-1(Qg(RsmRmm)).]]>Qg(…)是一个量化函数,其被应用到由函数f(xmono,xside)所给出的平衡因子上。在传输信道中发送所述平衡因子。在正常的左右平滑信号中,平衡因子被限制在区间[-1.0 1.0]中。另一方面,如果声道相对于彼此异相,则平衡因子会超出这些限制。
作为用于稳定立体声图像的一个可选方法,可以在以下情况下对平衡因子进行限制,即如果单声道信号和侧信号之间的归一化互相关不佳,如以下等式所给出的gQ=Qg-1(Qg(|R‾‾sm|RsmRmm)),]]>其中,
R‾‾sm=RsmRss·Rmm]]>Rsm=[Σn=frame startframe endxside(n)xmono(n)].]]>这些情形在具有大量扩散声音的古典音乐或播音室音乐中出现非常频繁,其中在一些情形下,在创建单声道信号时a和b声道也许几乎彼此抵消。对于平衡因子的影响就是会快速跳变,从而引起混乱的立体声图像。上述调整减轻了所述问题。
在US 5,434,948中基于滤波器的方法具有类似的问题,但是在那种情形下解决方案并不那么简单。
如果Es是残留侧信号的编码函数(例如变换编码器),以及Em是单声道信号的编码函数,则在解码器末尾被解码的a”和b”信号可以被描述为(在此假设γ=0.5)a″(n)=(1+gQ)xmono″(n)+xside″(n)b″(n)=(1-gQ)xmono″(n)-xside″(n)Xside′′=Es-1(Es(xsideresidual))]]>xmono′′=Em-1(Em(xmono))]]>对于每一帧计算平衡因子的一个重要益处就是避免了使用内插。代之以,一般地如上所述,利用重叠的帧来执行帧处理。
在音乐信号的情形下使用平衡因子的编码原理工作特别良好,其中通常需要快速的改变来跟踪立体声图像。
近来,多声道编码已经变得普遍。一个实例是DVD电影中的5.1声道环绕声。这些声道在那里被设置为前左、前中、前右、后左、后右以及亚低音扬声器。在图5中,示出了根据本发明以这种采用声道间冗余的布置对3个前声道进行编码的编码器的实施例。
在3个输入端16A-C上提供3个声道信号L,C,R,并且通过这三个信号的和来产生单声道信号xmono。增加了中央信号编码器单元130,其接收中央信号xcentre。在本实施例中单声道信号42是所编码和解码的单声道信号x”mono,并且在乘法器133中与某一平衡因子gQ相乘。在减法单元135中,相乘后的单声道信号被从中央信号xcentre中减去,以产生中央残留信号。由优化器137基于单声道信号和中央信号的内容来确定平衡因子gQ,以便根据质量标准来最小化中央残留信号。在中央残留编码器139中根据任何编码过程对中央残留信号进行编码。优选地,中央残留编码器139是低比特率变换编码器或CELP编码器。表示中央信号的编码参数pcentre中央则包含表示中央残留信号的编码参数pcentre residual以及优化的平衡因子149。在加法单元235中将中央残留信号与缩放后的单声道信号相加,从而产生修改后的中央信号142来补偿编码误差。
如前面的实施例中那样,侧信号xside(即左L与右R声道之间的差)被提供给侧信号编码器单元30。然而,在这里,优化器37也依赖于由中央信号编码器单元130所提供的修改后的中央信号142。因此将在减法单元35中产生侧残留信号以作为单声道信号42、修改后的中央信号142以及侧信号的最佳线性组合。
上述可变帧长度的概念可以被应用到侧信号和中央信号的任一上或者全部上。
图6说明适于从图5的编码器单元接收编码的音频信号的解码器单元。所接收的信号54被分成表示主信号的编码参数pmono、表示中央信号的编码参数pcentre以及表示侧信号的编码参数pside。在解码器64中,表示主信号的编码参数pmono被用来产生主信号x”mono。在解码器160中,表示中央信号的编码参数pcentre被用于基于主信号x”mono来产生中央信号x”centre。在解码器60中,根据主信号x”mono和中央信号x”centre来解码表示侧信号的编码参数pside,从而产生侧信号x”side。
该过程可以在数学上表示如下根据下式将输入信号xleft、xright以及xcentre组合为一个单声道xmono(n)=αxleft(n)+βxright(n)+χxcentre(n).为了简单起见,在剩余部分中将α、β以及χ设置为1.0,但是它们可以被设置为任意值。α、β以及χ的值可以是常数,或者取决于信号内容,以便强调一个或者两个声道,从而获得一个最佳质量。
如下计算在单声道和中央信号之间的归一化的互相关R‾‾sm=RcmRcc·Rmm,]]>
其中Rcc=[Σn=frame startframe endxcentre(n)xcentre(n)]]]>Rmm=[Σn=frame startframe endxmono(n)xmono(n)]]]>Rcm=[Σn=frame startframe endxcentre(n)xmono(n)].]]>xcentre是中央信号,以及xmono是单声道信号。单声道信号来自于单声道目标信号,但是也可能使用单声道编码器的本地合成。
要编码的中央残留信号为xcentreresidual(n)=xcentre(n)-gQxmono(n)gQ=Qg-1(Qg(RcmRmm)).]]>Qg(…)是被应用于平衡因子的量化函数。在传输信道中发送所述平衡因子。
如果Ec是中央残留信号的编码函数(例如变换编码器),以及Em是单声道信号的编码函数,则在解码器末尾的解码信号x”centre被描述为xcentre″(n)=gQxmono″(n)+xcentreresidual″(n)xcentre residual′′=Ec-1(Ec(xcentre residual))]]>xmono′′=Em-1(Em(xmono))]]>要编码的侧残留信号为xsideresidual(n)=(xleft(n)-xright(n))-gQsmxmono″(n)其中gQsm和gQsc是参数gsm和gsc的量化值,其最小化了表达式Σn=frame startframe end[|(xleft(n)-xright(n))-gsmxmono′′(n)-gscxcentre′′(n)|]η.]]>对于误差的最小均方最小化,η例如可以等于2。gsm和gsc参数可以被共同量化或者分开量化。
如果Es是侧残留信号的编码函数,则解码后的声道信号x”左和x”right被给出为xleft″(n)=xmono″(n)-xcentre″(n)+xside″(n)xright″(n)=xmono″(n)-xcentre″(n)-xside″(n)xside″(n)=xsideresidual″+gQsmxmono″(n)+gQscxcentre″(n)xside residual′′=Es-1(Es(xside residual)).]]>最令人讨厌的可感知人工产物之一是预回声效应。在图7a-b中,所述图说明了这种人工产物。假设信号分量具有如曲线100所示的时间发展。在开始(从t0开始),在音频采样中不存在信号分量。在t1和t2之间的时间t,突然出现信号分量。当使用t2-t1的帧长度对该信号分量编码时,该信号分量的出现会被“渗透”在整个帧上,如曲线101所示。如果产生该曲线101的解码,则该信号分量在该信号分量的预期出现之前出现时间Δt,由此感知到“预回声”。
如果使用长的编码帧,则预回声的人工产物变得进一步增强。通过使用较短的帧,该人工产物稍微得到抑止。处理上述预回声问题的另一方法是利用以下事实,即在编码器和解码器末尾都可以利用单声道信号。这使得有可能根据该单声道信号的能量轮廓来缩放侧信号。在解码器末尾,执行相反的缩放,因而可以减轻一些预回声问题。
在整个帧上计算该单声道信号的能量轮廓为Ec(m)=[Σn=m-Lm+Lw(n)xmono2(n)],]]>帧开始≤m≤帧末尾,其中w(n)是加窗函数。最简单的加窗函数是一个矩形窗,但是也许更期望其它的窗口类型,例如汉明窗。
然后缩放侧残留信号为x‾side residual(n)=xside residual(n)Ec(n),]]>帧开始≤n≤帧末尾。
上述等式可以使用更一般的形式被写为
x‾side residual(n)=xside residual(n)f(Ec(n)),]]>帧开始≤n≤帧末尾,其中f(…)是单调连续函数。在解码器中,对所解码的单声道信号计算能量轮廓,并且将所述轮廓应用到解码的侧信号上x″side(n)=xside″(n)f(Ec(n)),帧开始≤n≤帧末尾。
由于在某种程度上缩放的此能量轮廓是使用较短帧长度的替代,因此这一概念特别适于与可变帧长度的概念相结合,如上面进一步描述的。通过拥有一些应用能量轮廓缩放的编码方案、一些不应用以及一些仅在某些子帧期间应用能量轮廓缩放的编码方案,可以提供一个更灵活的编码方案的集合。在图8中说明了根据本发明的一个信号编码器单元30的实施例。在此,不同编码方案81包含了加阴影的子帧91(表示应用了能量轮廓缩放的编码)和未加阴影的子帧92(表示没有应用能量轮廓缩放的编码过程)。以这种方式,不仅可以获得不同长度的子帧的组合,而且可以获得具有不同编码原理的子帧的组合。在当前的说明性实例中,在不同编码方案之间应用的能量轮廓缩放不同。在更一般的情形下,可以用类似的方式将任何的编码原理与可变长度的概念相结合。
图8的编码方案的集合包括以不同的方式处理例如预回声人工产物的方案。在一些方案中,使用了根据能量轮廓原理具有预回声最小化的较长子帧。在其它方案中,利用了没有进行能量轮廓缩放的较短的子帧。根据信号的内容,其中的一个备选方案会更为有益。对于十分严重的预回声情形,必须使用进行能量轮廓缩放的短子帧的编码方案。
所提出的解决方案可以用在全部频带中或者在一个或多个不同的子带中。子带的使用可以被施加于主信号和侧信号的二者上或者单独施加在其中一个上。优选实施例包括将侧信号分成几个频带。原因只是由于在隔离的频带中除去可能的冗余比在整个频带中除去更容易。当解码具有丰富的频谱内容时这一点特别重要。
一种可能的用途是利用上述方法来编码低于预定阈值的频带。所述预定阈值优选可以为2kHz,或者甚至更优选为1kHz。对于感兴趣的频率范围的其余部分,可以利用上述方法对另一个附加频带进行编码,或者使用一个完全不同的方法。
优选为低频使用上述方法的一个动机是扩散的声场通常在高频没有多少能量内容。自然原因是声音吸收通常随着频率而增加。而且,扩散声场分量在较高频率对于人类听觉系统似乎起到不太重要的作用。因此,在低频时(低于1或2kHz)采用所述解决方案是有益的,并且依赖于其它条件而在较高频率使用比特效率更高的编码方案。只在低频时应用所述方案可以大量节省比特率,因为提出的方法所必须的比特率与所需要的带宽成正比。在大多数情形下,单声道编码器可以对整个频带编码,而建议只是在频带的较低部分执行所提出的侧信号编码,如图9示意性地说明的。参考数字301指的是根据本发明的侧信号编码方案,参考数字302指的是任何其它的侧信号编码方案,以及参考数字303指的是侧信号的一个编码方案。
也有可能对于几个不同的频带使用所提出的方法。
在图10中,用流程图说明了根据本发明的编码方法的实施例的主要步骤。该过程开始于步骤200。在步骤210,编码从多音信号中推导出的主信号。在步骤212,提供编码方案,其包括具有不同长度和/或顺序的子帧。在步骤214利用一个至少部分地根据当前多音信号的实际信号内容而选择的编码方案来对从多音信号中推导出的侧信号进行编码。该过程结束于步骤299。
在图11中,用流程图说明了根据本发明的解码方法的实施例的主要步骤。该过程始于步骤200。在步骤220,解码所接收的编码的主信号。在步骤222,提供编码方案,其包括具有不同长度和/或顺序的子帧。在步骤224中通过一个选定的编码方案对所接收的侧信号解码。在步骤226中,将所解码的主和侧信号组合为一个多音信号。所述过程结束于步骤299。
上述实施例应当被理解为本发明的一些说明性的实例。本领域的技术人员将会理解,可以对这些实施例进行各种修改、组合和变化而不同脱离本发明的范围。特别是,在其它方案中可以组合不同实施例中的不同的部分解决方案,只要其在技术上是可行的。然而,本发明的范围由所附的权利要求书加以限定。
参考文献欧洲专利0497413
美国专利5,285,498美国专利5,434,948由C.Faller等人在德国慕尼黑2002年5月举行的第112届AES会议上的“Binaural cue coding applied to stereo and multi-channel audio compression(对立体声和多声道音频压缩所应用的技术心理声学编码)”。
权利要求
1.一种编码多音信号的方法,包括以下步骤基于至少第一和第二声道(a,b;L,R)的信号来产生(210)第一输出信号(pmono),其是表示主信号的编码参数;以及基于在一个编码帧(80)内的至少该第一和第二声道(a,b;L,R)的信号来产生(214)第二输出信号(pside),其是表示侧信号的编码参数,其特征在于还包括以下步骤提供(212)至少两种编码方案(81),所述至少两种编码方案(81)的每一种都被表征为一起构成该编码帧(80)的一组相应子帧(90),由此在每一编码方案(81)中这些子帧(90)的长度之和等于所述编码帧(80)的长度;每一组子帧(90)包含至少一个子帧(90);由此,产生(214)第二输出信号(pside)的步骤包括至少部分根据当前侧信号(xside)的信号内容来选择一个编码方案(81)的步骤;分开地在所选择的子帧(90)组的每个子帧(90)中编码所述第二输出信号(pside)。
2.根据权利要求1所述的方法,其特征在于,产生(214)第二输出信号(pside)的步骤依次包括以下步骤分开地在所述至少两组子帧(90)的每一组的所有子帧(90)中产生表示一个侧信号(xside)的编码参数,其是至少第一和第二声道(a,b;L,R)的信号的第一线性组合;针对所述至少两种编码方案(81)的每一种计算总的保真度测量值;以及从具有最好的保真度测量值的编码方案(81)中选择所编码的信号以作为表示所述侧信号的编码参数(pside)。
3.根据权利要求2所述的方法,其特征在于,保真度测量值基于信噪比测量值。
4.根据权利要求1-3中任何一项所述的方法,其特征在于,子帧(90)具有根据下式的长度lsflsf=lf/2n,其中lf是编码帧(80)的长度,以及n是一个整数。
5.根据权利要求4所述的方法,其特征在于,n小于一个预定值。
6.根据权利要求5所述的方法,其特征在于,所述至少两种编码方案(81)包括子帧(90)长度的所有排列。
7.根据权利要求1-6中任何一项所述的方法,其特征在于,产生(210)表示主信号的编码参数(pmono)的步骤依次包括以下步骤创建主信号(xmono)以作为至少第一和第二声道(a,b;L,R)的信号的第二线性组合;以及将所述主信号编码为表示所述主信号的编码参数(pmono),编码侧信号的步骤依次包括以下步骤创建一个侧残留信号(xside residunt)以作为在所述侧信号与由平衡因子(gsm)缩放后的主信号(xmono)之间的差;所述平衡因子(gsm)被确定为根据一种质量标准使所述侧残留信号最小的因子;将所述侧残留信号和平衡因子(gsm)编码为表示所述侧信号的编码参数(pside)。
8.根据权利要求7所述的方法,其特征在于,所述质量标准基于最小均方测量值。
9.根据权利要求1-8中任何一项所述的方法,其特征在于,编码侧信号的步骤还包括以下步骤将所述侧信号(xside)缩放为所述主信号(xmono)的能量轮廓。
10.根据权利要求9所述的方法,其特征在于,缩放所述侧信号(xside)是除以一个因子,所述因子是所述主信号(xmono)的能量轮廓的单调连续函数。
11.根据权利要求10所述的方法,其特征在于,所述单调连续函数是一个平方根函数。
12.根据权利要求10或11所述的方法,其特征在于,根据下式在一个子帧上计算所述主信号xmono的能量轮廓EcEc(m)=[Σn=m-Lm+Lw(n)xmono2(n)],]]>帧开始≤m≤帧结尾其中L是任意因子,n是一个求和下标,m是在所述子帧内的采样,以及w(n)是加窗函数。
13.根据权利要求12所述的方法,其特征在于,加窗函数是一个矩形加窗函数。
14.根据权利要求12所述的方法,其特征在于,加窗函数是一个汉明窗函数。
15.根据权利要求1-14中任何一项所述的方法,其特征在于,所述至少两种编码方案(81)包括所述侧信号(xside)的不同编码原理。
16.根据权利要求15所述的方法,其特征在于,所述至少两种编码方案(81)的至少第一编码方案包括针对所有子帧(90)的所述侧信号(xside)的第一编码原理,并且所述至少两种编码方案(81)的至少第二编码方案包括针对所有子帧(90)的所述侧信号(xside)的第二编码原理。
17.根据权利要求15或16所述的方法,其特征在于,所述至少两种编码方案(81)的至少一种编码方案包括针对一个子帧的所述侧信号(xside)的第一编码原理和针对另一个子帧的所述侧信号(xside)的第二编码原理。
18.根据权利要求1所述的方法,其特征在于,产生(214)第二输出信号(pside)的步骤依次包括以下步骤分析一个侧信号(xside)的频谱特征,该侧信号(xside)是至少第一和第二声道(a,b;L,R)的信号的第一线性组合;基于所分析的频谱特征来选择一组子帧(90);以及分开地编码在所选择的该组子帧(90)的所有子帧(90)内的侧信号(xside)。
19.根据权利要求1-18中任何一项所述的方法,其特征在于,产生(214)第二输出信号(pside)的步骤被应用在有限的频带内。
20.根据权利要求19所述的方法,其特征在于,产生(214)第二输出信号(pside)的步骤只被应用于低于2kHz的频率。
21.根据权利要求20所述的方法,其特征在于,产生(214)第二输出信号(pside)的步骤只被应用于低于1kHz的频率。
22.根据权利要求1-20中任何一项所述的方法,其特征在于,所述多音信号表示音乐信号。
23.一种解码多音信号的方法,包括以下步骤解码(220)表示主信号的编码参数(pmono);解码(224)表示在一个编码帧(80)内的侧信号的编码参数(pside);以及至少将所解码的主信号(x”mono)和所解码的侧信号(x”side)组合(226)为至少第一和第二声道(a,b;L,R)的信号,其特征在于以下步骤提供(222)至少两种编码方案(81),所述至少两种编码方案(81)的每一种都被表征为一起构成该编码帧(80)的一组子帧(90),由此在每一编码方案(81)中这些子帧(90)的长度之和等于所述编码帧(80)的长度;每组子帧(90)包括至少一个子帧(90),由此解码(224)表示所述侧信号的编码参数(pside)的步骤依次包括分开地在所述至少两种编码方案(81)之一的子帧(90)中解码表示所述侧信号的编码参数(pside)的步骤。
24.编码器设备(14),包括用于包括至少第一和第二声道(a,b;L,R)的多音信号(a,b;L,R,C)的输入装置(16;16A-C),用于根据至少所述第一和第二声道(a,b;L,R)的信号来产生第一输出信号(pmono)的装置(38),其中所述第一输出信号是表示主信号的编码参数;用于根据在一个编码帧(80)内的至少所述第一和第二声道(a,b;L,R)的信号产生第二输出信号(pside)的装置(30),其中所述第二输出信号是表示侧信号的编码参数;以及输出装置(52);其特征在于用于提供至少两种编码方案(81)的装置,所述至少两种编码方案(81)的每一种都被表征为一起构成该编码帧(80)的一组相应子帧(90),由此在每一编码方案(81)中这些子帧(90)的长度之和等于所述编码帧(80)的长度;每一组子帧(90)包含至少一个子帧(90);由此,用于产生第二输出信号(pside)的装置(30)依次包括至少部分根据当前侧信号(xside)的信号内容来选择一个编码方案的装置(86;87);用于分开地在所选择的编码方案的每一个子帧(90)中编码所述侧信号(xside)的装置。
25.解码器设备(24),包括用于表示主信号的编码参数(pmono)和表示侧信号的编码参数(pside)的输入装置(54);用于解码表示主信号的所述编码参数(pmono)的装置(64);用于解码表示在一个编码帧(80)内的侧信号的编码参数(pside)的装置(60);用于至少将所解码的主信号(x”mono)和所解码的侧信号(x”side)组合为至少第一和第二声道(a,b;L,R)的信号的装置(68,70);以及输出装置(26;26A-C),其特征在于,所述用于解码表示侧信号的编码参数(pside)的装置(60)依次包括用于提供至少两种编码方案(81)的装置,所述至少两种编码方案(81)的每一种都被表征为一起构成该编码帧(80)的一组相应子帧(90),由此在每一编码方案中这些子帧(90)的长度之和等于所述编码帧(80)的长度;每一组子帧(90)包含至少一个子帧(90);以及用于分开地在所述至少两种编码方案(81)之一的子帧(90)中解码表示所述侧信号的编码参数(pside)的装置。
26.音频系统(1),包括以下的至少一个根据权利要求24所述的编码器设备(14),以及根据权利要求25所述的解码器设备(24)。
全文摘要
使用多音信号来产生一个通常为单声道信号的主信号和一个侧信号(x
文档编号G10L19/008GK1816847SQ200480018663
公开日2006年8月9日 申请日期2004年12月15日 优先权日2003年12月19日
发明者S·布鲁恩, I·约翰松, A·塔莱布, D·恩斯特伦 申请人:艾利森电话股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1