使用帧控制同步来编码或解码多声道音频信号的装置和方法与流程

文档序号:16051350发布日期:2018-11-24 11:18阅读:378来源:国知局

本申请涉及立体声处理或一般而言涉及多声道处理,其中多声道信号具有两个声道(诸如在立体声信号的情况下,左声道和右声道),或者多于两个声道(诸如三个、四个、五个或任何其它数量的声道)。

背景技术

相比于立体声音乐的存储及广播,立体声语音及特别是会话式立体声语音受到远较少的科学关注。实际上,在语音通信中,至今仍主要使用单声道传输。然而,随着网络带宽及容量的增加,预期基于立体声技术的通信将变得更普及且将带来更佳的收听体验。

为了高效存储或广播,在音乐的感知音频编码中已对立体声音频材料的高效编码进行长时间研究。在波形保留至关重要的高比特率下,已经长期采用称作中间/侧边(m/s)立体声的和-差立体声。对于低比特率,已经引入强度立体声及最近以来的参数立体声编码。在不同标准中采用最新技术,如heaacv2及mpegusac。其产生两声道信号的降混并关联紧凑空间边信息。

联合立体声编码通常建立在高频分辨率(即低时间分辨率,信号的时间-频率变换)上,且于是与在大部分语音编码器中执行的低延迟及时域处理不兼容。此外,产生的比特率通常为高。

另一方面,参数立体声采用位于编码器前端的额外滤波器组作为预处理器及位于解码器后端的额外滤波器组作为后处理器。因此,参数立体声可与如acelp的常规语音编码器一起使用,如在mpegusac中进行的那样。此外,听觉场景的参数化可以最少量边信息达成,这适用于低比特率。但如同例如在mpegusac中,参数立体声并未被特别设计用于低延迟且不会针对不同会话式情境传递一致的质量。在空间场景的常规参数表示中,立体声影像的宽度被应用于两个合成声道上的解相关器人工复制并受由编码器计算及传输的声道间相干性(ic)参数的控制。对于大部分立体声语音,此种加宽立体声影像的方式不适于重新创建作为相当直接声音的语音的自然环境,原因在于相当直接声音是由位于空间内的特定位置的单个源产生(偶尔具有来自室内的一些混响)。相比之下,乐器具有比语音远更自然的宽度,其可通过将声道解相关而更佳地模拟。

当利用不重合麦克风纪录语音时也会出现问题,如在当麦克风彼此远离或用于双耳纪录或渲染时的a-b配置中。这些情境可被预期用于在电话会议中捕捉语音或用于在多点控制单元(mcu)中以遥远扬声器创建虚拟听觉场景。信号的到达时间从一个声道到另一个声道是不同的,不同于在重合麦克风上进行的纪录,例如x-y(强度纪录)或m-s(中间-侧边纪录)。该未经时间对准的两个声道的相干性计算则可能被错误地估计,使得人工环境合成失败。

有关立体声处理的先前技术参考文献为专利号为5,434,948或8,811,621的美国专利。

文件wo2006/089570a1公开了近透明或透明的多声道编码器/解码器方案。多声道编码器/解码器方案额外产生波形类型残差信号。此残差信号连同一个或多个多声道参数一起被传输至解码器。与纯粹参数多声道解码器相反,加强式解码器由于额外残差信号而产生具有改进输出质量的多声道输出信号。在编码器侧,左声道及右声道两者均由分析滤波器组滤波。然后,对于每个子频带信号,针对子频带计算对准值及增益值。然后在进一步处理之前执行此种对准。在解码器侧,执行去对准及增益处理,然后对应信号被合成滤波器组合成,以便产生经解码的左信号及经解码的右信号。

另一方面,参数立体声采用额外滤波器组,其作为预处理器位于编码器的前端中且作为后处理器位于解码器的后端中。因此,参数立体声可与如acelp的常规语音编码器一起使用,如在mpegusac中进行的那样。此外,听觉场景的参数化可用最小量的边信息达成,此适合于低比特率。然而,如例如在mpegusac中,参数立体声未针对低延迟特定设计,且整个系统示出非常高的算法延迟。



技术实现要素:

本发明的目的是提供一种用于多声道编码/解码的改进概念,其是高效的并且处于获得低延迟的位置。

这个目的通过根据权利要求1的用于编码多声道信号的装置、根据权利要求24的编码多声道信号的方法、根据权利要求25的用于解码经编码的多声道信号的装置、根据权利要求42的用于解码经编码的多声道信号的方法或根据权利要求43的计算机程序来实现。

本发明基于以下发现:多声道处理(即,联合多声道处理)的至少一部分且优选地所有部分在频谱域中执行。具体而言,优选地在频谱域中执行联合多声道处理的降混操作,并且附加地,执行时间和相位对准操作或甚至用于分析联合立体声/联合多声道处理的参数的过程。此外,执行用于核心编码器的帧控制和在频谱域中操作的立体声处理的同步。

核心编码器被配置为根据第一帧控制操作以提供帧序列,其中帧由起始帧边界和结束帧边界界定,并且时间-频谱转换器或频谱-时间转换器被配置为根据与第一帧控制同步的第二帧控制进行操作,其中帧序列的每一帧的起始帧边界或结束帧边界与针对取样值的块的序列的每个块由时间-频谱转换器(1000)所使用的或针对取样值的块的输出序列的每个块由频谱-时间转换器所使用的窗口的重叠部分的起始时刻或结束时刻存在预定关系。

在本发明中,多声道编码器的核心编码器被配置为根据成帧控制进行操作,并且立体声后处理器的时间-频谱转换器和频谱-时间转换器和重新取样器也被配置为根据与核心编码器的成帧控制同步的另外成帧控制进行操作。以这样一种方式执行同步:核心编码器的帧序列的每个帧的起始帧边界或结束帧边界与针对取样值的块的序列的每个块或针对频谱值的块的重新取样序列的每个块由时间-频谱转换器或频谱时间转换器所使用的窗口的重叠部分的起始时刻或结束时刻存在预定关系。因此,确保了后续的成帧操作彼此同步地操作。

在进一步的实施例中,具有先行(look-ahead)部分的先行操作由核心编码器执行。在这个实施例中,优选的是,先行部分也被时间-频谱转换器的分析窗口使用,其中使用分析窗口的重叠部分,该重叠部分的时间长度小于或等于先行部分的时间长度。

因此,通过使核心编码器的先行部分和分析窗口的重叠部分彼此相等或者通过使重叠部分甚至小于核心编码器的先行部分,不能在没有任何附加算法延迟的情况下实现立体声预处理器的时间-频谱分析。为了确保此开窗的先行部分不会过多地影响核心编码器先行功能性,优选的是使用分析窗口函数的逆来修正这个部分。

为了确保这是以良好的稳定性完成的,使用正弦窗口形状的平方根代替正弦窗口形状作为分析窗口,并且1.5次幂的正弦合成窗口被用于在频谱-时间转换器的输出端处执行重叠操作之前的合成开窗的目的。因此,确保修正函数假定与作为正弦函数的逆的修正函数相比关于其量值减小的值。

优选地,在多声道处理之后或者甚至在多声道处理之前执行频谱域重新取样,以便提供来自另一个频谱-时间转换器的输出信号,其已经处于随后连接的核心编码器所需的输出取样率。但是,同步核心编码器的帧控制与频谱时间或时间频谱转换器的发明性过程也可以应用于不执行任何频谱域重新取样的场景。

在解码器侧,优选地再次执行用于在频谱域中从降混信号生成第一声道信号和第二声道信号的至少一个操作,并且优选地,甚至在频谱域中执行整个逆多声道处理。此外,提供时间-频谱转换器,用于将经核心解码的信号转换为频谱域表示,并且在频域内,执行逆多声道处理。

核心解码器被配置为根据第一帧控制进行操作以提供帧序列,其中帧由起始帧边界和结束帧边界界定。时间-频谱转换器或频谱-时间转换器被配置为根据与第一帧控制同步的第二帧控制进行操作。具体而言,时间-频谱转换器或频谱-时间转换器被配置为根据与第一帧控制同步的第二帧控制进行操作,其中帧序列的每一帧的起始帧边界或结束帧边界与针对取样值的块的序列的每个块由时间-频谱转换器所使用的或针对取样值的块的至少两个输出序列的每个块由频谱-时间转换器所使用的窗口的重叠部分的起始时刻或结束时刻呈预定关系。

当然,优选的是使用相同的分析和合成窗口形状,因为不需要修正。另一方面,优选的是在解码器侧使用时间间隙,其中在解码器侧的时间-频谱转换器的分析窗口的前导重叠部分的结束与由多声道解码器侧的核心解码器输出的帧结束时的时刻之间存在时间间隙。因此,在这个时间间隙内的核心解码器输出样本对于立即由立体声后处理器进行的分析开窗的目的是不需要的而仅对于下一帧的处理/开窗是需要的。这种时间间隙可以例如通过使用通常在分析窗口的中间的非重叠部分来实现,这导致重叠部分的缩短。但是,也可以使用用于实现这种时间间隙的其它替代方案,但是通过中间的非重叠部分实现时间间隙是优选的方式。因此,这个时间间隙可以用于其它核心解码器操作或优选地当核心解码器从频域切换到时域帧时的切换事件之间的平滑操作,或者用于当参数改变或编码特性变化已经发生时可能有用的任何其它平滑操作。

在实施例中,频谱域重新取样在多声道逆处理之前执行或者在多声道逆处理之后执行,使得最终频谱-时间转换器以旨在用于时域输出信号的输出取样率将频谱重新取样信号转换到时域。

因此,实施例允许完全避免任何计算密集的时域重新取样操作。相反,多声道处理与重新取样相结合。在优选实施例中,频谱域重新取样在下取样的情况下通过截短频谱来执行,或者在上取样的情况下通过零填补频谱来执行。这些容易的操作(即,一方面截短频谱或另一方面零填补频谱以及优选的附加缩放,以便考虑在诸如dft或fft算法的频谱域/时域转换算法中执行的某些归一化操作)以非常高效和低延迟的方式完成频谱域重新取样操作。

此外,已经发现,编码器侧的至少一部分或甚至整个联合立体声处理/联合多声道处理和解码器侧的对应逆多声道处理适于在频域中执行。这不仅作为编码器侧的最小联合多声道处理对于的降混操作有效,或者作为解码器侧的最小逆多声道处理对于升混处理有效。相反,甚至也可以在频谱域中执行编码器侧的立体声场景分析和时间/相位对准或解码器侧的相位和时间去对准。这同样适用于编码器侧上优选地执行的侧边声道编码或者解码器侧上用于生成两个解码的输出声道的侧边声道合成及使用。

因此,本发明的优点是提供一种新的立体声编码方案,其比现有的立体声编码方案更适于立体声语音的转换。本发明的实施例提供了一种新架构,用于实现低延迟立体声编解码器,并在切换式音频编解码器内集成针对语音核心编码器和基于mdct的核心编码器在频域中执行的共同立体声工具。

本发明的实施例涉及混合来自常规m/s立体声或参数立体声的元素的混合方法。实施例使用来自联合立体声编码的一些方面和工具以及来自参数立体声的其它方面和工具。更特别地,实施例采用在编码器的前端和解码器的后端进行的额外时间-频率分析和合成。通过采用具有复数值的滤波器组或者块变换来实现时间-频率分解和逆变换。从两个声道或多声道输入,立体声或多声道处理将输入声道组合并修改以输出被称为中间和侧边信号(ms)的输出。

本发明的实施例提供了一种用于减少由立体声模块引入的算法延迟的解决方案,其中延迟特别是来自其滤波器组的成帧和开窗。它提供了多速率逆变换,用于通过以不同的取样率产生相同的立体声处理信号对切换式编码器(如3gppevs)或在语音编码器(如acelp)以及通用音频编码器(如tcx)之间切换的编码器进行馈送。而且,它提供了适于低延迟和低复杂系统的不同约束以及立体声处理的开窗。此外,实施例提供了一种用于在频谱域中组合和重新取样不同经解码的合成结果的方法,其中也应用逆立体声处理。

本发明的优选实施例包括频谱域重新取样器中的多功能,不仅生成频谱值的单个频谱域重新取样块,而且还附加地生成与不同的更高或更低取样率对应的频谱值的块的另外的重新取样序列。

此外,多声道编码器被配置为在频谱-时间转换器的输出端处附加地提供输出信号,该输出信号具有与输入到编码器侧上的时间-频谱转换器的原始第一和第二声道信号相同的取样率。因此,在实施例中,多声道编码器以原始输入取样率提供至少一个输出信号,其优选地用于基于mdct的编码。此外,以对acelp编码特别有用的中间取样率提供至少一个输出信号,并且附加地以另外的输出取样率提供另外的输出信号,该另外的输出取样率对于acelp编码也是有用的,但是与其他输出取样率不同。

可以对中间信号或侧边信号或者对于从多声道信号的第一和第二声道信号得出的两个信号执行这些过程,其中在仅具有两个声道(附加地两个,例如,低频增强声道)的立体声信号的情况下,第一信号也可以是左信号并且第二信号可以是右信号。

附图说明

随后,参考附图详细讨论本发明的优选实施例,其中:

图1是多声道编码器的实施例的框图;

图2图示频谱域重新取样的实施例;

图3a-3c图示用于在频谱域中执行具有不同归一化和对应缩放的时间/频率或频率/时间转换的不同替代方案;

图3d图示用于某些实施例的不同频率分辨率和其它频率相关方面;

图4a图示编码器的实施例的框图;

图4b图示解码器的对应实施例的框图;

图5图示多声道编码器的优选实施例;

图6图示多声道解码器的实施例的框图;

图7a图示包括组合器的多声道解码器的另一个实施例;

图7b图示附加地包括组合器(加法)的多声道解码器的另一个实施例;

图8a图示示出用于若干取样率的窗口的不同特性的表;

图8b图示作为时间-频谱转换器和频谱-时间转换器的实现的dft滤波器组的不同提议/实施例;

图8c图示dft的两个分析窗口的序列,其时间分辨率为10ms;

图9a图示根据第一提议/实施例的编码器示意性开窗;

图9b图示根据第一提议/实施例的解码器示意性开窗;

图9c图示根据第一提议/实施例的编码器和解码器处的窗口;

图9d图示说明修正实施例的优选流程图;

图9e图示进一步说明修正实施例的流程图;

图9f图示用于解释时间间隙解码器侧实施例的流程图;

图10a图示根据第四提议/实施例的编码器示意性开窗;

图10b图示根据第四提议/实施例的解码器示意性窗口;

图10c图示根据第四提议/实施例的编码器和解码器处的窗口;

图11a图示根据第五提议/实施例的编码器示意性开窗;

图11b图示根据第五提议/实施例的解码器示意性开窗;

图11c图示根据第五提议/实施例的编码器和解码器处的窗口;

图12是信号处理器中使用降混的多声道处理的优选实现的框图;

图13是信号处理器内具有升混操作的逆多声道处理的优选实施例;

图14a图示为了对准声道而在用于编码的装置中执行的过程的流程图;

图14b图示在频域中执行的过程的优选实施例;

图14c图示使用具有零填补部分和重叠范围的分析窗口在用于编码的装置中执行的过程的优选实施例;

图14d图示在用于编码的装置的实施例中执行的进一步过程的流程图;

图15a图示由用于解码和编码多声道信号的装置的实施例执行的过程;

图15b图示关于一些方面的用于解码的装置的优选实现;以及

图15c图示在解码经编码的多声道信号的架构中的宽带去对准的上下文中执行的过程。

具体实施方式

图1图示用于编码包括至少两个声道1001、1002的多声道信号的装置。在双声道立体声场景的情况下,第一声道1001在左声道中,并且第二声道1002可以是右声道。但是,在多声道场景的情况下,第一声道1001和第二声道1002可以是多声道信号的任何声道,诸如例如一方面是左声道和另一方面是左环绕声道,或者一方面是右声道和另一方面是右环绕声道。但是,这些声道配对仅仅是示例,并且可以根据情况需要应用其它声道配对。

图1的多声道编码器包括时间-频谱转换器,用于将至少两个声道的取样值的块的序列转换成时间-频谱转换器的输出端处的频域表示。每个频域表示具有用于至少两个声道之一的频谱值的块的序列。特别地,第一声道1001或第二声道1002的取样值的块具有相关联输入取样率,并且时间-频谱转换器的输出序列的频谱值的块具有高达与输入取样率相关的最大输入频率的频谱值。在图1所示的实施例中,时间-频谱转换器连接到多声道处理器1010。这个多声道处理器被配置为用于对频谱值的块的序列应用联合多声道处理,以获得包括与至少两个声道有关的信息的频谱值的块的至少一个结果序列。典型的多声道处理操作是降混操作,但是优选的多声道操作包括稍后将描述的附加过程。

核心编码器1040被配置为根据第一帧控制来操作以提供帧的序列,其中帧由起始帧边界1901和结束帧边界1902界定。时间-频谱转换器1000或频谱-时间转换器1030被配置为根据与第一帧控制同步的第二帧控制进行操作,其中帧序列的每个帧的起始帧边界1901或结束帧边界1902与针对取样值的块的序列的每个块由时间-频谱转换器1000所使用的或针对取样值的块的输出序列的每个块由频谱-时间转换器1030所使用的窗口的重叠部分的起始时刻或结束时刻呈预定关系。

如图1中所示,频谱域重新取样是可选特征。也可以在没有任何重新取样的情况下或者在多声道处理之后或在多声道处理之前重新取样的情况下执行本发明。在使用的情况下,频谱域重新取样器1020在频域中对输入到频谱-时间转换器1030的数据或者对输入到多声道处理器1010的数据执行重新取样操作,其中频谱值的块的重新取样序列的块具有高达不同于最大输入频率1211的最大输出频率1231、1221的频谱值。随后,描述具有重新取样的实施例,但是要强调的是,重新取样是可选特征。

在另一个实施例中,多声道处理器1010连接到频谱域重新取样器1020,并且频谱域重新取样器1020的输出被输入到多声道处理器。这由虚连接线1021、1022说明。在这个替代实施例中,多声道处理器被配置为用于将联合多声道处理不应用于由时间-频谱转换器输出的频谱值的块的序列,而是应用于在连接线1022上获得的块的重新取样序列。

频谱域重新取样器1020被配置为用于重新取样由多声道处理器生成的结果序列,或者重新取样由时间-频谱转换器1000输出的块的序列,以获得如线1025所示的可以表示中间信号的频谱值的块的重新取样序列。优选地,频谱域重新取样器附加地对由多声道处理器生成的侧边信号执行重新取样,并且因此还输出与侧边信号对应的重新取样序列,如1026处所示。但是,侧边信号的生成和重新取样是可选的,并且对于低比特率实现不是必需的。优选地,频谱域重新取样器1020被配置为用于为了下取样而截短频谱值的块或用于为了上取样而对频谱值的块进行零填补。多声道编码器附加地包括频谱-时间转换器,用于将频谱值的块的重新取样序列转换成时域表示,该时域表示包括具有与输入取样率不同的相关联输出取样率的取样值的块的输出序列。在在多声道处理之前执行频谱域重新取样的替代实施例中,多声道处理器经由虚线1023将结果序列直接提供给频谱-时间转换器1030。在这种替代实施例中,可选特征是,附加地,已经在重新取样表示中由多声道处理器生成侧边信号,然后侧边信号也由频谱-时间转换器处理。

最后,频谱-时间转换器优选地提供时域中间信号1031和可选的时域侧边信号1032,它们都可以由核心编码器1040进行核心编码。一般而言,核心编码器被配置为用于对取样值的块的输出序列进行核心编码,以获得经编码的多声道信号。

图2图示对解释频谱域重新取样有用的频谱图。

图2中的上部图表图示在时间-频谱转换器1000的输出处可用的声道的频谱。这个频谱1210具有高达最大输入频率1211的频谱值。在上取样的情况下,零填补在延伸直至最大输出频率1221的零填补部分或零填补区域1220内执行。由于意图进行上取样,最大输出频率1221大于最大输入频率1211。

与此相比,图2中的下部图表图示由于对块的序列进行下取样所引起的过程。为此,在截短区域1230内截短块,使得在1231处的截短频谱的最大输出频率低于最大输入频率1211。

通常,与图2中的对应频谱相关联的取样率是频谱的最大频率的至少2倍。因此,对于图2中上面的情况,取样率将是最大输入频率1211的至少2倍。

在图2的第二个图表中,取样率将是最大输出频率1221(即,零填补区域1220的最高频率)的至少两倍。与此相反,在图2的最下面的图表中,取样率将是最大输出频率1231(即,在截短区域1230内截短后剩余的最高频谱值)的至少2倍。

图3a至3c图示可以在某些dft前向或后向变换算法的上下文中使用的若干替代方案。在图3a中,考虑这样的情况,其中执行具有大小x的dft,并且其中在正向变换算法1311中没有发生任何归一化。在方框1331处,示出具有不同大小y的后向变换,其中执行具有1/ny的归一化。ny是具有大小y的反向变换的频谱值的数量。然后,优选地通过ny/nx执行缩放,如方框1321所示。

与此相比,图3b图示这样的实现,其中归一化被分配给正向变换1312和反向变换1332。然后需要缩放,如方框1322所示,其中后向变换的频谱值的数量与正向变换的频谱值的数量之间的关系的平方根是有用的。

图3c图示另一种实现,其中在执行具有大小x的正向变换的情况下对正向变换执行整体归一化。然后,如方框1333中所示的后向变换在没有任何归一化的情况下操作,使得不需要任何缩放,如图3c中的示意性方框1323所示。因此,取决于某些算法,需要某些缩放操作或甚至不需要缩放操作。但是,优选地是根据图3a进行操作。

为了使总延迟保持低,本发明在编码器侧提供了一种方法,用于避免需要时域重新取样器并通过在dft域中重新取样信号来替换时域重新取样器。例如,在evs中,它允许节省来自时域重新取样器的0.9375ms的延迟。频域中的重新取样是通过零填补或截短频谱并正确缩放其来实现的。

考虑以速率fx取样的输入开窗信号x,其具有大小为nx的频谱x,以及以速率fy重新取样的相同信号的版本y,其具有大小为ny的频谱。于是,取样因子等于:

ft/fx=ny/nx在下取样nx>ny的情况下。通过直接缩放和截短原始频谱x,可以简单地在频域中执行下取样:

y[k]=x[k].ny/nx,对于k=o..ny

在上取样nx<ny的情况下。通过直接缩放和零填补原始频谱x,可以简单地在频域中执行上取样:

y[k]=x[k].ny/nx,对于k=0...nx

y[k]=0,对于k=nx...ny

两个重新取样操作可以总结为:

y[k]=x[k].ny/nx,对于所有k=0...min(ny,nx)

y[k]=0,对于所有k=min(ny,nx)...ny,对于如果ny>nx

一旦获得新的频谱y,就可以通过应用大小为ny的相关联的逆变换idft来获得时域信号y:

y=idft(y)

为了在不同帧上构造连续时间信号,然后对输出帧y进行开窗并重叠相加至先前获得的帧。

窗口形状对于所有取样率都相同,但是窗口在样本中具有不同的大小,并且取决于取样率而进行不同的取样。由于形状是纯粹分析定义的,窗口的样本数量及其值可以容易地得出。窗口的不同部分和大小可以在图8a中被发现为目标取样率的函数。在这种情况下,重叠部分(la)中的正弦函数用于分析和合成窗口。对于这些区域,递增的ovlp_size系数由下式给出:

win_ovlp(k)=sin(pi*(k+0.5)/(2*ovlp_size));,对于k=0..ovlp_size-1

而递减的ovlp_size系数由下式给出:

win_ovlp(k)=sin(pi*(ovlp_size-1-k+0.5)/(2*ovlp_size));,对于k=0..ovlp_size-1其中ovlp_size是取样率的函数并且在图8a中给出。

新的低延迟立体声编码是利用一些空间线索的联合中间/侧边(m/s)立体声编码,其中中间声道由主要单声道核心编码器(单声道核心编码器)编码,并且侧边声道在次核心编码器中编码。编码器和解码器原理在图4a和4b中描绘。

立体声处理主要在频域(fd)中执行。可选地,可以在频率分析之前在时域(td)中执行某种立体声处理,这是针对itd计算的情况,其可以在频率分析之前被计算和应用,以在进行立体声分析和处理之前在时间上对准声道。可替代地,itd处理可以直接在频域中完成。由于如acelp等常用的语音编码器不包含任何内部时间-频率分解,因此立体声编码借助于在核心编码器之前的分析及合成滤波器组及在核心解码器之后的分析合成滤波器组的另一阶段来添加额外的复调制滤波器组。在优选实施例中,采用具有低重叠区域的过取样dft。但是,在其它实施例中,可以使用具有相似时间分辨率的任何复数值时间-频率分解。在立体声滤波器组之后,可以参考如qmf的滤波器组或如dft的块变换。

立体声处理包括计算空间线索和/或立体声参数,如声道间时差(itd)、声道间相位差(ipd)、声道间声级差(ild)以及用于利用中间信号(m)预测侧边信号(s)的预测增益。重要的是要注意,编码器和解码器处的立体声滤波器组都在编码系统中引入额外的延迟。

图4a图示用于编码多声道信号的装置,其中,在这个实现中,使用声道间时间差(itd)分析在时域中执行某种联合立体声处理,并且其中使用放在时间-频谱转换器1000之前的时移块1410在时域内应用这种itd分析1420的结果。

然后,在频谱域内,执行进一步的立体声处理1010,其至少导致到中间信号m的左和右的降混以及可选地导致侧边信号s的计算,并且虽然未在图4a中明确示出,但是由可以应用两个不同的替代方案之一的图1中所示的频谱域重新取样器1020执行的重新取样操作,即,在多声道处理之后或在多声道处理之前执行重新取样。

此外,图4a图示优选核心编码器1040的进一步细节。特别地,为了在频谱-时间转换器1030的输出端处对时域中间信号m进行编码,使用evs编码器。此外,为了侧边信号编码的目的,执行mdct编码1440和随后连接的向量量化1450。

经编码的或经核心编码的中间信号和经核心编码的侧边信号被转发到多路复用器1500,多路复用器1500将这些经编码的信号与边信息一起多路复用。一种边信息是在1421处输出到多路复用器(并且可选地输出到立体声处理元件1010)的id参数,并且其它参数是声道声级差/预测参数、声道间相位差(ipd参数)或立体声填充参数,如线1422处所示。相应地,用于解码由比特流1510表示的多声道信号的图4b的装置包括解复用器1520,在这个实施例中由用于经编码的中间信号m的evs解码器1602和向量反量化器1603以及随后连接的逆mdct方框1604组成的核心解码器。方框1604提供经核心解码的侧边信号s。使用时间-频谱转换器1610将经解码的信号m、s转换到频谱域,然后在频谱域内执行逆立体声处理和重新取样。再次,图4b图示这样一种情况:执行从m信号到左l和右r的升混,以及附加地执行使用ipd参数的窄带去对准,以及附加地执行用于使用线1605上的声道间声级差参数ild和立体声填充参数计算尽可能好的左和右声道的进一步的过程。此外,解复用器1520不仅从比特流1510提取线1605上的参数,还提取线1606上的声道间时间差并将这个信息转发到块逆立体声处理/重新取样器并且附加地转发到在时域中执行的方框1650中的逆时移处理,即,在由以输出速率提供经解码的左和右信号的频谱-时间转换器执行的过程之后,其中例如,输出速率与evs解码器1602的输出端处的速率不同,或者与imdct方框1604的输出端处的速率不同。

然后,立体声dft可以提供信号的不同取样版本,其进一步被传递到切换式核心编码器。要编码的信号可以是中间声道、侧边声道,或左和右声道,或者从两个输入声道的旋转或声道映射产生的任何信号。由于切换式系统的不同核心编码器接受不同的取样率,因此立体声合成滤波器组可以提供多速率信号(multi-ratedsignal)是一个重要特征。原理在图5中示出。

在图5中,立体声模块将两个输入声道i和r作为输入,并在频域中将它们变换为信号m和s。在立体声处理中,输入声道最终可以被映射或修改,以生成两个新信号m和s。m通过3gpp标准evs单声道或其修改版本而被进一步编码。这种编码器是切换式编码器,在mdct核心(在evs的情况下为tcx和hq-core)与语音编码器(evs中的acelp)之间切换。它还具有始终以12.8khz运行的预处理功能以及以根据操作模式而变化的取样率(12.8、16、25.6或32khz)运行的其它预处理功能。而且,acelp以12.8或16khz运行,而mdct核心以输入取样率运行。信号s可以由标准evs单声道编码器(或其修改版本)编码,或者由专门为其特点设计的特定侧边信号编码器编码。也有可能跳过侧边信号s的编码。

图5图示具有立体声处理的信号m和s的多速率合成滤波器组的优选立体声编码器细节。图5示出以输入速率(即,信号1001和1002具有的速率)执行时间频率变换的时间-频谱转换器1000。显然,图5附加地图示用于每个声道的时域分析框1000a、1000e。特别地,虽然图5示出显式时域分析框(即,用于将分析窗口应用于对应声道的开窗器),但应当注意的是,在本说明书中的其它地方,用于应用时域分析框的开窗器被认为包括在以某个取样率指示为“时间-频谱转换器”或“dft”的方框中。此外,相应地,提及频谱-时间转换器通常包括在实际dft算法的输出处的用于应用对应合成窗口的开窗器,其中为了最终获得输出样本,执行用对应的合成窗口开窗的取样值的块的重叠-相加。因此,即使例如方框1030仅提到“idft”,这个方框通常也还表示利用分析窗口对时域样本的块的后续开窗,以及再次随后的重叠-相加操作,以便最终获得时域m信号。

此外,图5图示特定立体声场景分析框1011,其执行在方框1010中使用以执行立体声处理和降混的参数,并且这些参数可以例如是图4a的线1422或1421上的参数。因此,方框1011可以与实现中图4a中的方框1420对应,其中甚至参数分析(即,立体声场景分析)在频谱域中进行,且特别地利用未经重新取样,但在对应于输入取样率的最大频率下的频谱值的块的序列。

此外,核心解码器1040包括基于mdct的编码器分支1430a和acelp编码分支1430b。特别地,用于中间信号m的中间编码器和用于侧边信号s的对应侧边编码器在基于mdct的编码和acelp编码之间执行切换编码,其中通常核心编码器附加地具有通常对某个先行部分操作的编码模式决策器,以便确定是使用基于mdct的过程还是基于acelp的过程来编码某个块或帧。此外,或者可替代地,核心编码器被配置为使用先行部分,以便确定诸如lpc参数等等之类的其它特性。

此外,核心编码器附加地包括以不同取样率的预处理级,诸如以12.8khz操作的第一预处理级1430c和以由16khz、25.6khz或32khz组成的取样率组的取样率操作的另一个预处理级1430d。

因此,一般而言,图5中所示的实施例被配置为具有用于从输入速率(其可以是8khz、16khz或32khz)重新取样成不同于8、16或32的输出速率中任何一个的频谱域重新取样器。

此外,图5中的实施例附加地被配置为具有未经重新取样的附加分支,即,“输入速率下的idft”表示的用于中间信号并且可选地用于侧边信号的分支。

此外,图5中的编码器优选地包括重新取样器,其不仅重新取样到第一输出取样率,而且还重新取样到第二输出取样率,以便具有用于预处理器1430c和1430d两者的数据,例如,预处理器1430c和1430d可操作以执行某种滤波、某种lpc计算或某种其它信号处理,其优选地在已在图4a的上下文中提及的用于evs编码器的3gpp标准中公开。

图6图示用于对经编码的多声道信号1601进行解码的装置的实施例。用于解码的装置包括核心解码器1600、时间-频谱转换器1610、可选的频谱域重新取样器1620、多声道处理器1630以及频谱-时间转换器1640。

核心解码器1600被配置为根据第一帧控制进行操作以提供帧序列,其中帧由起始帧边界1901和结束帧边界1902界定。时间-频谱转换器1610或频谱-时间转换器1640被配置为根据与第一帧控制同步的第二帧控制进行操作。时间-频谱转换器1610或频谱-时间转换器1640被配置为根据与第一帧控制同步的第二帧控制进行操作,其中帧序列的每个帧的起始帧边界1901或结束帧边界1902与针对取样值的块的序列的每个块由时间-频谱转换器1610所使用的或针对取样值的块的至少两个输出序列的每个块由频谱-时间转换器1640所使用的窗口的重叠部分的起始时刻或结束时刻呈预定关系。

再次,关于用于解码经编码的多声道信号1601的装置的本发明可以以若干替代方案实现。一种替代方案是根本不使用频谱域重新取样器。另一种替代方案是使用重新取样器并且被配置为在执行多声道处理之前在频谱域中对经核心解码的信号进行重新取样。这种替代方案由图6中的实线示出。但是,另一个替代方案是在多声道处理之后执行频谱域重新取样,即,多声道处理以输入取样率进行。这个实施例在图6中用虚线示出。如果被使用,那么频谱域重新取样器1620在频域中对输入到频谱-时间转换器1640的数据或者对输入到多声道处理器1630的数据执行重新取样操作,其中经重新取样的序列的块具有高达与最大输入频率不同的最大输出频率的频谱值。

特别地,在第一实施例中,即,在多声道处理之前在频谱域中执行频谱域重新取样的情况下,表示取样值的块序列的经核心解码的信号被转换成具有线1611处的经核心解码的信号的频谱值的块的序列的频域表示。

此外,经核心解码的信号不仅包括线1602处的m信号,而且还包括线1603处的侧边信号,其中侧边信号在1604处以经核心编码的表示示出。

然后,时间-频谱转换器1610附加地生成在线1612上用于侧边信号的频谱值的块的序列。

然后,由方框1620执行频谱域重新取样,并且在线1621处将关于中间信号或降混声道或第一声道的频谱值的块的重新取样序列转发到多声道处理器,并且可选地还经由线1622将用于侧边信号的频谱值的块的重新取样序列从频谱域重新取样器1620转发到多声道处理器1630。

然后,多声道处理器1630对线1621和1622处示出的包括来自降混信号(并且可选地来自侧边信号)的序列的序列执行逆多声道处理,以便输出在线1631和1632处示出的频谱值的块的至少两个结果序列。然后,使用频谱-时间转换器将这至少两个序列转换到时域中,以便输出时域声道信号1641和1642。在另一个替代方案中,在线1615中所示,时间-频谱转换器被配置为将诸如中间信号的经核心解码的信号馈送到多声道处理器。此外,时间-频谱转换器还可以将经解码的侧边信号1603以其频谱域表示馈送到多声道处理器1630,但是图6中未示出这种选项。然后,多声道处理器执行逆处理,且输出的至少两个声道经由连接线1635被转发到频谱域重新取样器,然后频谱域重新取样器经由线1625将这两个声道处的重新取样转发到频谱-时间转换器1640。

因此,与在图1的上下文中讨论的内容有点类似,用于解码经编码的多声道信号的装置还包括两个替代方案,即,在逆多声道处理之前执行频谱域重新取样,或者可替代地,以输入取样率在多声道处理之后执行频谱域重新取样。但是,优选地,执行第一替代方案,因为它允许图7a和图7b中所示的不同信号贡献的有利对准。

再次,图7a图示核心解码器1600,但是,其输出三个不同的输出信号,即,相对于输出取样率的不同取样率下的第一输出信号1601、输入取样率(即,经核心编码的信号1601下的取样率)下的第二经核心解码的信号1602,并且核心解码器附加地生成输出取样率(即,在图7a中频谱-时间转换器1640的输出端处最终预期的取样率)下的可操作且可用的第三输出信号1603。

所有三个经核心解码的信号被输入到时间-频谱转换器1610,其生成频谱值的块的三个不同序列1613、1611和1612。

频谱值的块的序列1613具有高达最大输出频率的频率或频谱值,因此与输出取样率相关联。

频谱值的块的序列1611具有高达不同最大频率的频谱值,因此这个信号不与输出取样率对应。

此外,信号1612的频谱值高达最大输入频率,该最大输入频率也与最大输出频率不同。

因此,序列1612和1611被转发到频谱域重新取样器1620,而信号1613不被转发到频谱域重新取样器1620,因为这个信号已经与正确的输出取样率相关联。

频谱域重新取样器1620将频谱值的重新取样序列转发到组合器1700,组合器1700被配置为针对在重叠情况下对应的信号逐频谱线地执行逐块组合。因此,在从基于mdct的信号到acelp信号的切换之间通常存在交叉区域,并且在这个重叠范围中,信号值存在并且彼此组合。但是,当这个重叠范围结束并且信号仅存在于例如信号1603中而信号1602例如不存在时,组合器将不在这个部分中执行逐块频谱线相加。但是,当稍后出现切换时,逐块逐频谱线相加将在这个交叉区域期间发生。

此外,如图7b所示,也有可能进行连续相加,其中执行在方框1600a处示出的低音后置滤波器输出信号,该方框生成例如可以是来自图7a的信号1601的谐波间误差信号。然后,在方框1610中的时间-频谱转换和随后的频谱域重新取样1620之后,优选地在执行图7b中的方框1700中的相加之前执行附加的滤波操作1702。

类似地,基于mdct的解码级1600d和时域带宽扩展解码级1600c可以经由交叉衰落框1704耦合,以便获得经核心解码的信号1603,然后以输出取样率将其转换成频谱域表示,使得对于这个信号1613,频谱域重新取样不是必需的,但是信号可以直接转发到组合器1700。然后立体声逆处理或多声道处理1603在组合器1700之后发生。

因此,与图6中所示的实施例相比,多声道处理器1630不对频谱值的重新取样序列进行操作,而是对包括频谱值的至少一个重新取样序列(诸如1622和1621)的序列进行操作,其中多声道处理器1630对其进行操作的序列还包括不必重新取样的序列1613。

如图7中所示,来自以不同取样率工作的不同dft的不同经解码的信号已经时间对准,因为处于不同取样率的分析窗口共享相同的形状。但是,频谱显示出不同的大小和缩放。为了使它们协调并使它们兼容,所有频谱在彼此相加之前以期望的输出取样率在频域中被重新取样。

因此,图7图示dft域中合成信号的不同贡献的组合,其中以这样一种方式执行频谱域重新取样:最终,要由组合器1700相加的所有信号都已经是可用的且频谱值延伸高达与输出取样率(低于或等于然后在频谱时间转换器1640的输出端处获得的输出取样率的一半)对应的最大输出频率。

立体声滤波器组的选择对于低延迟系统是至关重要的,并且可实现的权衡在图8b中总结。它可以采用dft(块变换)或称为cldfb(滤波器组)的伪低延迟qmf。每个提议显示出不同的延迟、时间和频率分辨率。对于系统,必须选择那些特性之间的最佳折衷。拥有良好的频率和时间分辨率是重要的。这就是为什么在提议3中使用伪qmf滤波器组会有问题的原因。频率分辨率低。它可以通过如mpeg-usac的mps212中那样的混合方法来增强,但是其具有显著增加复杂性和延迟的缺点。另一个重点是核心解码器与逆立体声处理之间在解码器侧可获得的延迟。这种延迟越大越好。例如,提议2不能提供这种延迟,因此不是有价值的解决方案。出于上面提到的原因,在其余描述中我们将重点放在提议1、4和5。

滤波器组的分析和合成窗口是另一个重要方面。在优选实施例中,相同的窗口用于dft的分析和合成。在编码器侧和解码器侧也是如此。为了履行以下约束,要特别注意:

■重叠区域必须等于或小于mdct核心和acelp先行的重叠区域。在优选实施例中,所有大小都等于8.75ms

■为了允许在dft域中应用声道的线性移位,零填补应当至少为大约2.5ms

■对于不同的取样率:12.8、16、25.6、32和48khz,窗口大小、重叠区域大小和零填补大小必须以整数个样本来表示

■dft复杂度应当尽可能低,即,分裂基(split-radix)fft实现中dft的最大基数应当尽可能低。

■时间分辨率固定到10ms。

知道了这些约束,在图8c和图8a中描述提议1和4的窗口。

图8c图示由初始重叠部分1801、随后的中间部分1803和终止重叠部分或第二重叠部分1802组成的第一窗口。此外,第一重叠部分1801和第二重叠部分1802附加地具有在其开始和结束处的零填补部分1804和1805。

此外,图8c图示关于图1的时间-频谱转换器1000或者可替代地图7a的1610的成帧所执行的过程。由元素1811(即,第一重叠部分)、中间非重叠部分1813和第二重叠部分1812组成的另一个分析窗口与第一窗口重叠50%。第二窗口附加地在其开始和结束处具有零填补部分1814和1815。这些零重叠部分是必要的,以便处于在频域中执行宽带时间对准的位置。

此外,第二窗口的第一重叠部分1811开始于中间部分1803(即,第一窗口的非重叠部分)的结束处,并且第二窗口的重叠部分(即,非重叠部分1813)开始于第一窗口的第二重叠部分1802的结束处,如图所示。

当图8c被认为表示对频谱-时间转换器(诸如图1的用于编码器的频谱-时间转换器1030或者用于解码器的频谱-时间转换器1640)的重叠相加操作时,由块1801、1802、1803、1805、1804组成的第一窗口与合成窗口对应,并且由部分1811、1812、1813、1814、1815组成的第二窗口与用于下一块的合成窗口对应。然后,窗口之间的重叠图示重叠部分,并且重叠部分在1820处示出,并且重叠部分的长度等于当前帧除以二并且在优选实施例中等于10ms。此外,在图8c的底部,用于计算重叠范围1801或1811内的递增窗口系数的分析方程式被示为正弦函数,并且对应地,重叠部分1802和1812的递减重叠大小系数也被示为正弦函数。

在优选实施例中,相同的分析和合成窗口仅用于图6、图7a、图7b中所示的解码器。因此,时间-频谱转换器1616和频谱-时间转换器1640使用完全相同的窗口,如图8c所示。

但是,在某些实施例中,特别是关于随后的提议/实施例1,使用一般而言与图1c一致的分析窗口,但是使用正弦函数的平方根来计算用于递增或递减重叠部分的窗口系数,在正弦函数中具有与图8c中相同的自变量。相应地,合成窗口使用1.5幂的正弦函数来计算,但是再次具有正弦函数的相同自变量。

此外,要注意的是,由于重叠-相加操作,0.5次幂的正弦乘以1.5次幂的正弦再次导致2次幂的正弦,这是为了具有节能状况所必需的。

提议1具有以下主要特性:dft的重叠区域具有相同大小并且与acelp先行和mdct核心重叠区域对准。编码器延迟于是对于acelp/mdct核心而言相同,并且立体声不在编码器处带来任何附加的延迟。在evs的情况下以及在使用如图5所述的多速率合成滤波器组方法的情况下,立体声编码器延迟低至8.75ms。

编码器示意性成帧在图9a中示出,而解码器在图9e中描绘。对于编码器,窗口在图9c中以蓝色虚线绘制,而对于解码器,窗口以红色实线绘制。

提议1的一个主要问题是编码器处的先行被开窗。它可为了随后的处理而被修正,或者如果随后的处理适于考虑经开窗的先行,那么可以将其保持开窗。可能的是,如果在dft中执行的立体声处理修改了输入声道,并且尤其是在使用非线性操作时,那么在绕过核心编码的情况下,经修正或开窗的信号不允许实现完美重建。

值得注意的是,在核心解码器合成和立体声解码器分析窗口之间存在1.25ms的时间间隙,其可以被核心解码器后处理、被带宽扩展(bwe)(如在acelp上使用的时域bwe)或者在acelp与mdct核心之间过渡的情况下被某种平滑利用。

由于这个仅为1.25ms的时间间隙低于用于这种操作的标准evs所需的2.3125ms,因此本发明提供了一种在立体声模块的dft域内组合、重新取样和平滑切换式解码器的不同合成部分的方法。

如图9a中所示,核心编码器1040被配置为根据成帧控制进行操作,以提供帧的序列,其中帧由起始帧边界1901和结束帧边界1902界定。此外,时间-频谱转换器1000和/或频谱-时间转换器1030还被配置为根据与第一成帧控制同步的第二成帧控制进行操作。成帧控制由用于编码器中的时间-频谱转换器1000(并且特别地,用于被并发处理并完全同步的第一声道1001和第二声道1002)的两个重叠窗口1903和1904示出。此外,成帧控制在解码器侧也是可见的,具体而言,以在1913和1914处示出的图6的时间-频谱转换器1610的两个重叠窗口。例如,这些窗口,1913和1914,应用于核心解码器信号,该核心解码器信号优选地是图6的单个单声道或降混信号1610。此外,如从图9a清楚可见的,核心编码器1040的成帧控制与时间-频谱转换器1000或频谱-时间转换器1030之间的同步使得帧序列的每一帧的起始帧边界1901或结束帧边界1902与针对取样值的块的序列的每个块或针对频谱值的块的重新取样序列的每个块由时间-频谱转换器1000或频谱-时间转换器1030所使用的窗口的重叠部分的起始时刻或结束时刻呈预定关系。在图9a所示的实施例中,例如,该预定关系使得第一重叠部分的起始与关于窗口1903的起始时间边界重合,并且另一个窗口1904的重叠部分的起始与中间部分(诸如图8c的部分1803)的结束重合。因此,当图8c中的第二窗口与图9a中的窗口1904对应时,结束帧边界1902与图8c的中间部分1813的结束重合。

因此,变得清楚的是,图9a中的第二窗口1904的第二重叠部分(诸如图8c的1812)延伸超过帧边界1902的结束或终止,并因此延伸到1905处示出的核心编码器先行部分中。

因此,核心编码器1040被配置为当核心编码取样值的块的输出序列的输出块时使用先行部分(诸如先行部分1905),其中输出先行部分在时间上位于输出块之后。输出块与由帧边界1901、1904界定的帧对应,并且输出先行部分1905在用于核心编码器1040的这个输出块之后。

此外,如图所示,时间-频谱转换器被配置为使用分析窗口(即,窗口1904,其具有时间长度小于或等于先行部分1905的时间长度的重叠部分),其中位于重叠范围内的与图8c的重叠部分1812对应的这个重叠部分被用于生成经开窗的先行部分。

此外,频谱-时间转换器1030被配置为优选地使用修正函数来处理与经开窗的先行部分对应的输出先行部分,其中修正函数被配置为使得分析窗口的重叠部分的影响被减少或消除。

因此,在图9a中的核心编码器1040和降混1010/下取样1020方框之间操作的频谱-时间转换器被配置为在函数中应用修正,以便撤消由图9a中的窗口1904应用的开窗。

因此,确保核心编码器1040在将其先行功能性应用于先行部分1095时对尽可能远地接近原始部分的部分而非对先行部分执行先行功能。

但是,由于低延迟约束,并且由于立体声预处理器和核心编码器的成帧之间的同步,因此不存在用于先行部分的原始时域信号。但是,应用修正函数可以确保尽可能多地减少由这个过程引起的任何伪声。

关于这种技术的一系列过程在图9d、图9e中更详细地示出。

在步骤1910中,执行第零块的dft-1,以获得时域中的第零块。第零块将已经获得用于图9a中窗口1903左侧的窗口。但是,这第零块未在图9a中明确示出。

然后,在步骤1912中,使用合成窗口对第零块进行开窗,即,在图1中所示的频谱-时间转换器1030中开窗。

然后,如方框1911所示,执行由窗口1903获得的第一块的dft-1以获得时域中的第一块,并且在方框1910中使用合成窗口再次对这个第一块进行开窗。

然后,如图9d中的1918所指示的,执行第二块(即,由图9a的窗口1904获得的块)的逆dft,以获得时域中的第二块,然后是使用合成窗口对第二块的第一部分进行开窗,如图9d的1920所示。但是,重要的是,由图9d中的项1918获得的第二块的第二部分不使用合成窗口被开窗,而是被修正,如图9d的方框1922中所示,并且,对于修正函数,使用分析窗口函数的逆,以及分析窗口函数的对应重叠部分。

因此,如果用于生成第二块的窗口是图8c中所示的正弦窗口,那么图8c的底部的方程式的用于递减重叠大小系数的1/sin()被用作修正函数。

但是,优选的是使用正弦窗口的平方根用于分析窗口,因此修正函数是窗口函数这确保了通过方框块1922获得的经修正的先行部分尽可能接近先行部分内的原始信号,但是,当然不是原始左信号或原始右信号而是已经通过将左和右相加以获得中间信号而获得的原始信号。

然后,在图9d的步骤1924中,通过在方框1030中执行重叠-相加操作来生成由帧边界1901、1902指示的帧,使得编码器具有时域信号,并且通过与窗口1903对应的块与前一块的先前样本之间的重叠-相加操作以及使用由方框1920获得的第二块的第一部分来执行这个帧。然后,由方框1924输出的这个帧被转发到核心编码器1040并且,此外,核心编码器附加地接收帧的经修正的先行部分并且,如步骤1926中所示,核心编码器然后可以使用由步骤1922获得的经修正的先行部分来确定核心编码器的特性。然后如步骤1928中所示,核心编码器使用在方框1926中确定的特性对帧进行核心编码,以最终获得与帧边界1901、1902对应的经核心编码的帧,其在优选实施例中具有20ms的长度。

优选地,延伸到先行部分1905中的窗口1904的重叠部分具有与先行部分相同的长度,但是它也可以比先行部分短,但是优选地不长于先行部分,使得立体声预处理器不会由于窗口重叠而引入任何附加的延迟。

然后,过程继续使用合成窗口对第二块的第二部分进行开窗,如方框1930中所示。因此,第二块的第二部分一方面通过方框1922修正,并且另一方面由合成窗口开窗,如方框1930中所示,因为然后需要这个该部分以用于通过重叠-相加第二块的经开窗的第二部分、经开窗的第三块和第四块的经开窗的第一部分而生成核心编码器的下一帧。如方框1932中所示。自然,第四块,特别是第四块的第二部分,将再次经受如关于图9d的项1922中的第二块所讨论的修正操作,然后,如前面所讨论的,再次重复该过程。此外,在步骤1934中,核心编码器将通过对第四块的第二部分进行修正来确定核心编码器特性,然后,将使用所确定的编码特性对下一帧进行编码,以便最终在方框1934中获得经核心编码的下一帧。因此,分析(对应合成)窗口的第二重叠部分与核心编码器先行部分1905的对准确保可以获得非常低延迟的实现,并且这个优点是由于以下事实:经开窗的先行部分一方面通过执行修正操作并且另一方面通过应用不等于合成窗口但施加较小影响的分析窗口来解决,使得与使用相同分析/合成窗口相比,确保修正函数更稳定。但是,在核心编码器被修改以操作其通常是确定经开窗的部分上的核心编码特性所必需的先行功能的情况下,不必执行修正功能。但是,已经发现,使用修正功能优于修改核心编码器。

此外,如前面所讨论的,要注意的是,在窗口(即,分析窗口1914)的结束与由图9b的起始帧边界1901和结束帧边界1902定义的帧的结束帧边界1902之间存在时间间隙。

特别地,相对于由图6的时间-频谱转换器1610应用的分析窗口在1920处示出时间间隙,并且这个时间间隙相对于第一输出声道1641和第二输出声道1642也是可见的120。

图9f示出在时间间隙的上下文中执行的步骤的过程,核心解码器1600对帧或直到时间间隙1920的至少帧的初始部分进行核心解码。然后,图6的时间-频谱转换器1610被配置为使用分析窗口1914将分析窗口应用于帧的初始部分,该分析窗口1914不延伸直到帧的结束(即,直到时刻1902),而是仅延伸到时间间隙1920的开始。

因此,核心解码器具有附加的时间,以便对时间间隙中的样本进行核心解码和/或对时间间隙中的样本进行后处理,如方框1940所示。因此,时间-频谱转换器1610已经输出第一块作为步骤1938的结果,在那里,核心解码器可以提供时间间隙中的剩余样本,或者可以在步骤1940对时间间隙中的样本进行后处理。

然后,在步骤1942中,时间-频谱转换器1610被配置为使用将在图9b中的窗口1914之后出现的下一个分析窗口对时间间隙中的样本与下一帧的样本一起开窗。然后,如步骤1944中所示,核心解码器1600被配置为解码下一帧或直到时间间隙1920的在下一帧中出现的至少下一帧的初始部分。然后,在步骤1946中,时间-频谱转换器1610被配置为对下一帧中的样本进行开窗,直到下一帧的时间间隙1920,并且在步骤1948中,核心解码器然后可以对下一帧的时间间隙中的剩余样本进行核心解码和/或后处理这些样本。

因此,当考虑图9b的实施例时,例如1.25ms的这种时间间隙可以被核心解码器后处理、通过带宽扩展、被例如在acelp的上下文中使用的时域带宽扩展或者被在acelp和mdct核心信号之间传输过渡的情况下的某种平滑利用。

因此,核心解码器1600再次被配置为根据第一成帧控制来操作,以提供帧序列,其中时间-频谱转换器1610或频谱-时间转换器1640被配置为根据与第一成帧控制同步的第二成帧控制进行操作,使得帧序列的每一帧的起始帧边界或结束帧边界与针对取样值的块的序列的每个块或针对频谱值的块的重新取样序列的每个块由时间-频谱转换器或频谱-时间转换器所使用的窗口的重叠部分的起始时刻或结束时刻呈预定关系。

此外,时间-频谱转换器1610被配置为使用分析窗口来对帧序列的帧进行开窗,该帧序列具有在结束帧边界1902之前结束的重叠范围,从而在重叠部分的结束与结束帧边界之间留下时间间隙1920。因此,核心解码器1600被配置为与使用分析窗口的帧的开窗并行地对时间间隙1920中的样本执行处理,或者其中与由时间-频谱转换器使用分析窗口的帧的开窗并行地执行时间间隙的进一步后处理。

此外,并且优选地,定位用于经核心解码的信号的后续块的分析窗口,使得窗口的中间非重叠部分位于如图9b的1920处所示的时间间隙内。

在提议4中,与提议1相比,整个系统延迟被扩大。在编码器处,额外延迟来自立体声模块。与提议1不同,完美重建的问题在提议4中不再相关。

在解码器处,核心解码器与第一dft分析之间的可获得延迟为2.5ms,这允许执行常规的重新取样、组合和在不同的核心合成和扩展带宽信号之间的平滑,就像在标准evs中进行的那样。

编码器示意性成帧在图10a中示出,而解码器在图10b中描绘。窗口在图10c中给出。

在提议5中,dft的时间分辨率降低到5ms。核心编码器的先行和重叠区域没有开窗,这是与提议4的共同优势。另一方面,编码器解码与立体声分析之间的可获得延迟小,并且需要提议1中提出的解决方案(图7)。这个提议的主要缺点是时间-频率分解的低频率分辨率和减少到5ms的小的重叠区域,这防止了频域中的大的时移。

编码器示意性成帧在图11a中示出,而解码器在图11b中描绘。窗口在图11c中给出。

鉴于上述情况,优选实施例关于编码器侧涉及多速率时间-频率合成,其以不同的取样率向后续处理模块提供至少一个经立体声处理的信号。该模块包括例如像acelp的语音编码器、预处理工具、基于mdct的音频编码器(诸如tcx)或带宽扩展编码器(诸如时域带宽扩展编码器)。

关于解码器,执行关于解码器合成的不同贡献在立体声频域中重新取样的组合。这些合成信号可以来自如acelp解码器的语音解码器、基于mdct的解码器、带宽扩展模块,或来自如低音后置滤波器的后处理的间谐波误差信号。

此外,关于编码器和解码器,应用用于dft的窗口或用零填补、低重叠区域和跳距(hopsize)变换的复数值是有用的,其中跳距与不同取样率(诸如12.9khz、16khz、25.6khz、32khz或48khz)下的整数个样本对应。

实施例能够以低延迟实现立体声音频的低比特率编码。它被专门设计用于高效地组合低延迟切换式音频编码方案(如evs)与立体声编码模块的滤波器组。

实施例可以发现在诸如例如利用数字无线电、互联网串流和音频通信应用分发或广播所有类型的立体声或多声道音频内容(在给定的低比特率下具有恒定感知质量的语音和类音乐)中的用途。

图12图示用于编码具有至少两个声道的多声道信号的装置。多声道信号10一方面被输入参数确定器100,另一方面被输入信号对准器200。参数确定器100一方面确定宽带对准参数,另一方面从多声道信号确定多个窄带对准参数。这些参数经由参数线12输出。此外,这些参数还经由另一条参数线14输出到输出接口500,如图所示。在参数线14上,诸如声级参数之类的附加参数从参数确定器100转发到输出接口500。信号对准器200被配置为用于使用经由参数线10接收的宽带对准参数和多个窄带对准参数来对准多声道信号10的至少两个声道,以在信号对准器200的输出端获得已对准的声道20。这些已对准的声道20被转发到信号处理器300,信号处理器300被配置为用于从经由线20接收的已对准的声道来计算中间信号31和侧边信号32。用于编码的装置还包括信号编码器400,用于编码来自线31的中间信号和来自线32的侧边信号,以获得线41上的经编码的中间信号和线42上的经编码的侧边信号。这两个信号都被转发到输出接口500以用于在输出线50处生成经编码的多声道信号。输出线50处的经编码的信号包括来自线41的经编码的中间信号、来自线42的经编码的侧边信号、来自线14的窄带对准参数和宽带对准参数,以及可选的来自线14的声级参数,以及还可选的由信号编码器400生成并经由参数线43转发到输出接口500的立体声填充参数。

优选地,信号对准器被配置为在参数确定器100实际计算窄带参数之前使用宽带对准参数对准来自多声道信号的声道。因此,在这个实施例中,信号对准器200经由连接线15将已宽带对准的声道发送回参数确定器100。然后,参数确定器100从相对于宽带特性已经对准的多声道信号确定多个窄带对准参数。但是,在其它实施例中,无需这个具体过程序列而确定参数。

图14a图示优选实现,其中执行引起连接线15的具体步骤序列。在步骤16中,使用两个声道确定宽带对准参数,并且获得诸如声道间时间差或itd参数之类的宽带对准参数。然后,在步骤21中,使用宽带对准参数通过图12的信号对准器200对准两个声道。然后,在步骤17中,在参数确定器100内使用已对准的声道确定窄带参数,以确定多个窄带对准参数,诸如用于多声道信号的不同频带的多个声道间相位差参数。然后,在步骤22中,使用针对这个具体频带的对应窄带对准参数来对准每个参数频带中的频谱值。当针对每个频带执行步骤22中的这个过程时,对于该频带可获得窄带对准参数,那么已对准的第一和第二或左/右声道可获得以用于由图12的信号处理器300进行的进一步信号处理。

图14b图示图12的多声道编码器的另一个实现,其中在频域中执行若干过程。

具体而言,多声道编码器还包括时间-频谱转换器150,其用于将时域多声道信号转换成频域内的至少两个声道的频谱表示。

此外,如152处所示,图12中的100、200和300处所示的参数确定器、信号对准器和信号处理器全都在频域中操作。

此外,多声道编码器并且具体而言是信号处理器还包括频谱-时间转换器154,其用于至少生成中间信号的时域表示。

优选地,频谱时间转换器附加地将也通过方框152表示的过程确定的侧边信号的频谱表示转换成时域表示,然后图12的信号编码器400被配置为进一步编码中间信号和/或侧边信号作为时域信号,这取决于图12的信号编码器400的具体实现。

优选地,图14b的时间-频谱转换器150被配置为实现图4c的步骤155、156和157。具体而言,步骤155包括提供分析窗口,在其一端具有至少一个零填补部分,并且具体而言在初始窗口部分处的零填补部分和在终止窗口部分处的零填补部分,例如,如图7稍后所示。此外,分析窗口还附加地具有在窗口的第一半部分和窗口的第二半部分处的重叠范围或重叠部分,并且附加地优选地中间部分是非重叠范围,视情况而定。

在步骤156中,使用具有重叠范围的分析窗口对每个声道进行开窗。具体而言,以获得声道的第一块的方式使用分析窗口对每个声道进行开窗。随后,获得与第一块具有一定重叠范围的相同声道的第二块,依此类推,使得在例如五个开窗操作之后,可获得每个声道的经开窗的样本的五个块,然后如图14c中的157所示,这些块被单独地变换成频谱表示。对于另一个声道也执行相同的过程,使得在步骤157结束时,可获得频谱值并且具体而言是复数频谱值(诸如dft频谱值或复数子带样本)的块的序列。

在由图12的参数确定器100执行的步骤158中,确定宽带对准参数,并且在由图12的信号对准200执行的步骤159中,使用宽带对准参数执行循环移位。在再次由图12的参数确定器100执行的步骤160中,针对各个频带/子频带确定窄带对准参数,并且在步骤161中,使用针对特定频带确定的对应窄带对准参数针对每个频带旋转已对准的频谱值。

图14d图示由信号处理器300执行的进一步的过程。具体而言,信号处理器300被配置为计算中间信号和侧边信号,如步骤301所示。在步骤302中,可以执行侧边信号的某种进一步处理,然后,在步骤303中,将中间信号和侧边信号的每个块变换回时域,并且在步骤304中,合成窗口被应用于通过步骤303获得的每个块,并且在步骤305中,一方面对中间信号进行重叠相加操作,另一方面对侧边信号进行重叠相加操作,以最终获得时域中间/侧边信号。

具体而言,步骤304和305的操作在中间信号或侧边信号的下一个块中导致来自中间信号或侧边信号的一个块的一种交叉衰落,并且执行侧边信号,使得即使当任何参数(诸如声道间时间差参数或声道间相位差参数)改变发生时,这也将在图14d中由步骤305获得的时域中间/侧边信号中不可听。

图13图示用于对在输入线50处接收的经编码的多声道信号进行解码的装置的实施例的框图。

特别地,信号由输入接口600接收。连接到输入接口600的是信号解码器700和信号去对准器900。此外,信号处理器800一方面连接到信号解码器700,另一方面连接到信号去对准器。

特别地,经编码的多声道信号包括经编码的中间信号、经编码的侧边信号、关于宽带对准参数的信息和关于多个窄带参数的信息。因此,线50上的经编码的多声道信号可以是与由图12的500的输出接口输出的信号完全相同的信号。

但是,重要的是,在这里要注意,与图12中所示的相反,以一定形式包括在经编码的信号中的宽带对准参数和多个窄带对准参数可以恰好是由图12中的信号对准器200使用的对准参数,但也可以是其逆值,即,可以被信号对准器200执行的完全相同的操作使用但具有逆值以使得实现去对准的参数。

因此,关于对准参数的信息可以是由图12中的信号对准器200使用的对准参数,或者可以是逆值(即,实际的“去对准参数”)。此外,这些参数通常将以某种形式被量化,这将在后面关于图8讨论。

图13的输入接口600从经编码的中间/侧边信号中分离出关于宽带对准参数和多个窄带对准参数的信息,并且经由参数线610将这种信息转发到信号去对准器900。另一方面,经编码的中间信号经由线601被转发到信号解码器700,并且经编码的侧边信号经由信号线602被转发到信号解码器700。

信号解码器被配置为用于解码经编码的中间信号并用于解码经编码的侧边信号,以获得线701上的经解码的中间信号和线702上的经解码的侧边信号。信号处理器800使用这些信号来从经解码的中间信号和经解码的侧边信号计算经解码的第一声道信号或经解码的左信号以及经解码的第二声道或经解码的右声道信号,并且分别在线801、802上输出经解码的第一声道和经解码的第二声道。信号去对准器900被配置为用于使用关于宽带对准参数的信息并且附加地使用关于多个窄带对准参数的信息来去对准线801上的经解码的第一声道和经解码的右声道802,以获得经解码的多声道信号(即,在线901和902上具有至少两个经解码且去对准的声道的解码信号)。

图9a图示由图13的信号去对准器900执行的优选步骤序列。具体而言,步骤910接收在图13的线801、802上可获得的已对准的左和右声道。在步骤910中,信号去对准器900使用关于窄带对准参数的信息使各个子频带去对准,以便在911a和911b获得相位去对准的经解码的第一和第二或左和右声道。在步骤912中,使用宽带对准参数对声道进行去对准,使得在913a和913b处获得相位和时间去对准的声道。

在步骤914中,执行任何进一步的处理,包括使用开窗或任何重叠-相加操作,或者一般而言任何交叉衰落操作,以便在915a或915b处获得伪声减少或无伪声的解码信号,即,不具有任何伪声的解码声道,尽管通常存在一方面用于宽带另一方面用于多个窄带的时间变化的去对准参数。

图15b图示图13中所示的多声道解码器的优选实现。

特别地,图13的信号处理器800包括时间-频谱转换器810。

信号处理器还包括中间/侧边到左/右转换器820,以便根据中间信号m和侧边信号s计算左信号l和右信号r。

但是,重要的是,为了在方框820中通过中间/侧边-左/右转换来计算l和r,不必使用侧边信号s。相反,如稍后所讨论的,最初仅使用从声道间声级差参数ild导出的增益参数来计算左/右信号。因此,在这个实现中,侧边信号s仅在声道更新器830中使用,声道更新器830操作,以使用所发送的侧边信号s提供更好的左/右信号,如旁路线821所示。

因此,转换器820使用通过声级参数输入822获得的声级参数操作并且实际上不使用侧边信号s,但是声道更新器830然后使用侧边821操作,并且取决于具体实现,使用经由线831接收的立体声填充参数。信号对准器900然后包括相位去对准器和能量缩放器910。能量缩放由缩放因子计算器940导出的缩放因子控制。缩放因子计算器940由声道更新器830的输出馈送。基于经由输入911接收的窄带对准参数,执行相位去对准,并且在方框920中,基于经由线921接收的宽带对准参数执行时间去对准。最后,执行频谱-时间转换930,以便最终获得经解码的信号。

图15c图示在优选实施例中通常在图15b的方框920和930内执行的另一个步骤序列。

具体而言,窄带去对准声道被输入到与图15b的方框920对应的宽带去对准功能。在方框931中执行dft或任何其它变换。在实际计算时域样本之后,执行使用合成窗口的可选合成开窗。合成窗口优选地与分析窗口完全相同或者从分析窗口导出,例如内插或抽取,但是以某种方式取决于分析窗口。这种相依性优选地使得由两个重叠窗口定义的乘法因子对于重叠范围中的每个点加起来为一。因此,在方框932中的合成窗口之后,执行重叠操作和随后的相加操作。可替代地,代替合成开窗和重叠/相加操作,执行每个声道的后续块之间的任何交叉衰落,以便如已在图15a的上下文中所讨论的那样获得伪声减少的经解码的信号。

当考虑图6b时,变得清楚的是,对于中间信号的实际解码操作,即一方面是“evs解码器”,以及对于侧边信号,逆向量量化vq-1和逆mdct操作(imdct)与图13的信号解码器700对应。

此外,方框810中的dft操作与图15b中的元件810对应,并且逆立体声处理和逆时移的功能与图13的方框800、900对应,并且图6b中的逆dft操作930与图15b中的方框930中的对应操作对应。

随后,更详细地讨论图3d。特别地,图3d图示具有各个频谱线的dft频谱。优选地,图3d中所示的dft频谱或任何其它频谱是复数频谱,并且每条线是具有量值和相位或具有实部和虚部的复数频谱线。

此外,频谱也被分成不同的参数频带。每个参数频带具有至少一条并且优选地多于一条频谱线。此外,参数频带从较低频率增加到较高频率。通常,宽带对准参数是整个频谱(即,对于包括图3d中的示例性实施例中的所有频带1至6的频谱)的单个宽带对准参数。

此外,提供多个窄带对准参数,使得对于每个参数频带存在单个对准参数。这意味着频带的对准参数始终适用于对应频带内的所有频谱值。

此外,除了窄带对准参数之外,还为每个参数频带提供声级参数。

与为从频带1到频带6的每个参数频带提供的声级参数相比,优选的是仅为有限数量的较低频带(诸如频带1、2、3和4)提供多个窄带对准参数。

此外,为除较低频带之外的一定数量的频带(诸如在示例性实施例中为频带4、5和6)提供立体声填充参数,同时对于较低参数频带1、2和3存在侧边信号频谱值,因此,对于这些较低频带不存在立体声填充参数,其中使用侧边信号本身或者表示侧边信号的预测残差信号获得波形匹配。

如上所述,在较高频带中存在更多的频谱线,例如,在图3d的实施例中,参数频带6中的七条频谱线对参数频带2中的仅三条频谱线。但是,自然地,参数频带的数量、频谱线的数量和参数频带内的频谱线数量以及某些参数的不同限值将是不同的。

不过,图8图示在某个实施例中参数的分布以及为其提供参数的频带的数量,在该实施例中与图3d相比,实际上有12个频带。

如图所示,为12个频带中的每一个提供声级参数ild,并将其量化至由每频带5个比特表示的量化精度。

此外,窄带对准参数ipd仅被提供给直到2.5khz的边界频率的较低频带。另外,声道间时间差或宽带对准参数仅提供作为整个频谱的单个参数,但具有整个频带由8比特表示的非常高的量化精度。

此外,提供非常粗略量化的立体声填充参数,由每频带三比特表示,并且不用于低于1khz的较低频带,因为对于较低频带,包括经实际编码的侧边信号或侧边信号残差频谱值。

随后,总结编码器侧的优选处理。在第一步骤中,执行左和右声道的dft分析。这个过程与图14c的步骤155至157对应。计算宽带对准参数,特别是优选的宽带对准参数声道间时间差(itd)。执行频域中的l和r的时移。可替代地,也可以在时域中执行这个时移。然后执行逆dft,在时域中执行时移,并且执行附加的前向dft,以便在使用宽带对准参数进行对准之后再次具有频谱表示。

针对移位后的l和r表示上的每个参数频带计算ild参数,即,声级参数和相位参数(ipd参数)。例如,这个步骤与图14c的步骤160对应。经时移的l和r表示作为声道间相位差参数的函数被旋转,如图14c的步骤161所示。随后,如步骤301所示计算中间和侧边信号,并且优选地,附加地有如稍后讨论的能量会话操作。此外,执行s的预测,利用作为ild的函数的m并且可选地利用过去的m信号,即,较早帧的中间信号。随后,执行中间信号和侧边信号的逆dft,其与优选实施例中图14d的步骤303、304、305对应。

在最后的步骤中,对时域中间信号m和可选地残差信号进行编码。这个过程与图12中的信号编码器400所执行的过程对应。

在逆立体声处理中,在解码器处,在dft域中生成侧边(side)信号,并且首先从中间(mid)信号预测,如下:

其中g是为每个参数频带计算的增益,并且是发送的声道间声级差(ild)的函数。

然后可以通过两种不同的方式精炼预测残差side-g·mid:

-通过残差信号的次编码:

其中gcod是针对整个频谱传输的全局增益

-通过称为立体声填充的残差预测,利用来自先前dft帧的先前经解码的mid信号频谱预测残差侧边频谱:

其中gpred是针对每个参数频带传输的预测增益。

两种类型的编码精炼可以在相同的dft频谱内混合。在优选实施例中,残差编码应用于较低参数频带,而残差预测应用于剩余频带。在优选实施例中,如图12中所描绘的,在时域中合成残差侧边信号并通过mdct对其进行变换之后在mdct域中执行残差编码。与dft不同,mdct是关键取样的,并且更适合音频编码。mdct系数通过格型向量量化被直接向量量化,但也可以可替代地被由熵编码器跟随的标量量化器编码。可替代地,残差侧边信号也可以通过语音编码技术在时域中编码,或者直接在dft域中编码。

随后描述联合立体声/多声道编码器处理或逆立体声/多声道处理的另一个实施例。

1.时频分析:dft

重要的是,来自由dft进行的立体声处理的额外时间-频率分解允许良好的听觉场景分析,而不会显著增加编码系统的整体延迟。在缺省情况下,使用10ms的时间分辨率(核心编码器的20ms成帧的两倍)。分析和合成窗口是相同的并且是对称的。该窗口在图7中以16khz的取样率表示。可以观察到,重叠区域被限制用于减少产生的延迟,并且当在频域中应用itd时,还添加零填补以平衡循环移位。这将在下文中解释。

2.立体声参数

最大可以以立体声dft的时间分辨率传输立体声参数。最小可以将其降低到核心编码器的成帧分辨率,即,20ms。在缺省情况下,当未检测到瞬变时,在2个dft窗口上每20ms计算参数。参数频带构成遵循大约为等效矩形带宽(erb)的2倍或4倍的频谱的非均匀和非重叠分解。在缺省情况下,4倍erb标度被用于频率带宽为16khz(32kbps取样率,超宽带立体声)的总共12个频带。图8概括配置的示例,其中立体声边信息以大约5kbps传输。

3.itd和声道时间对准的计算

通过使用相位变换广义互相关(gcc-phat)估计到达时间延迟(tdoa)来计算itd:

其中l和r分别是左和右声道的频谱。频率分析可以独立于用于后续立体声处理的dft执行,或者可以共享。用于计算itd的伪代码如下:

l=fft(window(l));

r=fft(window(r));

tmp=l.*conj(r);

sfm_l=prod(abs(l).^(1/length(l)))/(mean(abs(l))+eps);

sfm_r=prod(abs(r).^(1/length(r)))/(mean(abs(r))+eps);

sfm=max(sfm_l,sfm_r);

h.cross_corr_smooth=(1-sfrn)*h.cross_corr_smoofh+sfm*tmp;

tmp=h.cross_corr_smooth./abs(h.cross_corr_smooth+eps);

tmp=ifft(tmp);

tmp=tmp([length(tmp)/2+1:length(tmp)1:length(tmp)/2+1]);

tmp_sort=sort(abs(tmp));

thresh=3*tmp_sort(round(0.95*length(tmp_sort)))

xcorr_time=abs(tmp(-(h.stereo_itd_q_max-(length(tmp)-1)/2-1):-(

h.stereo_itd_q_min-(length(tmp)-1)/2-1)));

%smoothoutputforbetterdetection

xcorr_time=[xcorr_time0];

xcorr_time2=filter([0.250.50.25],1,xcorr_time);

[m,i]=max(xcorr_time2(2:end));

ifm>thresh

itd=h.stereo_itd_q_max-i+1;

else

itd=0;

end

itd计算也可以总结如下。取决于频谱平坦度测量,在平滑之前在频域中计算互相关。sfm在0和1之间界定。在类噪声的信号的情况下,sfm将为高(即,大约1)并且平滑将是弱的。在类音调的信号的情况下,sfm将为低并且平滑将变得更强。然后,平滑后的互相关在被变换回时域之前通过其振幅被归一化。归一化与互相关的相位变换对应,并且已知在低噪声和相对高的混响环境中表现出比正常互相关更好的性能。首先对如此获得的时域函数进行滤波,以实现更健壮的峰值峰化(peaking)。对应于最大振幅的索引与左和右声道(itd)之间的时间差的估计对应。如果最大值的振幅低于给定阈值,那么itd的估计不被认为是可靠的并且被设置为零。

如果在时域中应用时间对准,那么在分离的dft分析中计算itd。移位如下进行:

它需要编码器处的额外延迟,其至多等于可以处理的最大绝对itd。通过dft的分析窗口来平滑itd随时间的变化。

可替代地,可以在频域中执行时间对准。在这种情况下,itd计算和循环移位处于相同的dft域中,与这另一个立体声处理共享的域。该循环移位由下式给出:

需要零填补dft窗口以循环移位模拟时移。零填补的大小与可以处理的最大绝对itd对应。在优选实施例中,通过在两端都添加3.125ms的零,零填补均匀地分裂在分析窗口的两侧。于是itd最大可能绝对值是6.25ms。在a-b麦克风设置中,它与两个麦克风之间的最大距离约为2.15米的最坏情况对应。itd随时间的变化通过合成开窗和dft的重叠-相加来平滑。

重要的是时移之后是已移位信号的开窗。它是与现有技术双耳线索编码(bcc)的主要区别,其中时移被应用于开窗信号,但在合成阶段不进一步开窗。因此,itd随时间的任何变化都会在解码信号中产生伪声瞬态/卡嚓声。

4.ipd的计算和声道旋转

在时间对准两个声道之后计算ipd,并且取决于立体声配置,这用于每个参数频带或至少上至给定的ipd_max_band。

ipd然后应用于两个声道,用于对准其相位:

其中β=atan2(sin(ipdi[b])、cos(ipdi[b])+c)、并且b是频率索引k属于的参数频带索引。参数β负责在两个声道之间分布相位旋转量,同时使它们的相位对准。β取决于ipd,但也取决于声道的相对振幅声级ild。如果声道具有较高的振幅,那么它将被视为引导声道,并且相位旋转对其的影响将小于具有较低振幅的声道。

5.和-差和侧边信号编码

以能量保存在中间信号中的方式对两个声道的经时间和相位对准的频谱执行和差变换。

其中在1/1.2和1.2(即,-1.58和+1.58db)之间被界定。当调整m和s的能量时,这个限制避免了伪声。值得注意的是,当预先对准时间和相位时,这种能量守恒不太重要。可替代地,可以增加或减小边界。

侧边信号s进一步用m预测:

s′(f)=s(f)-g(ild)m(f)

其中其中可替代地,可以通过最小化残差和由前一方程式推出的ild的均方差(mse)来找到最佳预测增益g。

残差信号s′(f)可以通过两种方式建模:通过用m的延迟频谱预测它或者通过在mdct域中直接编码它。

6.立体声解码

中间信号x和侧边信号s首先如下被转换成左和右声道l和r:

li[k]=mi[k]+gmi[k],对于band_limits[b]≤k<band_limits[b+1],

ri[k]=mi[k]-gmi[k],对于band_limits[b]≤k<band_limits[b+1],

其中每个参数频带的增益g是从ild参数得出的:

其中

对于低于cod_max_band的参数频带,使用经解码的侧边信号更新两个声道:

li[k]=li[k]+cod_gaini·si[k],对于0≤k<band_limits[cod_max_band],

ri[k]=ri[k]-cod_gaini·si[k],对于0≤k<band_limits[cod_max_band],

对于较高的参数频带,预测侧边信号并将声道更新为:

li[k]=li[k]+cod_predi[b]·mi-1[k],对于band_limits[b]≤k<band_limits[b+1],

ri[k]=ri[k]-cod_predi[b]·mi-1[k],对于band_limits[b]≤k<band_limits[b+1],

最后,声道乘以复数值,旨在恢复立体声信号的原始能量和声道间相位:

其中

其中a如前面所定义的那样定义和界定,并且其中β=atan2(sin(ipdi[b])、cos(ipdi[b])+c),并且其中atan2(x,y)是x对y的四象限反正切。

最后,取决于所传输的itd,声道在时域或者频域中时移。时域声道通过逆dft和重叠-相加来合成。

本发明的经编码的音频信号可以存储在数字存储介质或非暂时性存储介质上,或者可以在诸如无线传输介质或有线传输介质(互联网)的传输介质上传输。

虽然已经在装置的上下文中描述了一些方面,但是显然这些方面也表示对应方法的描述,其中方框或设备与方法步骤或方法步骤的特征对应。类似地,在方法步骤的上下文中描述的方面也表示对应装置的对应方框或项或特征的描述。

取决于某些实现要求,本发明的实施例可以用硬件或软件实现。实现可以使用其上存储有电子可读控制信号的数字存储介质来执行,例如软盘、dvd、cd、rom、prom、eprom、eeprom或flash存储器,电子可读控制信号与可编程计算机系统协作(或者能够与其协作),使得执行相应的方法。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体,电子可读控制信号能够与可编程计算机系统协作,使得执行本文所述的方法之一。

一般而言,本发明的实施例可以被实现为具有程序代码的计算机程序产品,在计算机程序产品在计算机上运行时,该程序代码可操作用于执行这些方法之一。程序代码可以例如存储在机器可读载体上。

其它实施例包括用于执行本文所述方法之一的计算机程序,其存储在机器可读载体或非瞬态存储介质上。

换句话说,本发明方法的实施例因此是具有程序代码的计算机程序,当计算机程序在计算机上运行时,该程序代码用于执行本文所述的方法之一。

因此,本发明方法的另一个实施例是数据载体(或数字存储介质,或计算机可读介质),其包括记录在其上的用于执行本文所述方法之一的计算机程序。

因此,本发明方法的另一个实施例是表示用于执行本文所述方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接被传送,例如经由互联网。

另一个实施例包括处理装置,例如计算机或可编程逻辑设备,其被配置为或适于执行本文所述的方法之一。

另一个实施例包括计算机,其上安装有用于执行本文所述方法之一的计算机程序。

在一些实施例中,可编程逻辑设备(例如现场可编程门阵列)可以用于执行本文所述方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作,以便执行本文描述的方法之一。一般而言,方法优选地由任何硬件装置执行。

上述实施例仅用于说明本发明的原理。要理解的是,本文描述的布置和细节的修改和变化对于本领域技术人员而言将是显而易见的。因此,其意图仅受到随后专利权利要求的范围限制,而不受通过本文实施例的描述和解释给出的具体细节的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1