多声道音频信号的双耳演示的制作方法

文档序号：7736750阅读：243来源：国知局

专利名称：多声道音频信号的双耳演示的制作方法
技术领域：
本申请涉及多声道音频信号的双耳演示(rendering)。
背景技术：
已经提出许多音频编码算法，以有效地编码或压缩一个声道的音频数据，即单音频信号。使用心理声学，适当地调节音频样本、将其量化或甚至设为零，以将不相关性从例如PCM编码音频信号中移除。也执行冗余的移除。
更进一步地，已经使用在立体声音频信号的左声道与右声道之间的类似性，以有效地编码/压缩立体声音频信号。
然而，即将的应用引起对音频编码算法的进一步需求。例如，在电话会议、计算机游戏、音乐性能等中，必须并行地发送部分地或甚至完全不相关联的多个音频信号。为了保持用以对这些音频信号进行编码所需要的位率足够低，以与低位率的发送应用兼容，近来已提出将多个输入音频信号降混为降混信号(诸如一立体声或甚至单降混信号)的音频编译码器。例如，MPEG环绕标准以该标准所指示的方式将输入声道降混为降混信号。通过使用所谓的OIT1及TIT1方块的来执行该降混，OTr1及ΤΤΓ1方块分别用以将二个信号降混为一个信号且将三个信号降混为二个信号。为了降混多于三个的信号，使用这些方块的分层结构。除了输出单降混信号，每一 OIT1方块输出在二个输入声道之间的声道位准差、及表示在二个输入声道之间的相干性或互相关性的声道内相干性参数/互相关性参数。参数与MPEG环绕数据流中的MPEG环绕编码器的降混信号一起输出。类似地，每一 ΤΤΓ1方块发送能够从产生的立体声降混信号中恢复三个输入声道的声道预测系数。声道预测系数也作为MPEG环绕数据流中的侧信息被发送。该MPEG环绕译码器通过使用发送的侧信息升混该降混信号，且恢复输入至该MPEG环绕编码器中的原始声道。
然而，不幸的是，MPEG环绕不能满足许多应用的所有需要。例如，该MPEG环绕译码器专用于升混该MPEG环绕编码器的降混信号，使得MPEG环绕编码器的输入声道恢复成原先的样子。换句话说，该MPEG环绕数据流专用于通过使用已用以编码的扬声器配置或由例如立体声的典型配置来播放。
然而，根据一些应用，如果扬声器的配置可在译码器端自由地改变，将是有利的。
为了处理后者的需要，当前设计了空间音频目标编码(SAOC)标准。每一声道作为单个的目标来对待，且将所有的目标降混为降混信号。也就是说，将目标作为彼此独立而不依附于任何特定的扬声器配置，但能够任意地将(虚拟的)扬声器定位于译码器端的音频信号来处理。单个的目标可包含单个的声源，例如乐器或声道。不同于MPEG环绕译码器， SAOC译码器可自由地单个地升混该降混信号，以在任何扬声器配置上回放单个的目标。为了使SAOC译码器能够恢复已编码于SAOC数据流中的单个目标，目标位准差和对于一起形成立体声(或多声道)信号的目标的目标内互相关参数作为SAOC比特流中的侧信息被发送。除此之外，SAOC译码器/转码器提供具有揭示如何将单个目标降混为降混信号的信息。因而，在译码器端，可能通过使用用户控制的演示信息来恢复单个SAOC声道，且在任何扬声器配置上演示该信号。
然而，虽然上述的编译码器(即MPEG环绕及SA0C)能够在具有多于二个扬声器的扬声器配置上发送及演示多声道音频内容，但是以耳机作为音频再生系统的需求日益增加，使得这些编译码器也必须能够在耳机上演示音频内容。对比于扬声器的回放，在头部里感知在耳机中再现的立体声音频内容。在某些物理位置处，不存在从声源至耳膜的声学路径的影响，致使由于确定声音源的所感知的方位、高度及距离的线索实质上缺失了或极其不准确，而使得空间图像听起来不自然。因而，为了解决在耳机上由于不准确或缺少声源定位线索所导致的不自然的声音阶段，已经提出各种技术来模拟虚拟的扬声器装备。思想是将声源定位的线索添加至每一扬声器信号上。如果空间声学特性包括在这些测量数据中，那么通过使用所谓的头部相关转换函数(HRTF)或双耳空间脉冲响应(BRIR)来过滤音频信号而实现该添加。然而，由上述的函数来过滤每一扬声器信号将使得需要在译码器/再生端具有显著较高量的运算能力。特别的是，必须首先执行在“虚拟”扬声器位置上演示多声道音频信号，其中，接着通过各自的转换函数或脉冲响应来过滤所获得的每一扬声器信号，以获得双耳输出信号的左声道及右声道。更糟糕的是由于为了实现虚拟扬声器信号，相当大量的合成去相关信号将必须混合至这些升混信号中，以补偿在原始不相关音频输入信号之间的相关性(该相关性由将多个音频输入信号降混为降混信号而产生)，所获得的双耳输出信号从而将具有差的音频质量。
在目前的SAOC编译码器版本中，侧信息内的SAOC参数允许使用原则上包括耳机的任何播放装备，来进行音频目标的用户交互空间演示。对耳机的双耳演示允许使用头部相关转换函数(HRTF)参数来在3D空间中对虚拟的目标位置进行空间控制。例如，可通过将这种情况限制为单降混的SAOC情况(其中将输入信号均等地混合至单声道中)，而实现在 SAOC中的双耳演示。不幸的是，单降混使得所有音频信号必须混合为共同的单降混信号，使得最大程度地失去在原始音频信号之间的原始相关性特性，因而双耳演示输出信号的演示质量不是最佳的。
因而，本发明的目的是提供用以双耳演示多声道音频信号的方案，使得双耳演示的结果获得改良，同时避免对由原始音频信号组成降混信号的自由度的限制。
此目的由根据权利要求1所述的装置及根据权利要求10所述的方法来实现。

发明内容
本发明的基本思想之一是，与从单降混音频信号开始双耳演示多声道音频信号相比，从立体声降混信号开始双耳演示多声道音频信号更加有利，原因是由于极少的目标存在于立体声降混信号中的事实，在单个音频信号之间的去相关量被更佳地保存；且因为在编码器端在立体声降混信号的二个声道之间选择的可能性，使不同降混声道中的音频信号之间的相关性特性能够被部分地保存。换句话说，由于编码器的降混，目标内相干性被退化，这在译码端必须考虑，其中在译码端双耳输出信号的声道内相干性对于虚拟声源宽度的感知是重要的测量，而使用立体声降混代替单降混降低了退化量，使得通过双耳演示立体声降混信号来恢复/生成适当量的声道内相干性，能实现更佳的质量。
本申请案的另一主要思想是，前述ICCdCC =声道内相干性)控制可通过去相关信号来实现，该去相关信号形成对立体声降混信号之降混声道的单降混的感知等效物，然而是与该单降混去相关。因而，立体声降混信号代替单降混信号的使用保存了多个音频信号的一些相关性特性，而这些特性在使用单降混信号时会失去，双耳演示可基于表示第一及第二降混声道二者的去相关信号，从而与单独地去相关每个立体声降混声道相比，减少了去相关或合成信号处理量。

参照附图，更详细地描述本申请的优选实施例，其中图1示出可实施本发明实施例的SOAC编码器/译码器安排的方块图；图2示出单音频信号的频谱表示的示意及说明图；图3示出根据本发明实施例的能够双耳演示的音频译码器的方块图；图4示出根据本发明实施例的第3图的降混预处理方块的方块图；图5示出根据第一替代方式，由第3图的SAOC参数处理单元42所执行的步骤的流程图；以及图6示出说明收听测试结果的图形。
具体实施例方式在以下更详细地描述本发明之实施例前，先说明SAOC编译码器及SAOC比特流中所发送的SAOC参数，以使能够更容易理解下面所更详细描述的特定实施例。
图1示出SAOC编码器10及SAOC译码器12的大致安排。该SAOC编码器10接收作为输入的N个目标，即音频信号H1至14n。特别的是，编码器10包含降混器16，该降混器16接收降混信号H1至14N且将它们降混为降混信号18。在第1图中，该降混信号示例地示出为立体声降混信号。然而，该编码器10及译码器12也可能以单模式来操作，在这种情况下，该降混信号将是单降混信号。然而，下面的描述专注于立体声降混的情况。立体声降混信号18的声道被表示为LO及R0。
为了使SAOC译码器12能够恢复单个目标H1至14N，降混器16向SAOC译码器12 提供包括SAOC参数的侧信息，SAOC参数包括目标位准差(OLD)、目标内互相关参数(IOC)、降混增益值(DMG)及降混声道位准差(DCLD)。包括SAOC参数的侧信息20与该降混信号 18 一起形成由SAOC译码器12所接收的SAOC输出数据流21。
该SAOC译码器12包含接收降混信号18及侧信息20的升混器22，以通过输入至 SAOC译码器12的演示信息沈及HRTF参数27所指示的演示，来在任何使用者所选定的声道组21至24m，上恢复及演示音频信号H1及14N，其意思在下面予以更详细地描述。下面的描述专注于双耳演示，其中M’ = 2，且输出信号特别地专用于耳机的再现，尽管译码12也能够根据使用者输入26中的指令而在其它(非双耳)扬声器配置上演示。
音频信号H1至1、可以任何编码域(例如以时域或频谱域)输入至降混器16中。在实例中，音频信号H1至14n以时域(诸如PCM编码)输入至降混器16中，降混器16使用诸如混合QMF组的滤波器组(例如具有对于最低频带尼奎斯特滤波器扩展以增加其频率分辨率的一组复指数调变滤波器)，以将信号转换至频谱域中，其中音频信号在特定的滤波器组分辨率下，表示在与不同频谱部分相关联的多个子带中。如果音频信号H1至14n已在降混器16所期望的表示中，那么同样地不必执行频谱分解。
图2示出在上述的频谱域中的音频信号。如所见的，音频信号表示为多个子带信号。每一子带信号301至30[)由一序列的子带值组成，该序列子带值由小方框32指出。如所见的，子带信号SO1至30P的子带值32在时间上互相同步，使得对于每一个连续滤波器组的时隙34，每一子带SO1至30P恰好包含一个子带值32。如频率轴35所说明，子带信号SO1 至30P与不同的频率区域相关联，且如时间轴37所说明，滤波器组的时隙34在时间中连续布置。
如上所述，降混器16运算来自输入音频信号H1至14n的SAOC参数。降混器16以时间/频率分辨率来执行此运算，该时间/频率分辨率可相对于由滤波器组的时隙34及子带分解所确定的原始的时间/频率分辨率而降低特定量，其中该特定量可通过各自的语法元素bsFrameLength及bsFreqRes，在侧信息20中被通过信号发送至译码器侧。例如，连续滤波器组的时隙34的群组可分别形成帧36。换句话说，音频信号可分割为例如在时间中交迭或在时间中相邻的帧。在这种情况下，bsFrameLength可定义每个帧的时隙38参数的数目，即供诸如OLD及IOC之SAOC参数在SAOC帧36中被运算的时间单元，且bsFreqRes可定义SAOC参数被运算的处理频带的数目，即频域被细分割且SAOC参数被确定及发送的频带的数目。通过此方式，每一帧分割为在图2中由虚线所示例表示的时间/频率瓦片39。
该降混器16根据下面的公式计算SAOC参数。特别的是，降混器16对每一目标i 运算目标位准差，为
权利要求
1.一种用于将多声道音频信号双耳演示为双耳输出信号04)的设备，所述多声道音频信号包含多个音频信号(H1-Hn)被降混的立体声降混信号(18)，且包含侧信息(20)，所述侧信息OO)包含对于每一音频信号指示出各自音频信号已分别混合至立体声降混信号(18)的第一声道(LO)及第二声道(RO)中的程度的降混信息(DMG，DCLD)，所述侧信息OO)还包含多个音频信号的目标位准信息(OLD)及目标内互相关信息(IOC)，所述目标内互相关信息(IOC)描述在所述多个音频信号的音频信号对之间的类似性，所述设备配置成基于第一演示指示(G1’"1)从所述立体声降混信号(18)的第一及第二声道来运算G7) 初步双耳信号(M)，所述第一演示指示根据目标内互相关信息、目标位准信息、降混信息、使每一音频信号相关于虚拟扬声器位置的演示信息及HRTF参数而定；产生(50)去相关信号(Xf )，所述去相关信号(Xf )作为对所述立体声降混信号 (18)的第一及第二声道的单降混(58)的感知等效物，且然而与所述单降混(58)去相关；根据第二演示指示(P/"1)从所述去相关信号(6 运算(5 校正双耳信号(64)，所述第二演示指示OP/,依据所述目标内互相关信息、所述目标位准信息、所述降混信息、所述演示信息及所述HRTF参数而定；及将初步双耳信号(54)与校正双耳信号(64)相混合(5 ，以获得该双耳输出信号 04)。
2.根据权利要求1所述的设备，其中所述设备进一步配置成在产生去相关信号 (Xf )时，将立体声降混信号(18)的第一及第二声道求和，并且对所述和去相关以获得所述去相关信号(62)。
3.根据权利要求1或2所述的设备，进一步配置成评估(80)初步双耳信号(54)的实际双耳声道内相干性值；确定(8 目标双耳声道内相干性值；及基于实际双耳声道内相干性值及目标双耳声道内相干性值，设定(84)混合率，所述混合率确定由初步双耳信号(54)的运算07)处理的立体声降混信号(18)的第一及第二声道以及由去相关信号的产生(50)以及由校正双耳信号(64)的运算(52)处理的立体声降混信号(18)的第一及第二声道分别影响双耳输出信号04)的程度。
4.根据权利要求3所述的设备，其中所述设备进一步配置成在设定所述混合率时，基于实际双耳声道内相干性值及目标双耳声道内相干性值，通过设定第一演示指示(G1’。1)及第二演示指示(Pj,m )来设定所述混合率。
5.根据权利要求3或4所述的设备，其中所述设备进一步配置成在确定目标双耳声道内相干性值时，基于目标协方差矩阵F = A E A*的分量来执行所述确定，其中“*”表示共轭转置，A是使音频信号分别与双耳输出信号的第一及第二声道相关的目标双耳演示矩阵且由演示信息及HRTF参数来唯一决定，且E是由目标内互相关信息及目标位准信息唯一决定的矩阵。
6.根据权利要求5所述的设备，其中所述设备进一步配置成在运算初步双耳信号(54) 时使得X1=GX其中X是hi的向量，所述X的分量对应于立体声降混信号(18)的第一及第二声道，束是&1的向量，所述I1的分量对应于初步双耳信号(54)的第一及第二声道，G是表示第一演示指示且具有的大小的第一演示矩阵，即
其中，X e {1,2},
其中<、<及4是大小为2x2的子目标协方差矩阵Fx的系数，即Fx = A Ex A*,其中
是·2. 1 2, NxN矩阵Ex的系数，N是音频信号的数目，e"是大小为NxN的矩阵E的系数，且《由降混信息唯一地决定，其中<指示音频信号i已混合至立体声降混信号(18)的第一声道中的程度，且<定义音频信号i已混合至立体声输出信号(18) 的第二声道中的程度，其中Vx是标量，即Vx = DxE (Dx) *+ ε，且Dx是IxN的矩阵，Dx的系数是《，其中所述设备进一步配置成在运算校正双耳输出信号(64)时使得K = Pz-Xd其中&是去相关信号，12是211的向量，所述I2的分量对应于所述校正双耳信号(64) 的第一及第二声道，且P2是表示第二演示指示且具有2x2大小的第二演示矩阵，即
其中增益PL及ra定义为
其中C11及C22是该初步双耳信号(54)的2x2协方差矩阵C的系数，即
其中V是标量，S卩V = W E W*+ε，W是大小为IxN的单降混矩阵，其系数由《唯一决定，^ = 且g为来
其中所述设备进一步配置成在评估该实际双耳声道内相干性值时确定实际双耳声道内相干性值为
其中所述设备进一步配置成在确定目标双耳声道内相干性值时确定目标双耳声道内相干性值为
且其中所述设备进一步配置成在设定混合率时根据下式确定旋转角α及β，
其中ε表示用于避免分别被0除的较小常数。
7.根据权利要求1所述的设备，其中所述设备进一步配置成在运算初步双耳信号(54) 时使得
其中X是hi的向量，所述X的分量对应于立体声降混信号(18)的第一及第二声道，向量，所述I1的分量对应于初步双耳信号(54)的该第一及第二声道，G是表示第一演示指示且具有2x2大小的第一演示矩阵，即G = AED* (DEDT1，其中E是由目标内互相关信息及目标位准信息来唯一决定的矩阵；D是MN的矩阵，其系数Clij由降混信息唯一决定，其中Cllj指示音频信号j已混合至立体声降混信号(18)的第一声道中的程度，且‘定义音频信号j已混合至立体声输出信号 (18)的第二声道中的程度；A是使音频信号分别与双耳输出信号的第一及第二声道相关的目标双耳演示矩阵，且由演示信息及HRTF参数来唯一确定，其中所述设备进一步配置成在运算校正双耳输出信号(64)时使得
其中&是去相关信号，I2是2x1的向量，I2的分量对应于校正双耳信号(64)的第一及第二声道，且P是表示第二演示指示且具有2x2大小的第二演示矩阵，且被确定以使得PP* =AR，其中 AR = AEA*-G0DED*G0*'而(；。=G。
8.根据权利要求1所述的设备，其中所述设备进一步配置成在运算初步双耳信号(54) 时使得
其中X是hi的向量，X的分量对应于立体声降混信号(18)的第一及第二声道，戈是 2x1的向量，戈的分量对应于初步双耳信号(54)的第一及第二声道，G是表示该第一演示指示且具有2x2大小的第一演示矩阵，即G = (G0DED*G0*) (G0DED*G0*AEA*G0DED*G0*)1/2 (G0DED*G0*) ^1G0 其中(；。=AED* (DED*)其中E是由目标内互相关信息及目标位准信息来唯一决定的矩阵； D是MN的矩阵，D的系数由降混信息来唯一决定，其中扎指示音频信号j已混合至立体声降混信号(18)的第一声道中的该程度，且‘定义音频信号j已混合至立体声输出信号(18)的第二声道中的程度；A是使音频信号分别与双耳输出信号的第一及第二声道相关的目标双耳演示矩阵，且由演示信息及HRTF参数来唯一确定，其中所述设备进一步配置成在运算校正双耳输出信号(64)时使得 Xi=P Xd其中&是去相关信号，文2是2x1的向量，所述I2的分量对应于所述校正双耳信号(64) 的第一及第二声道，且P是表示第二演示指示且具有2x2大小的第二演示矩阵，并且被确定使得 pp* = (AEA*-GDED*G*) /V，其中 V 是标量。
9.根据前述权利要求中任一项所述的设备，其中所述降混信息(DMG，DCLD)是时间相关的，且目标位准信息(OLD)及目标内互相关信息(IOC)是时间及频率相关的。
10.一种用于将多声道音频信号双耳演示为双耳输出信号04)的方法，所述多声道音频信号包含多个音频信号(H1-Hn)被降混的立体声降混信号(18)，且包含侧信息(20)，所述侧信息00)包含对于每一音频信号指示出各自音频信号已分别混合至立体声降混信号(18)的第一声道(LO)及第二声道(RO)中的程度的降混信息(DMG，DCLD)，所述侧信息00)还包含多个音频信号的目标位准信息(OLD)及目标内互相关信息(IOC)，所述目标内互相关信息(IOC)描述在所述多个音频信号的音频信号对之间的类似性，所述方法包括基于第一演示指示(G1’"1)从所述立体声降混信号(18)的第一及第二声道来运算初步双耳信号64)，所述第演示指示根据目标内互相关信息、目标位准信息、降混信息、使每一音频信号相关于虚拟扬声器位置的演示信息及HRTF参数而定；产生去相关信号(Xf )，所述去相关信号(Xf )作为对所述立体声降混信号(18)的第一及第二声道的单降混(58)的感知等效物，且然而与所述单降混(58)去相关；根据第二演示指示从所述去相关信号(6 运算校正双耳信号(64)，所述第二演示指示(Aim)依据所述目标内互相关信息、所述目标位准信息、所述降混信息、所述演示信息及所述HRTF参数而定；及将初步双耳信号(54)与校正双耳信号(64)相混合，以获得该双耳输出信号04)。
11.一种具有指令的计算机程序，当所述指令在计算机上运行时，用于执行根据权利要求10所述的方法。
全文摘要
描述了将多声道音频信号双耳演示为双耳输出信号(24)。该多声道音频信号包含多个音频信号(141-14N)被降混的立体声降混信号(18)及侧信息，且该侧信息包含对于每一音频信号指示出各自音频信号已分别混合至立体声降混信号(18)的第一声道及一第二声道中的程度的降混信息(DMG，DCLD)，该侧信息还包含音频信号的目标位准信息及目标内互相关信息，该目标内互相关信息描述在多个音频信号的音频信号对之间的相似性。基于第一演示指示，从立体声降混信号(18)的第一及第二声道来运算初步双耳信号(54)。产生去相关信号作为对该立体声降混信号(18)的第一及第二声道的单降混(58)的感知等效物，且然而与该单降混(58)去相关。根据第二演示指示从去相关信号(62)运算校正双耳信号(64)，且初步双耳信号(54)与校正双耳信号(64)相混合，以获得该双耳输出信号(24)。
文档编号H04S1/00GK102187691SQ200980139685
公开日2011年9月14日申请日期2009年9月25日优先权日2008年10月7日
发明者杰罗恩·科彭斯, 哈拉尔德·蒙特, 莱奥尼德·特伦蒂夫, 科奈利亚·费尔施, 约翰内斯·希勒佩特, 奥立夫·赫尔穆, 拉斯·维莱摩尔斯, 彦·普洛斯提斯, 杰罗恩·布瑞巴特, 约纳斯·恩德加德申请人:弗朗霍夫应用科学研究促进协会, 皇家飞利浦电子股份有限公司, 杜比瑞典公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杰罗恩·科彭斯
技术所有人：弗朗霍夫应用科学研究促进协会
我是此专利的发明人

上一篇：用于接收和发送数据块的方法
上一篇：保护互联网协议多媒体子系统以避免未请求通信的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。