用于将音频上混以便产生3d音频的方法和系统的制作方法

文档序号：7989657阅读：322来源：国知局

用于将音频上混以便产生3d音频的方法和系统的制作方法
【专利摘要】在一些实施例中，提出用于将包括N个全范围声道的输入音频上混以便产生包括N+M个全范围声道的3D输出音频的方法，其中N+M个全范围声道意图由至少包括处于离收听者不同距离处的2个扬声器的扬声器呈现。N声道输入音频是2D音频节目，它的N个全范围声道意图由离收听者标称等距的N个扬声器呈现。响应于以自动的方式根据与输入音频对应的立体3D视频确定的提示，或者响应于以自动的方式根据输入音频确定的提示，典型地以自动的方式执行输入音频的上混以便产生3D输出音频。其它方面包括被配置为执行本发明的方法的任何实施例的系统、以及存储用于实现本发明的方法的任何实施例的代码的计算机可读介质。
【专利说明】用于将音频上混以便产生3D音频的方法和系统
[0001]相关申请的交叉引用
[0002]本申请要求2011年4月18日提交的美国专利临时申请N0.61/476，395的优先权，其整体通过参考被并入于此。
【技术领域】
[0003]本发明涉及用于将多声道的音频上混(upmix)以便产生多声道的3D输出音频的系统和方法。典型实施例是用于将意图由离收听者标称(nominally)等距的扬声器呈现的2D输入音频(包括N个全范围(full range)声道)上混以便产生包括N+M个全范围声道的3D输出音频的系统和方法，其中N+M个全范围声道意图被至少包括处于离收听者不同距离处的2个扬声器的扬声器呈现。
【背景技术】
[0004]在整个这个公开内容中(包括权利要求中)，表述“对”信号或者数据执行操作(例如，对信号或者数据进行滤波、缩放(scaling)、或者变换)在广义上被用来表示直接对信号或者数据执行操作，或者对信号或者数据的经处理的版本(例如，对信号的在对其执行操作之前已经受到初步滤波的版本)执行操作。
[0005]在整个这个公开内容中(包括权利要求中)，表述“系统”在广义上被用来表示装置、系统或者子系统。例如，实现解码器的子系统可以被称为解码器系统，并且包括这种子系统的系统(例如，响应于多个输入产生X个输出信号的系统，在其中子系统产生M个输入并且其它X-M个输入是从外部源接收的)也可以被称为解码器系统。
[0006]在整个这个公开内容中(包括权利要求中)，以下表述具有以下定义:
[0007]扬声器(speaker)和扩音器(loudspeaker)被同义地使用，来表示任何发出声音的换能器。这个定义包括被实现为多个换能器的扩音器(例如，低音喇叭(woofer)和高音喇机(tweeter))；
[0008]扬声器供给(feed):要被直接施加到扩音器的音频信号，或者要被顺序地施加到放大器和扩音器的音频信号；
[0009]声道:以使得等同于直接施加音频信号到期望或标称位置处的扩音器的方式呈现的音频信号。期望的位置可以是静态的(典型地如具有物理的扩音器情况一样)，或者动态的；
[0010]音频节目:一组一个或更多个音频声道；
[0011]呈现:将音频节目转换成一个或更多个扬声器供给的处理，或者将音频节目转换成一个或更多个扬声器供给并且使用一个或更多个扩音器将扬声器供给(一个或更多个)转换为声音的处理(在后一种情况下，在此呈现有时被称为“通过”扩音器(一个或更多个)呈现)。音频声道可以通过将信号直接施加到期望位置处的物理的扩音器而(在期望位置“处”)被琐细地(trivially)呈现，或者一个或更多个音频声道可以通过使用被设计为(对于收听者)基本上等同于这种琐细的呈现的各种虚拟化(virtualization)技术之一被呈现。在这个后一种情况中，每个音频声道可以被转换为要被施加到通常不同于期望位置的已知位置中的扩音器(一个或更多个)的一个或更多个扬声器供给，使得由扩音器(一个或更多个)响应于供给(一个或更多个)发出的声音将被感知为从期望位置发出。这种虚拟化技术的示例包括经由头戴耳机(headphones)(例如，使用对于头戴耳机佩带者模拟直到环绕声的7.1声道的Dolby头戴耳机处理)以及波场合成的双耳的呈现；
[0012]立体3D视频:在被显示时通过使用显示的场景(scene)到观看者的两个眼睛的视网膜上的两个稍有不同的投影而产生视觉深度的感觉的视频；
[0013]方位角(azimuth)(或者方位角度):源相对于收听者/观看者的在水平面中的角度。典型地，O度的方位角度表示源在收听者/观看者的正前方，并且方位角度随着源围绕收听者/观看者以逆时针方向移动而增大；
[0014]仰角(elevation)(或者仰视角度):源相对于收听者/观看者的在垂直面中的角度。典型地，O度的仰视角度表示源在与收听者/观看者相同的水平面中，并且仰视角度随着源相对于观看者向上移动而增大(在从O到90度的范围中)；
[0015]L:左前方音频声道。典型地意图由位于约30度方位角、O度仰角处的扬声器呈现；
[0016]C:中央前方音频声道。典型地意图由位于约O度方位角、O度仰角处的扬声器呈现；
[0017]R:右前方音频声道。典型地意图由位于约-30度方位角、O度仰角处的扬声器呈现；
[0018]Ls:左环绕音频声道。典型地意图由位于约110度方位角、O度仰角处的扬声器呈现；
[0019]Rs:右环绕音频声道。典型地意图由位于约-110度方位角、O度仰角处的扬声器呈现；
[0020]全范围声道:音频节目的除该节目的每个低频效果声道以外的所有音频声道。典型的全范围声道是立体声节目的L和R声道，以及环绕声节目的L、C、R、Ls和Rs声道。由低频效果声道(例如，亚低音扬声器(subwoofer)声道)确定的声音包括直到截止频率的可听范围中的频率分量，但是不包括截止频率以上的可听范围中的频率分量(如典型的全范围声道那样);
[0021]前方声道:与前方的声音级(stage)关联的(音频节目的)音频声道。典型的前方声道是立体声节目的L和R声道或者环绕声节目的L、C和R声道；
[0022]2D音频节目(例如，2D输入音频，或者2D音频):包括至少一个全范围声道(典型地由对于每个声道的音频信号确定)的音频节目，意图由离收听者标称等距的扬声器(一个或更多个)(例如，离收听者标称等距的两个、五个或者七个扬声器，或者一个扬声器)呈现。节目“意图”在如下的意义上由离收听者标称等距的扬声器呈现，即节目(例如，通过录制和母版制作(mastering)，或者任何其它方法)被产生为使得在它的全范围声道由位于相对于收听者适当的方位角和仰视角度处的距离相等的扬声器(例如，其中每个扬声器在相对于收听者不同的预定的方位角度处)呈现时，发出的声音在感知的音频源的期望的成像的情况下由收听者感知。例如，声音可以被感知为来源于离收听者的距离与扬声器相同处的源，或者来源于离收听者不同的距离的范围中的源。传统的2D音频节目的示例是立体声音频节目和5.1环绕声节目；
[0023]3D音频节目(例如，3D输出音频，或者3D音频):音频节目，它的全范围声道包括第一声道子集以及第二声道子集，第一声道子集包括确定2D音频节目(意图由至少一个“主”扬声器、以及典型地由离收听者距离相等的至少两个“主”扬声器呈现)的至少一个音频声道(有时被称为“主”声道或者多个“主”声道)，第二声道子集包括意图由物理上位于比呈现主声道(一个或更多个)的扬声器(一个或更多个)(“主”扬声器(一个或更多个))更接近或者远离收听者的至少一个扬声器呈现的至少一个音频声道。第二声道子集可以包括意图由物理上位于比主扬声器更接近收听者的扬声器(〃近处〃或者〃近场〃扬声器)呈现的至少一个音频声道(在此有时被称为“近处”或者“近场”声道)和/或意图由物理上位于比主扬声器更远离收听者的扬声器呈现的至少一个音频声道(在此有时被称为〃远处〃或者〃远场〃声道)。节目在如下的意义上“意图”由扬声器呈现，即节目(例如，通过录制和母版制作，或者任何其它方法)被产生为使得在它的全范围声道由位于相对于收听者适当的方位角和仰视角度处的扬声器呈现时，发出的声音在感知的音频源的期望的成像的情况下由收听者感知。例如，声音可以被感知为来源于离收听者的距离与扬声器相同范围中的源，或者来源于比扬声器-收听者距离的范围宽或者窄的离收听者的距离的范围中的源。3D音频节目的“意图”由物理上比主扬声器更接近于收听者的近处扬声器(或者物理上比主扬声器更远离收听者的远处扬声器)呈现的“近处”(或者“远处”)声道可以实际地由这种物理上更接近的(或者更远的)扬声器(琐细地)呈现，或者它可以使用在离收听者任何物理距离(一个或更多个)处的扬声器(一个或更多个)以设计成至少基本上等同于琐细的呈现的方式被“虚拟地”呈现(例如，使用包括听觉传输(transaural)或者波场合成的许多技术中的任意一个)。3D音频节目的全范围声道的呈现的一个示例是用相对于收听者不同的预定的方位角度处的每个主扬声器、以及至少基本上等于零的方位角度处的每个近场和远场扬声器来呈现；
[0024]空间区域:被分析和分配深度值的视觉图像的一部分；以及
[0025]AVR:音频视频接收器。例如，用于控制音频与视频内容的回放的消费电子设备的类别中的接收器，例如在家庭影院中。
[0026]立体3D电影正变得越来越流行并且已经在美国占当今的票房收入的显著的百分t匕。新的数字电影、广播和蓝光规范允许3D电影和其它3D视频内容(例如，实况播送的运动)通过使用各种技术(包括偏振眼镜、全光谱色分离眼镜(full spectrum chromaticseparation glasses)、有源快门眼镜或者不需要眼镜的自动立体显示)被分发和呈现作为有差别的左眼和右眼图像。在剧院以及家庭中用于创建、分发和呈现立体3D内容的基础设施现在就位。
[0027]立体3D视频将深度印象添加到视觉图像。显示的对象可以被呈现为使得看起来在离用户不同的距离处，从屏幕的正前方到远后方。伴随的音轨(典型地环绕音轨)目前通过使用与2D电影相同的技术来被创作和呈现。传统的2D环绕音轨典型地包括被路由到离收听者标称等距并且以相对于收听者不同的标称方位角度放置的扬声器的五个或者七个音频信号(全范围声道)。
[0028]例如，图1示出用于为收听者I呈现2D音频节目的传统的五扬声器声音回放系统。2D音频节目是传统的五声道环绕声节目。该系统包括至少基本上离收听者I距离相等的扬声器2、3、4、5和6。扬声器2、3、4、5和6中的每一个意图供呈现节目的不同的全范围声道之用。如所指出的，扬声器3 (意图用于呈现节目的右前方声道)位于30度的方位角度处，扬声器6 (意图用于呈现节目的右环绕声道)位于110度的方位角度处，并且扬声器4(意图用于呈现节目的中央前方声道)位于O度的方位角度处。
[0029]在自由场(没有反射)中，音频源距离的收听者的感知主要由三个提示(cue)引导:听觉的水平，高和低频率成分的相对水平，以及对于近场信号，收听者的耳朵之间的水平差异(disparity)。对于熟悉的声音，诸如以典型的发出水平发出的(或者假设已经被发出)的讲话，听觉的水平到目前为止是最重要的提示。如果收听者不具有对所感知的音频的发出水平的认识，则所感知的听觉的水平更少有用并且其它提示开始起作用。在混响的声环境中，存在额外的提示(对音频源的离收听者的距离)，包括直接与混响的比(direct toreverb ratio)以及早期反射的水平和方向。
[0030]对于在家庭听音室、电影院或者剧院中再现的音频信号，根据传统的扩音器呈现的“干的(dry)”或者未处理的信号通常将在扩音器距离处成像。在产生2D音频节目(例如，环绕音轨)中，可以通过使用公知的混合技术(例如，混响和低通滤波)模拟远处(来自遥远的源的声音的感知)。不存在有效的用于制作模拟近处(超出隐含的与来自模拟的远处源的音频的对比度)的2D音频节目的混合方法，这部分因为很难去除或者抑制回放地点的自然的混响。
[0031]已经提出了用于呈现3D音频(近处音频图像以及感知为来自更远离收听者的源的音频)的基于硬件的系统。在这种系统中音频由相对远离收听者放置的第一组扬声器(包括至少一个扬声器)和更接近于收听者放置的第二组扬声器(包括至少一个扬声器，例如，一组头戴耳机)呈现。典型地，第一组中的扬声器与第二组中的扬声器进行时间对准。在2006年3月9日公布的Tsuhako的美国专利申请公开N0.2006/0050890中描述了这种系统的示例。这类的系统可以呈现3D音频节目。虽然这种3D音频节目可以被特别地产生以用于由这种系统呈现，但是直到本发明也还没有提出通过将2D音频节目上混而产生这种3D音频节目。(直到本发明)也还不知道如何对2D音频节目执行上混以便产生3D音频节目，例如，用于通过这个段落中讨论的类别中的系统呈现。
[0032]已经提出许多技术以用于(使用离收听者标称等距的扬声器，或者离收听者不同的距离处放置的扬声器)呈现音频节目，使得发出的声音将被感知为来源于离收听者不同的距离处的源。这种技术包括听觉传输声音呈现，波场合成，以及通过使用专用的扩音器设计的有源的直接与混响的比的控制。如果任何这种技术可以以实际的方式被实现并且被广泛地部署，则将可能呈现全3D音频。然而，直到实际的呈现装置可用，不然将有很少的刺激来明确地创作或者分布3D音频内容。相反地，在没有3D音频内容的情况下，将有很少的刺激来开发和安装需要的呈现装备。用于从传统的音轨中推导出3D音频信号以便打破这个“鸡和蛋”的两难困境的装置将是期望的。本发明的典型实施例提供通过从先前存在(例如，传统地产生)的N声道2D音频节目产生N+M个声道3D音频节目的对于这个问题的解决方案。

【发明内容】

[0033]在一类实施例中，本发明是一种用于将N声道输入音频(包括N个全范围声道,其中N是正整数)上混以产生包括N+M个全范围声道的3D输出音频的方法，其中M是正整数，并且N+M个全范围声道意图由包括离收听者不同的距离处的至少两个扬声器的扬声器呈现。典型地，所述方法包括提供指示至少一个音频源的离收听者的距离的源深度数据、以及通过使用源深度数据将输入音频上混以便产生3D输出音频的步骤。典型地，N声道输入音频是2D音频节目，该2D音频节目的N个全范围声道意图由离收听者距离相等的N个扬声器呈现。在一些实施例中，3D输出音频是3D音频节目，该3D音频节目的N+M个全范围声道包括要由离收听者标称等距的N个扬声器(有时被称为“主”扬声器)呈现的N个声道以及意图由额外的扬声器呈现的M个声道，额外的扬声器中的每一个被放置为比主扬声器更接近或者远离收听者。在其它实施例中，3D输出音频的N+M个全范围声道没有映射到N个主扬声器和M个额外的扬声器，其中额外的扬声器中的每一个被放置为比主扬声器更接近或者远离收听者。例如，输出音频可以是包括要由X个扬声器呈现的N+M个全范围声道的3D音频节目，其中X不一定等于输出节目中的3D音频声道的数量(N+M)，并且N+M个3D输出音频声道意图被处理(例如，混合和/或滤波)以便产生用于驱动X个扬声器的X个扬声器供给以使得收听者将从扬声器发出的声音感知为来源于在离收听者不同的距离处的源。设想(COntemplated)3D输出音频的N+M个全范围声道中的多于一个可以驱动(或者被处理以产生经处理的音频，该音频驱动)单个扬声器，或者3D输出音频的N+M个全范围声道中的一个可以驱动(或者被处理以产生经处理的音频，该音频驱动)多于一个扬声器。
[0034]一些实施例可以包括以使得N+M个声道中的至少一个可以驱动一个或更多个扬声器以发出模拟(即，由收听者感知为)从离每个扬声器不同的距离处的多个源发出的声音的声音的方式产生3D输出音频的N+M个全范围声道中的所述至少一个的步骤。一些实施例可以包括以使得N+M个声道中的每一个可以驱动扬声器以发出由收听者感知为从扬声器的位置发出的声音的方式产生3D输出音频的N+M个全范围声道的步骤。在一些实施例中，3D输出音频包括要由离收听者标称等距的N个扬声器(〃主〃扬声器)呈现的N个全范围声道以及意图由额外的扬声器呈现的M个全范围声道,额外的扬声器中的每一个被放置为比主扬声器更接近或者远离收听者，并且响应于所述M个全范围声道中的一个从每个额外的扬声器发出的声音可以被感知为来自比主扬声器更靠近收听者的源(近场源)或者来自比主扬声器更远离收听者的源(远场源)，不管主扬声器在由N声道输入音频驱动时是否会发出模拟来自这种近场或者远场源的声音的声音。
[0035]在优选实施例中，输入音频(包括N个全范围声道)的上混以便产生3D输出音频(包括N+M个全范围声道)以自动的方式被执行，例如，响应于以自动的方式根据与输入音频(例如，其中输入音频是用于3D视频的2D音频音轨)对应的立体3D视频确定(例如，提取)的提示，或者响应于以自动的方式根据输入音频确定的提示，或者响应于以自动的方式根据输入音频和与输入音频对应的立体3D视频确定的提示。在该上下文中，以“自动的”方式产生输出音频意图排除仅仅通过手动混合(例如，将声道乘以手动地选择的增益因子并且将它们相加)输入音频的声道来产生输出音频(例如，手动混合N声道2D输入音频的声道以产生3D输出音频的一个或更多个声道)。
[0036]在典型的视频驱动的上混实施例中，3D视频中可用的立体信息被用来提取相关的音频深度增强提示。这种实施例可以被用来通过产生用于电影的3D音轨而增强立体3D电影。在典型的音频驱动的上混实施例中，从2D音频节目(例如，用于3D视频节目的原始的2D音轨)中提取用于产生3D输出音频的提示。这些实施例也可以被用来通过产生用于电影的3D音轨来增强3D电影。
[0037]在一类实施例中，本发明是一种用于将N声道的2D输入音频(意图由离收听者标称等距的N个扬声器呈现)上混以产生包括N+M个全范围声道的3D输出音频的方法，其中N+M个声道包括要由离收听者标称等距的N个主扬声器呈现的N个全范围声道以及意图由额外的扬声器呈现的M个全范围声道，额外的扬声器中的每一个比主扬声器更接近或者远离收听者。
[0038]在另一类实施例中，本发明是一种用于响应于N声道输入音频自动产生3D输出音频的方法，其3D输出音频包括N+M个全范围声道，N和M中的每一个是正整数，并且3D输出音频的N+M个全范围声道意图由包括在离收听者不同的距离处的至少两个扬声器的扬声器呈现。典型地，N声道输入音频是要由离收听者标称等距的N个扬声器呈现的2D音频节目。在该上下文中，“自动的”产生输出音频意图排除仅仅通过手动混合输入音频的声道来产生输出音频(例如，手动混合N声道的2D输入音频的声道以产生3D输出音频的一个或更多个声道)。自动的产生可以包括产生(或者提供)指示至少一个音频源的离收听者的距离的源深度数据并且通过使用源深度数据将输入音频上混以产生3D输出音频的步骤。在这个类中的典型实施例中，源深度数据是如下的深度提示(或者是根据如下的深度提示确定的):以自动的方式根据与输入音频(例如，其中输入音频是用于3D视频的2D音频音轨)对应的立体3D视频确定(例如，提取)的深度提示，或者以自动的方式根据输入音频确定的深度提示，或者以自动的方式根据输入音频以及与输入音频对应的立体3D视频确定的深度提示。
[0039]本发明的方法和系统不同于传统的音频上混方法和系统(例如，如在例如 Gundry,Kenneth, A New Active Matrix Decoder for SurroundSound, AES Conference:19th International Conference: SurroundSound-Techniques, Technology, and Perception (June2001)中描述的 Dolby Pro LogicII)。现有的上混器典型地转换意图用于在第一 2D扬声器配置(例如，立体声)上回放的输入音频节目，并且产生用于在包括额外的方位角和/或仰视角度处的扬声器的第二 (更大的)2D扬声器配置(例如，5.1配置)上回放的额外的音频信号。第一和第二扬声器配置两者都由全部离收听者标称等距的扩音器组成。与此对比，根据本发明的一类实施例的上混方法产生意图用于通过物理地放置在离收听者两个或更多个标称距离处的扬声器呈现的声频输出信号。
[0040]本发明的方面包括配置(例如，编程)为执行本发明的方法的任何实施例的系统、以及存储用于实现本发明的方法的任何实施例的代码的计算机可读介质(例如，盘)。
[0041]在典型实施例中，本发明的系统是或者包括利用软件(或者固件)编程的和/或被配置为执行本发明的方法的一个实施例的通用的或者专用的处理器。在一些实施例中，本发明的系统是或者包括通用处理器，其耦接为接收输入音频(以及可选地还有输入视频)，以及(利用适当的软件)编程为(通过执行本发明的方法的一个实施例)响应于输入音频(以及可选地还有输入视频)产生输出音频。在其它实施例中，本发明的系统被实现为可操作地响应于输入音频产生输出音频的适当地配置的(例如，编程及其他配置)音频数字信号处理器(DSP)。【专利附图】

【附图说明】
[0042]图1是用于呈现2D音频的传统的系统的图。
[0043]图2是用于呈现3D音频(例如，根据本发明实施例产生的3D音频)的系统的图。
[0044]图3是立体3D视频节目的帧，示出与用于观看者的右眼的第二图像重叠的用于观看者的左眼的第一图像(第一图像的不同元素相对于第二图像的对应元素偏移了不同的量)。
[0045]图4是计算机系统的框图，包括存储用于对系统的处理器501编程以便执行本发明的方法的实施例的计算机代码的计算机可读的存储介质504。
【具体实施方式】
[0046]本发明的许多实施例技术上是可能的。本领域技术人员将根据本公开而清楚如何实现它们。将参考图1、2、3和4描述本发明的系统、方法和介质的实施例。
[0047]在一类实施例中，本发明是一种用于将N声道输入音频(其中N是正整数)上混以产生包括N+M个全范围声道的3D输出音频的方法，其中M是正整数，并且3D输出音频的N+M个全范围声道意图由包括离收听者不同的距离处的至少两个扬声器的扬声器呈现。典型地，N声道输入音频是其N个全范围声道意图由离收听者标称等距的N个扬声器呈现的2D音频节目。
[0048]例如，输入音频可以是五声道的、环绕声2D音频节目，意图由(上面描述的)图1的传统的五扬声器系统呈现。这种2D音频节目的五个全范围声道中的每一个意图用于驱动图1系统的扬声器2、3、4、5和6中的不同的一个扬声器。通过将这种五声道的2D输入音频上混，本发明的一个实施例产生意图用于由图2的七扬声器系统呈现的七声道(N=5，M=2)3D音频节目。图2系统包括扬声器2、3、4、5和6 (与图1的同样编号的扬声器相同)、以及远处扬声器7(以相对于收听者I为O度的方位角度放置，但是显著地比扬声器4更远离收听者I)和近处扬声器8 (也以相对于收听者I为O度的方位角度放置，但是显著地比扬声器4更接近于收听者I)。扬声器4、7和8可以以相对于收听者I不同的仰角被放置。(本示例性实施例中产生的)3D音频节目的七个全范围声道中的每一个意图用于驱动图2系统的扬声器2、3、4、5、6、7和8中的不同的一个。当如此驱动时，从扬声器2、3、4、5、6、7和8发出的声音将典型地被收听者I感知为来源于离收听者不同的距离处的至少两个源。例如，来自扬声器8的声音被感知为来源于扬声器8的位置处的近场源,来自扬声器7的声音被感知为来源于扬声器7的位置处的远场源，并且来自扬声器2、3、4、5和6的声音被感知为来源于离收听者I的距离与扬声器2、3、4、5和6相同的距离处的至少一个源。可替代地，来自扬声器2、3、4、5、6、7和8中的一个子集的声音模拟(即，由收听者I感知为)从离收听者I第一距离处的源发出的声音(例如，从扬声器2和7发出的声音被感知为来源于扬声器2和7之间的源，或者比扬声器7更远离收听者的源)，并且来自扬声器2、3、4、5、6、7和8中的另一个子集的声音模拟从离收听者I另一个距离处的第二源发出的声音。
[0049]并未设想根据本发明产生的3D音频必须以任何特定的方式或者由任何特定的系统呈现。设想的是许多不同的呈现方法和系统中的任意一个可以被采用来呈现根据本发明的各个实施例产生的3D音频内容，以及根据本发明产生3D音频的特定的方式可以依赖于要采用的特定的呈现技术。在一些情况下，(根据本发明产生的3D音频节目的)近场音频内容可以通过使用接近收听者安置的一个或更多个物理的扩音器(例如，通过图2系统的扬声器8、或者通过位于前方声道扬声器和收听者之间的扬声器)被呈现。在其它情况下，近场音频内容(感知为来源于在离收听者的距离X处的源)可以通过比离收听者的距离X更近和/或更远放置的扬声器被呈现(使用特制的硬件和/或软件来创造近场音频的感觉)，并且(根据本发明产生的相同的3D音频节目的)远场音频内容可以通过相同的扬声器(其可以是较大一组扬声器中的第一子集)或者通过不同的一组扬声器(例如，较大一组扬声器中的第二子集)被呈现。
[0050]设想在呈现通过本发明的一些实施例产生的3D音频中使用的呈现技术的示例包括:
[0051]具有在头戴耳机之上呈现的近场HRTF的双耳的音频系统，
[0052]具有近场HRTF的听觉传输音频系统，
[0053]使用波场合成的一个或更多个模拟的音频源，
[0054]使用聚焦成像(focused imaging)的一个或更多个模拟的音频源，
[0055]一个或更多个头顶上的(overhead)扩音器，或者
[0056]用于控制直接与混响的比的算法或者装置。
[0057]在一些实施例中，本发明是一种提取现有的2D音频节目的部分以便产生在由扬声器呈现时被感知为具有深度效果的上混的3D音频节目的编码方法。
[0058]将N声道输入音频上混以便产生3D输出音频(包括N+M个全范围声道)的本发明的方法的典型实施例采用深度映射(depth map), D(0，Y)*D(0)。深度映射描述与方位角和仰角(或者仅仅方位角)有关的(as a function of)、在收听者的位置处从具有方位角Θ和仰角Y的方向入射的由3D输出音频确定的声音的至少一个源的深度(期望的感知的离收听者的距离)。在本发明的各个实施例中以许多不同的方式中的任意一个方式提供(例如，确定或者产生)这种深度映射D( Θ，y ) 0例如，深度映射可以被提供伴随输入音频(例如，作为一些3D广播格式中采用的类型的元数据，其中输入音频是用于3D视频节目的音轨)，或者来自(与输入音频关联的)视频以及深度传感器，或者来自光栅(raster)呈现器的z_缓冲器(例如，GPU),或者来自与输入音频关联的立体3D视频节目内包括的标题(caption)和/或字幕(subtitle)深度元数据，或者甚至来自运动深度(depth-from-motion)估计。在元数据不可用但是与输入音频关联的立体3D视频是可用的时，深度提示可以被从供产生深度映射之用的3D视频中提取。利用适当的处理，可以使得视觉的物距(object distances)(由3D视频确定)与产生的音频深度效果相关。
[0059]我们接下来描述用于根据立体3D视频(例如，与2D输入音频节目对应以及设置有2D输入音频节目的3D视频)确定深度映射D ( θ，)的优选的方法。我们然后将描述使用深度映射的响应于2D输入音频(根据本发明的方法的若干实施例)执行以便产生3D输出音频(其将在呈现时表现出深度效果)的示例性的音频分析和合成步骤。
[0060]立体3D视频节目的帧典型地确定被感知为处于离观看者不同的距离处的视觉的对象。例如，图3的立体3D视`频帧确定与用于观看者的右眼的第二图像重叠的用于观看者的左眼的第一图像(其中第一图像的不同元素相对于第二图像的对应元素偏移了不同的量)。观看了图3的帧的一个人会感知由第一图像的元素LI确定的椭圆形的对象、轻微地从元素LI向右边偏移的第二图像的元素R1、以及由第一图像的元素L2来确定的菱形的对象、以及轻微地从元素L2向左边偏移的第二图像的元素R2。[0061]对于立体3D视频节目的每个视觉元素，左眼帧图像和右眼帧图像具有差异(disparity)，该差异随元素的感知的深度而变化。如果(如典型的那样)这种节目的3D图像具有零差异的点处(在其处在元素的左眼视图和右眼视图之间不存在偏移)的元素，该元素在屏幕的距离处出现。3D图像的具有正差异(例如，其差异为+P2的图3的菱形的对象，其是元素的左眼视图L2相对于元素的右眼视图R2向右边偏移了的距离)的元素被感知为更远于屏幕(在屏幕后面)。类似地，3D图像的具有负差异的元素(例如，图3的其差异为-Pl的椭圆形的对象，该元素的左眼视图LI相对于该元素的右眼视图Rl向左偏移了的距离)被感知为在屏幕前面。[0062]根据本发明的一些实施例，立体3D视频帧的每个所识别的元素(或者至少一个所识别的元素)的差异被测量和用于创作视觉深度映射。视觉深度映射可以被直接用于创作音频深度映射，或者视觉深度映射可以被偏移和/或缩放并且随后用于创作音频深度映射(以便增强音频效果)。例如，如果视频场景视觉上主要出现在屏幕后面，则视觉深度映射可以被偏移以便将更多音频移动到室内(朝向收听者)。如果3D视频节目仅仅温和地利用深度(即，具有浅深度“等级(bracket)”)，则视觉深度映射可以被放大以便增大音频深度效果。
[0063]在下面示例中，根据立体3D视频节目确定的视觉深度映射D(0，y)限于对应的2D音频节目的L和R扩音器位置(Θ,和θκ)之间的方位角扇区。这个扇区被假设为视觉的观看屏幕的水平跨距(span)。此外，不同的仰角处的D(0，y)值被近似为相同的。因此图像分析的目的是获得:
[0064]D(0，Y) ~D(0)，其中Θ ≤ θκ，
[0065]到图像分析的输入是每对左眼和右眼图像的RGB矩阵，其被可选地针对计算速度向下采样。左边(和右边)的图像的RGB值被变换到Lab颜色空间(或者，接近人类视觉的另一个颜色空间)中。颜色空间变换可以以许多公知的方式被实现并且在此不详细描述。以下描述假设左边图像的经变换的颜色值被处理以便产生所描述的显著度(saliency)和感兴趣区(ROI)值，但是可替代地这些操作可以对右边图像的经变换的颜色值执行。
[0066]假设对于位于水平和垂直坐标(X，y)处的左边图像的每个像素，我们具有矢量
[0067]= 為.y為,J，其中值Lx y是Lab颜色空间明度(lightness)值，并且
值ax，y和bx，y是Lab颜色空间颜色分量值。
[0068]对于左边图像的每个像素，显著度测量值然后被计算为
[0069]S(X, y) = h -1w I + |fa? 一 F11^I + ||r4 - V賴 ||?
[0070]其中符号vAi表示图像的区域Ai内的像素的平均L、a和b值的矢量，并且| I vAi_vn,J I表示区域Ai中的每个像素的平均矢量vAi和矢量Vnni之间的差的平均值(其中指标n和m的范围在对于该区域的相关范围之上)。在典型实施例中，区域Ap A2和A3分别是中心在当前的像素(X，y)处的具有等于左边图像高度的0.25,0.125,0.0625倍的尺寸的正方形区域(因此，每个区域A1是相对大的区域，每个区域A2是中间尺寸的区域，并且每个区域八3是相对小的区域)。每个区域Ai中的像素的每个矢量vnm和平均矢量vAi之间的差的平均值被确定，并且这些平均值被求和以便产生每个值S (X，y)。可以根据视频内容应用区域Ai的尺寸的进一步调整。对于每个像素的L、a和b值可以通过将它们除以对应的帧最大值而被进一步规格化(normalize)，使得规格化值将在显著度测量值S的计算中具有相等的权重。
[0071]基于对于3D帧的左边图像的显著度测量值，然后确定3D图像的感兴趣区(R0I)。典型地，ROI中的像素被确定为左边图像的其中显著度S超过阈值τ的区域中的那些。阈值可以从显著度直方图(histogram)中获得，或者可以根据视频内容被预先确定。实际上，这个步骤用来将(3D视频的帧序列的每个帧的)更静态的背景部分与相同的帧的ROI分离。(该序列中的每个帧的)ROI更可能包括与来自对应音频节目的声音关联的视觉的对象。
[0072]视觉深度D ( Θ )的评估优选地基于左和右灰度(grayscale)图像込和Ik之间的差异计算。在示例性实施例中，对于(3D节目的帧的)ROI中的(坐标(x，y)处的)每个左边图像像素，我们确定左边图像灰度值IJx，y)并且还确定对应的右边图像灰度值IK(x，y)。我们考虑对于包括该像素的像素的水平范围的左边图像灰度值(即，具有与该像素相同的垂直坐标I并且具有从该像素的水平坐标X到坐标X+ δ的范围中的水平坐标的那些左边图像像素，其中S是预定值)。我们还考虑从该像素的水平坐标X偏移了候选的差异值d的水平位置的范围中的右边图像灰度值(换句话说，对应的右边图像的具有与左边图像值相同的垂直坐标y并且具有从左边图像值的偏移的水平坐标χ+d的宽度δ的范围中的水平坐标、即从x+d到X+ δ +d的范围中的X坐标的那些像素)。然后我们计算对于该像素的差异值(使用许多不同的候选的差异值d)为:
[0073]
【权利要求】
1.一种用于产生包括N+M个全范围声道的3D输出音频的方法，其中N和M是正整数，并且N+M个全范围声道意图由包括离收听者不同的距离处的至少两个扬声器的扬声器呈现，所述方法包括如下步骤: (a)提供包括N个全范围声道的N声道输入音频；以及 (b)将输入音频上混以便产生3D输出音频。
2.根据权利要求1所述的方法，还包括如下步骤: (c)提供指示至少一个音频源的离收听者的距离的源深度数据，以及其中步骤(b)包括通过使用源深度数据将N声道输入音频上混以便产生3D输出音频的步骤。
3.根据权利要求2所述的方法，其中N声道输入音频是立体3D视频节目的音轨，并且步骤(c)包括通过包括识别由3D视频节目确定的至少一个视觉图像特征、以及产生指示每个所述视觉图像特征的确定的深度的源深度数据的操作，来产生源深度数据的操作。
4.根据权利要求2所述的方法，其中N声道输入音频是立体3D视频节目的音轨，并且步骤(c)包括通过包括确定指示由3D视频节目确定的至少一个视觉图像特征的深度的深度映射的操作来产生源深度数据的操作。
5.根据权利要求4所述的方法，其中音频源是在收听者处从相对于收听者具有第一方位角和第一仰角的方向入射的由3D输出音频确定的声音的源，视觉图像特征的深度确定音频源离收听者的距离，并且深度映射指示与方位角和仰角有关的音频源离收听者的距离。
6.根据权利要求4所述的方法，其中音频源是在收听者处从相对于收听者具有第一方位角的方向入射的由3D输出音频确定的声音的源，视觉图像特征的深度确定音频源离收听者的距离，并且深度映射指示与方位角有关的音频源离收听者的距离。
7.根据权利要求2所述的方法，其中步骤(c)包括根据N声道输入音频产生源深度数据的步骤。
8.根据权利要求2所述的方法，其中N声道输入音频是立体3D视频节目的音轨，并且步骤(c)包括根据立体3D视频节目以自动的方式产生源深度数据的步骤。
9.根据权利要求8所述的方法，其中步骤(b)以自动的方式被执行。
10.根据权利要求8所述的方法，其中立体3D视频节目包括标题和/或字幕深度元数据，并且步骤(C)包括根据标题和/或字幕深度元数据以自动的方式产生源深度数据的步骤。
11.根据权利要求2所述的方法，其中步骤(c)包括根据N声道输入音频以自动的方式产生源深度数据的步骤。
12.根据权利要求11所述的方法，其中步骤(b)以自动的方式被执行。
13.根据权利要求1所述的方法，其中N声道输入音频是2D音频节目。
14.根据权利要求1所述的方法，其中N声道输入音频是2D音频节目，并且2D音频节目的N个全范围声道意图由离收听者标称等距的N个扬声器呈现。
15.根据权利要求1所述的方法，其中3D输出音频是3D音频节目，并且3D音频节目的N+M个全范围声道包括要由离收听者标称等距的N个主扬声器呈现的N个声道以及意图由额外的扬声器呈现的M个声道，额外的扬声器中的每一个被放置为比主扬声器更接近或者远离收听者。
16.一种用于自动产生包括N+M个全范围声道的3D输出音频的方法，其中N和M是正整数，并且N+M个全范围声道意图由包括在离收听者不同的距离处的至少两个扬声器的扬声器呈现，所述方法包括如下步骤: (a)提供包括N个全范围声道的N声道输入音频；以及 (b)响应于输入音频以自动的方式产生3D输出音频。
17.根据权利要求16所述的方法，还包括如下步骤: (c)提供指示至少一个音频源的离收听者的距离的源深度数据，以及其中步骤(b)包括通过使用源深度数据将N声道输入音频上混以便产生3D输出音频的步骤。
18. 根据权利要求17所述的方法，其中N声道输入音频是立体3D视频节目的音轨，并且步骤(c)包括产生源深度数据的操作，所述操作包括识别由3D视频节目确定的至少一个视觉图像特征、以及产生指示每个所述视觉图像特征的确定的深度的源深度数据。
19.根据权利要求17所述的方法，其中N声道输入音频是立体3D视频节目的音轨，并且步骤(c)包括产生源深度数据的操作，所述操作包括确定指示由3D视频节目确定的至少一个视觉图像特征的深度的深度映射。
20.根据权利要求19所述的方法，其中音频源是在收听者处从相对于收听者具有第一方位角和第一仰角的方向入射的由3D输出音频确定的声音的源，视觉图像特征的深度确定音频源离收听者的距离，并且深度映射指示与方位角和仰角有关的音频源离收听者的距离。
21.根据权利要求19所述的方法，其中音频源是在收听者处从相对于收听者具有第一方位角的方向入射的由3D输出音频确定的声音的源，视觉图像特征的深度确定音频源离收听者的距离，并且深度映射指示与方位角有关的音频源离收听者的距离。
22.根据权利要求17所述的方法，其中步骤(c)包括根据N声道输入音频产生源深度数据的步骤。
23.根据权利要求17所述的方法，其中N声道输入音频是立体3D视频节目的音轨，并且步骤(c)包括根据立体3D视频节目以自动的方式产生源深度数据的步骤。
24.根据权利要求17所述的方法，其中步骤(c)包括根据N声道输入音频以自动的方式产生源深度数据的步骤。
25.根据权利要求16所述的方法，其中N声道输入音频是2D音频节目。
26.根据权利要求16所述的方法，其中N声道输入音频是2D音频节目，并且2D音频节目的N个全范围声道意图由离收听者标称等距的N个扬声器呈现。
27.根据权利要求16所述的方法，其中3D输出音频是3D音频节目，并且3D音频节目的N+M个全范围声道包括要由离收听者标称等距的N个主扬声器呈现的N个声道以及意图由额外的扬声器呈现的M个声道，额外的扬声器中的每一个被放置为比主扬声器更接近或者远离收听者。
28.—种包括处理器的系统，该处理器被耦接以接收指示包括N个全范围声道的N声道输入音频的输入数据，其中处理器被配置为通过以使得将输入音频上混并且使得输出数据指示包括N+M个全范围声道的3D音频的方式处理输入数据，来产生输出数据，其中N和M是正整数，并且N+M个全范围声道意图由包括在离收听者不同的距离处的至少两个扬声器的扬声器呈现。
29.根据权利要求28所述的系统，其中处理器被配置为处理输入数据和源深度数据以便产生输出数据，其中源深度数据指示至少一个音频源的离收听者的距离。
30.根据权利要求29所述的系统，其中N声道输入音频是立体3D视频节目的音轨，并且处理器被配置为包括通过识别由3D视频节目确定的至少一个视觉图像特征、以及产生指示每个所述视觉图像特征的确定的深度的源深度数据，来产生源深度数据。
31.根据权利要求29所述的系统，其中N声道输入音频是立体3D视频节目的音轨，输入数据指示立体3D视频节目，并且处理器被配置为包括通过确定指示由3D视频节目确定的至少一个视觉图像特征的深度的深度映射来产生源深度数据。
32.根据权利要求31所述的系统，其中音频源是在收听者处从相对于收听者具有第一方位角和第一仰角的方向入射的由3D音频确定的声音的源，视觉图像特征的深度确定音频源离收听者的距离，并且深度映射指示与方位角和仰角有关的音频源离收听者的距离。
33.根据权利要求31所述的系统，其中音频源是在收听者处从相对于收听者具有第一方位角和第一仰角的方向入射的由3D音频确定的声音的源，视觉图像特征的深度确定音频源离收听者的距离，并且深度映射指示与方位角和仰角有关的音频源离收听者的距离。
34.根据权利要求29所述的系统，其中处理器被配置为根据输入数据产生源深度数据。
35.根据权利要求28所述的系统，其中N声道输入音频是2D音频节目。
36.根据权利要求28所述的系统，其中N声道输入音频是2D音频节目，并且2D音频节目的N个全范围声道意图由离收听者标称等距的N个扬声器呈现。
37.根据权利要求28所述的系统，其中3D音频是3D音频节目，并且3D音频节目的N+M个全范围声道包括要由离收听者标称等距的N个主扬声器呈现的N个声道以及意图由额外的扬声器呈现的M个声道，额外的扬声器中的每一个被放置为比主扬声器更接近或者远离收听者。
38.根据权利要求28所述的系统，其中所述系统是音频数字信号处理器。
39.根据权利要求28所述的系统，其中处理器是已经被编程以响应于输入数据产生输出数据的通用处理器。
【文档编号】H04S5/00GK103493513SQ201280019361
【公开日】2014年1月1日申请日期:2012年4月5日优先权日:2011年4月18日
【发明者】N·R·茨恩高斯, C·Q·鲁宾逊, C·查巴尼, T·赫冯恩, P·格里菲思申请人:杜比实验室特许公司, 杜比国际公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：N·R·茨恩高斯;C·Q·鲁宾逊;C·查巴尼;T·赫冯恩;P·格里菲思
技术所有人：杜比实验室特许公司;杜比国际公司
我是此专利的发明人

上一篇：声波发射装置制造方法
上一篇：编码装置和编码方法以及解码装置和解码方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。