视频内容协助的音频对象提取的制作方法

文档序号：10625467阅读：248来源：国知局

视频内容协助的音频对象提取的制作方法
【专利摘要】本发明的实施例涉及视频内容协助的音频对象提取。公开了一种从基于声道的音频内容中提取音频对象的方法。该方法包括从与基于声道的音频内容相关联的视频内容中提取至少一个视频对象，并且确定与至少一个视频对象有关的信息。该方法进一步包括基于所确定的信息，从基于声道的音频内容中提取音频对象，该音频对象要被呈现为上混音音频信号。还公开了相应的系统和计算机程序产品。
【专利说明】
视频内容协助的首频对象提取
技术领域
[0001] 本发明的实施例总体上设及音频内容处理，并且更具体地，设及视频内容协助的音频对象提取的方法和系统。
【背景技术】
[0002] 传统上，音频内容W基于声道（channel based)的格式被创建和存储。在此使用的术语"音频声道"或"声道"是指通常具有预定义物理位置的音频内容。例如，立体声、环绕5. 1、环绕7. 1等都是用于音频内容的基于声道的格式。近来，随着多媒体工业的发展， Ξ维（3D)音频内容在影院和家庭中都变得越来越流行。为了创建更具沉浸感的声场W及准确地控制离散的音频元素而无需受制于特定的回放扬声器配置，很多传统的播放系统需要被扩展为支持一种新型音频格式，运种格式包括音频声道和音频对象（audio object)二者。
[0003] 在此使用的术语"音频对象"是指在声场中存在特定持续时间的个体音频元素。一个音频对象可W是动态的也可W是静态的。例如，音频对象可W是在声场中充当声源的人、动物或者任何其他物体。可选地，音频对象还可W具有关联的元数据，诸如用于描述对象的位置、速度、大小等方面的信息。音频对象的使用使得音频内容具有很高的沉浸感的听觉体验，并且允许混音师等操作者方便地控制和调整音频对象。在传输期间，音频对象和声道可W被分开发送，继而由重现系统动态使用，W基于回放扬声器的配置来自适应地重建创作意图（artistic intention)。作为示例，在被称为"自适应音频内容"（adaptive audio content)或者"上混音音频信号"（upmixed audio si即al)的格式中，可W存在一个或多个音频对象W及一个或多个"静态环境声"(audio bed)。在此使用的术语"静态环境声"或简称"环境声"是指将在预定义的固定位置被回放的声音的音频声道。
[0004] 一般而言，基于对象的音频内容W明显不同于基于声道的传统音频内容的方式被生成。尽管基于对象的新型格式允许在音频对象的辅助下创建更具沉浸感的听觉体验，但是在影音产业中（例如在声音的创建、分发和使用的产业链中）占据主导地位的仍然是基于声道的音频格式，特别是最后混音的音频格式。因此，对于传统基于声道的音频内容，为了能够为终端用户提供音频对象所提供的类似沉浸体验，需要从传统的基于声道的内容中提取音频对象。

【发明内容】

[0005] 为了解决上述问题和其他潜在的问题，本发明提出一种从基于声道的音频内容中提取音频对象的方法和系统。
[0006] 在一个方面，本发明的实施例提供一种从基于声道的音频内容中提取音频对象的方法。该方法包括从与基于声道的音频内容相关联的视频内容中提取至少一个视频对象，并且确定与至少一个视频对象有关的信息。该方法进一步包括基于所确定的信息，从基于声道的音频内容中提取音频对象，该音频对象要被呈现为上混音音频信号。运方面的实施例还包括相应的计算机程序产品。
[0007] 在另一方面，本发明的实施例提供一种从基于声道的音频内容中提取音频对象的系统。该系统包括视频对象提取单元，被配置为从与基于声道的音频内容相关联的视频内容中提取至少一个视频对象，W及信息确定单元，被配置为确定与至少一个视频对象有关的信息。该系统进一步包括音频对象提取单元，被配置为基于所确定的信息，从基于声道的音频内容中提取音频对象，该音频对象要被呈现为上混音音频信号。
[0008] 通过下文描述将会理解，根据本发明的实施例，首先从与基于声道的音频内容相对准的视频内容中提取视频对象，并且然后与视频对象有关的信息被用于从基于声道的音频内容中提取音频对象。所提取的音频对象能够被用于呈现为上混音音频信号。利用补充的基于视频对象的信息的协助，音频对象提取的性能能够得到提升。本发明的实施例所带来的其他益处将通过下文描述而清楚。
【附图说明】
[0009] 通过参考附图阅读下文的详细描述，本发明实施例的上述W及其他目的、特征和优点将变得易于理解。在附图中，W示例而非限制性的方式示出了本发明的若干实施例，其中：
[0010] 图1示出了根据本发明的一个示例实施例的视频内容协助地从音频内容中提取音频对象的框架的框图；
[0011] 图2示出了根据本发明的一个示例实施例的视频内容协助地从音频内容中提取音频对象的方法的流程图；
[0012] 图3示出了根据本发明的一个示例实施例的图1的框架中的基于视频对象的信息提取器的框图；
[0013] 图4示出了根据本发明的一个示例实施例的一般性的空间视听环境的示意图；
[0014] 图5示意性示出了根据本发明的一个示例实施例的图3的基于视频对象的信息提取器中的音频模板生成器的框图；
[0015] 图6示出了根据本发明的另一个示例实施例的视频内容协助地从音频内容中提取音频对象的框架的框图；
[0016] 图7示出了根据本发明的一个示例实施例的视频内容协助地从音频内容中提取音频对象的系统的框图；W及
[0017] 图8示出了适于实现本发明的示例实施例的示例计算机系统的框图。阳01引在各个附图中，相同或对应的标号表示相同或对应的部分。
【具体实施方式】
[0019] 下面将参考附图中示出的若干示例实施例来描述本发明的原理。应当理解，描述运些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非W任何方式限制本发明的范围。
[0020] 如W上所提及的，期望从传统的基于声道格式的音频内容中提取音频对象。由于在音频混音的过程中，音频混音师常常将不同的声音源混合到与视频内容对准的基于声道的音频内容中，视频内容可W用于协助音频对象提取，例如通过视频内容中的补充的对象信息。另一方面，尽管各种音频对象一起被混合在一个维度的音频内容信号中，对应的可视对象（视频对象）在二维的视频内容信号中可能是分离的。因此，分离的视频对象的信息可W被用于提高在音频对象提取系统中的经过混音的音频对象的提取。此外，通过基于视频对象的信息来提取音频对象可W进一步提高听觉体验，因为已经证明了音频和视频内容的紧密对准可W创建更具沉浸感的听觉体验，而音频和视频内容之间的不对准可能导致听众的某种混淆。
[0021] 有鉴于此，本发明的实施例提出了用于视频内容协助地从音频内容中提取音频对象的技术方案。图1中示出了根据本发明的一个示例实施例的视频内容协助地从音频内容中提取音频对象的框架100。与基于声道的音频内容对准的视频内容在基于视频对象的信息提取器101中被处理W获得基于视频对象的信息。该信息可W被用作音频对象提取的协助信息并且然后被提供至音频对象提取器102。音频对象提取器102根据基于视频对象的信息来对输入的音频内容应用音频对象提取。在音频对象提取的过程中，可W从音频内容中提取一个或多个音频对象，并且音频内容中除了音频对象信号之外的其余音频可W被视作残留信号。而且，还可W由音频对象提取器102根据基于视频对象的信息来估计与所提取的音频对象相关联的元数据。通过使用音频对象元数据，所提取的音频对象然后与残留信号一起可W被用于呈现为上混音音频信号。在呈现时，残留信号可W被呈现为静态环境声。在所提出的解决方案中，基于视频对象的信息可用于提高音频对象提取的性能。
[0022] 现在参照图2,其示出了根据本发明的一个示例实施例的视频内容协助地从音频内容中提取音频对象的方法200的流程图。输入的音频内容可W具有基于多个声道或单个声道的格式。例如，输入的音频内容可W符合单声道、立体声、环绕5.1、环绕7.1等。输入的音频内容还可W与对应的视频内容相关联。也就是说，音频内容与视频内容相对准。例如，音频内容和视频内容可W被包括在多媒体内容中。通过分离该多媒体内容，可W获得音频内容W及对应的视频内容。
[0023] 在S201，从与基于声道的音频内容相关联的视频内容中提取至少一个视频对象。
[0024] 由于视频内容与基于声道的音频内容相对准，包含在视频内容中的视频对象也可 W与音频内容中的音频对象相对准。视频对象可W是在视频帖中存在特定持续时间的对象。例如，在视频帖中存在的直升机可W是视频对象。与从视频内容中提取的视频对象有关的信息可W用于协助针对每一帖或者针对每个时间戳的音频对象提取。阳0巧]为了确定基于视频对象的信息，可W首先处理视频内容W提取视频对象。视频内容可视频帖为单位。在一个实施例中，可W从视频内容的视频帖中提取视频对象。注意到，可W从视频帖中提取多于一个的视频对象，并且要被处理的视频帖的数量可W是一个或多个。本发明的范围在此方面不受限制。
[0026] 期望仅提取发出声音的视频对象，运可能导致处理的复杂度。此外，从视频内容中提取具有精确边界的所有视频对象可能也是具有挑战性的。在本发明的实施例中，为了协助音频对象提取而不明显增加处理的复杂度的目的，视频对象提取可W是较不精确的。也就是说，对于视频对象提取的精度没有严格的要求。例如，在视频帖的图像中具有类似颜色或纹理的区域可W被粗略地认为是视频对象。已经存在用于视频对象划分/追踪目的的各种技术和算法。在一个示例中，视频对象提取可W主要基于对象的空间一致性。基于空间一致性的视频对象提取的示例过程可W具有W下步骤：
[0027] ?使用形态滤波器来简单化视频帖的图像，W便减少后续处理的噪声分布；
[0028] ?对图像应用分水岭算法W便决定区域边界，并且将一个或多个区域合并在一起 W避免可能的过度分割；
[0029] ?通过某个运动估计方法、诸如最睹下降或分层块匹配的方法，计算每个区域的运动矢量；W及
[0030] ?将具有相似运动的区域合并在一起，W形成视频对象区域，并且估计每个视频对象的运动矢量。
[0031] 注意到，存在许多其他视频对象提取的方法，并且本发明的范围在此方面不受限制。
[0032] 在S202,确定与至少一个视频对象有关的信息。
[0033] 该信息（也被称为基于视频对象的信息）可W指示与所提取的视频对象有关的信息。基于视频对象的信息可W通过分析所提取的视频对象来确定，并且可W包括W下各项中的一项或多项：视频对象的位置、音频模板、尺寸W及数量。位置信息可W指示所提取的视频对象在听觉环境中的位置，在该听觉环境中，与该视频对象相对应的音频对象可W被呈现。音频模板可W指示基于所提取的视频对象的类型而从音频模板数据库中选择的预定义的音频。所提取的视频对象的数量也可W用于音频对象提取。基于视频对象的信息可W 包括与视频对象有关的其他信息，诸如视频对象的类型、视频对象在时间上的运动等，并且本发明的范围在此方面不受限制。基于视频对象的信息的确定将在W下详细描述。
[0034] 参照图3,示出了根据本发明的一个实施例的基于视频对象的信息提取器101的框图。通过处理输入的视频内容，基于视频对象的信息提取器101可W输出基于视频对象的信息。具体地，被包括在基于视频对象的信息提取器101中的视频对象提取器301可W 对输入的视频内容执行视频对象提取，W获得一个或多个视频对象。所提取的视频对象然后可W被提供至对应的基于视频对象的信息处理单元。如图3所示出的，被包括在基于视频对象的信息提取器101中的位置信息估计器302可W用于估计视频对象的位置信息。音频模板生成器303可W用于生成视频对象的音频模板。尺寸信息估计器304可W估计视频对象的尺寸信息，并且视频对象数量估计器305可W用于确定所提取的（多个）视频对象的数量。注意到，基于视频对象的信息处理单元302-305仅被示出为示例。基于视频对象的信息提取器101可W包括比运些处理单元302-305更多或更少的处理单元。
[0035] 一些其他示例实施例中，基于视频对象的信息可W通过许多其它的方式来确定，例如通过用户输入。在一些示例中，在具有或不具有视频对象提取的情况下，可W由用户配置被包含在视频内容中的视频对象的数量、每个视频对象的类型、尺寸或者甚至每个视频对象的音频模板。
[0036] 方法200行进至S203,其中基于所确定的信息，从基于声道的音频内容中提取要被呈现为上混音音频信号的音频对象。
[0037] 在音频对象提取时，可W从音频内容中提取一个或多个音频对象。音频内容中除了音频对象信号之外的其余音频可W被认为是残留信号。所提取的音频对象可W用于在后续处理中与残留信号一起被呈现为上混音音频信号。
[0038] 根据本发明的实施例，为了提高音频对象提取的性能，例如，为了增加所提取的音频对象信号的精确度，可W利用基于视频对象的信息来协助音频对象提取。可多种方式来根据基于视频对象的信息提高音频对象提取。例如，取决于视频对象提取的精确水平 W及所提取的视频对象与音频对象的对准置信度，该信息可W是特定于对象的，或者可W 不是特定于对象的。如果该信息不是特定于对象的（诸如，视频对象的数量），可W应用一些一般性的方法，诸如调谐音频对象提取的积极度（aggressiveness), W改进音频对象提取。在一些其他情况下，如果可获得特定于对象的信息（诸如，被认为对应于一个音频对象的特定视频对象的位置），可W应用更加具体的方法，例如通过将该视频对象的位置用作在音频对象提取中该音频对象的参考位置。
[0039] W下将更详细描述具有基于视频对象的信息协助的音频对象提取。
[0040] 在下文中，将描述一些类型的基于视频对象的信息的确定。
[0041] 位置信息估计
[0042] 可W在图3中示出的位置信息估计器302中执行位置信息估计。
[0043] 在估计视频对象在视频帖中的位置时，可W确定视频对象在视频帖的图像中的二维（2D)位置和深度。基于所提取的视频对象在视频帖的图像中的区域，可W在视频场景中估计二维位置和深度0(y，Zy，Dy)的信息。在此，0(y，Zy)表示视频对象在图像中的2D位置，并且Dv表示视频对象的深度。 W44] 在一个示例中，视频帖的图像的左下角的位置可W被定义为〇?= 0, Zy= 0)，并且图像的右上角的位置可W被定义为θ?= l，Zy= 1)。视频对象的2D位置狂y，Zy)然后可W被确定为视频对象区域在视频帖的图像中的质屯、位置。
[0045] 可W使用若干深度估计算法来获得视频对象深度。对于2D视频内容，可W基于例如纹理梯度、视频的图像结构等来估计对象深度信息。对于Ξ维（3D)视频内容，在利用了深度映射的某些格式中已经可获得视频对象深度。对于不具有深度信息的3D视频格式，与用于2D视频内容的深度估计类似的方法可W用于重构3D视频内容的深度。
[0046] 为了利用视频对象位置来协助后续的音频对象提取，2D位置和深度戊，Zy，Dy)的信息可W被映射到听觉环境的3D空间中，W获得视频对象的3D位置信息（Xy，Yy，Zy)。3D 空间可W是音频场景，诸如所提取的音频对象要在其中被呈现的3D空间听觉环境。位置信息（Xy，Yy)可W指示视频对象在视频内容将被显示的屏幕平面中的位置。典型的示例是在前方墙壁上具有屏幕的电影室或剧院，其中视频对象可W被显示在2D屏幕上，并且听觉环境是具有环绕扬声器的3D房间。3D空间听觉环境可W被简单化为具有边长等于1的正方形房间，并且屏幕在y = 0的前方墙壁上，该正方形房间如图4所示。在一个实施例中，2D 位置和深度Ο?，Zy，的）可^通过映射函数而被映射到3D空间中的位置，运被表示为如下：阳047] (Xv，Υν，Zv) = fv - Α(Χν，Zv，Dv) (1)
[0048] 其中映射函数可W基于各种使用情况而被定义，例如基于听者在正方形房间中的物理位置。在一些实施例中，针对相应的坐标轴的映射函数还可W是不同的。 W例在一个示例中，假设听者坐在房间的中间，位置是（X，y，Z) = (0. 5,0. 5,0)，可W 利用W下映射函数将视频对象映射到房间的前半部分[oaLy^e [0,0.5]，Zye [0， 1])：阳0加 ]χν= f χΟ?，z^Dv) = Xv 阳051] γν= f γΟ?，Dv) = f〇-y(Dv) (2)
[ο 化 2] Zy= f ζ (Χν，Zy, Dy) = Zy
[0053] 其中视频对象在视频场景中的X坐标和Y坐标等于在音频场景中的X坐标和z坐标，并且视频对象的深度通过映射函数被映射到音频场景中的y坐标。在一些情况下，随着深度的的增加，听者与视频对象之间的距离也增加，并且视频对象在3D听觉环境中的y、数值更小。例如，如果视频对象的深度是零，y、可W是0.5。从听者在房间中的位置来看，视频对象是接近的。随着深度的数值增加，y、可W减少到零。视频对象远离听者。因此，可W使用随着深度的增加而单调地减小并且将深度映射到[0,0.引的任何函数。 fD^yO的一个简单示例在W下被给出：
[0054]
(3) 阳化引其中-yO是具有参数曰D和b D的S函数（sigmoid function)。典型地，参数a D 可W是正的，因此y、随着深度的增加而单调地减小。
[0056] 在W上描述中，描述了将视频对象在视频场景中的位置映射到音频场景的一个示例。注意到，可W使用许多其他的映射函数，只要在3D空间中的位置取决于Xy、Zy、的中的一个或多个的数值。对于每个提取的视频对象，可W据此估计各自的位置信息。
[0057] 音频模板生成
[0058] 可W在图3中示出的音频模板生成器303中执行音频模板生成。
[0059] 在多媒体内容创建阶段，具体地在电影工厂中，许多音频源可能来自音频对象模板数据库。例如，当音频混音师想要将直升机的声音添加到针对视频场景中的直升机的多声道音频中时，可W从音频对象模板数据库中选择直升机音频对象之一，并且然后将其混音到多声道内容中。因此，视频对象的预定义的音频模板可W被用作音频对象提取期间的参考信号，从而提高音频对象提取的性能。
[0060] 通常来说，音频混音师可W基于视频对象的类型来选择视频对象的音频模板。例如，对于直升机，对应的直升机声音可能被混音，并且对于机动车辆，对应的轰鸣声可能被混音。因此，为了标识视频对象的音频模板，在一些实施例中，所提取的视频对象可W与预定义的视频模板相比较，W标识视频对象的类型（诸如直升机、鸟、狗、汽车等）。预定义的视频模板可W来自视频对象模板数据库。可W应用视频对象识别技术来标识视频对象的类型。然后，基于视频对象的类型，可W从预定义的音频模板中确定视频对象的音频模板。具体地，可W通过从音频对象模板数据库中捜索具有特定类型的音频对象，来获得音频模板。注意到，对于每个提取的视频对象，可W据此确定各自的音频模板。在一些情况下，所提取的音频对象中的一些音频对象可能不对应于任何音频模板。
[0061] 图5中示出了根据本发明的一个实施例的音频模板生成器303的框图。被包括在音频模板生成器303中的视频对象识别器501可W通过使用视频对象识别技术，将输入的视频对象与视频对象模板数据库502中的视频对象模板进行比较，从而标识输入的视频对象的类型。视频对象识别器501然后可W将所标识的对象类型提供至音频模板选择器503。基于对象类型，音频模板选择器503可W针对输入的视频对象对应的音频模板而捜索音频对象模板数据库504。
[0062] 尺寸信息估计
[0063] 可W在图3中示出的尺寸信息估计器304中执行尺寸信息估计。
[0064] 可W通过视频对象区域在视频帖的图像中的尺寸来估计视频对象的尺寸。在一些实施例中，可W首先确定视频对象在视频帖的图像中的面积，并且然后基于视频对象的面积来确定视频对象的尺寸信息。注意到，对于每个提取的视频对象，可W据此确定各自的尺寸信息。例如，可W使用映射函数来将视频对象在图像中的面积映射到视频对象的尺寸。视频对象的尺寸可W与对象面积的尺寸正相关，其可W被表示为如下：
[0065]
(4)
[0066] 其中sbcK.表示视频对象区域在图像中的尺寸，size、表示视频对象的尺寸，并且 fuwvO表示单调增加函数。
[0067] 视频对象数量估计
[0068] 可W在图3中示出的视频对象数量估计器305中执行视频对象数量估计。
[0069] 基于视频对象提取的结果，可W据此获得所提取的视频对象的数量（也被称为视频对象数量）Ny。在一个实施例中，视频对象数量可W等于视频对象区域的数量。在一些其他实施例中，表示沉默对象的对象区域可W不被计数为视频对象，诸如建筑物、桌子、书本 AfrAfr 寸寸〇
[0070] 在下文中，将描述具有基于视频对象的信息协助的音频对象提取。如W上所提及的，基于（多个）视频对象的信息、诸如视频对象的位置信息、尺寸信息、音频模板或（多个）视频对象的数量，可W被用作音频对象提取中的补充信息。
[0071] 在一些实施例中，可W在音频对象提取中利用（多个）视频对象的位置。
[0072] 在多声道音频内容创建阶段，内容创建者（音频混音师）可W基于音频对象的位置/方向而将音频对象平移（pan)至多个声道。在多数多声道音频对象提取方法中，音频对象的平移位置/方向是正确提取音频对象的关键。因此，根据视频内容估计的位置信息可W被用作音频对象提取期间的参考音频对象位置。当获得多个视频对象的位置时，所获得的位置中的一些或所有可W被用在音频对象提取中。
[0073] 例如，在音频对象提取中使用的典型模型可W被表示为：
[0074] X = AS+b 妨
[0075] 其中X表示音频内容信号（所观察到的混音信号），S表示要被提取的音频对象信号，A表示混音矩阵（平移矩阵），该混音矩阵包含用于将音频对象平移到音频内容信号的平移增益，并且b表示包含环境音和残留噪声的残留信号。
[0076] 在盲音频对象提取方法、诸如独立成分分析（independent component analysis， ICA)或非负矩阵分解（non-negative matrix facto;rization，NMF)中，给定所观察到的混音信号，可W通过最小化成本函数来联合地估计音频对象信号W及混音矩阵。在许多情况下，混音矩阵的适当初始化是避免结果落入局部最优而不是全局最优的关键。
[0077] 因此，如果位置信息被用作音频对象提取中的参考音频对象位置，在一个实施例中，可W基于所提取的（多个）视频对象的位置信息来确定音频对象提取的混音矩阵。然后可W基于混音矩阵来从音频内容中提取音频对象。在一个示例中，位置信息可W被用来初始化混音矩阵。在另一个示例中，可W基于位置信息来确定混音矩阵的一部分或全部。
[0078] 由于视频对象的位置信息表示相对准的音频对象在其中要被呈现的3D听觉环境中的位置，而混音矩阵表示音频对象到多个声道的平移增益，因此位置信息可W被映射到混音矩阵中的平移增益。
[0079] 具有视频对象的位置信息的协助，盲音频对象提取可W变成半监督的音频对象提取，并且因为混音矩阵被视频对象位置更好地初始化，所W可W获得更好的提取结果。
[0080] 在一些实施例中，可W在音频对象提取中利用（多个）视频对象的音频模板。
[0081] 如W上所讨论的，音频混音师可W针对所提取的视频对象的类型，从音频对象模板数据库中选择音频模板。因此，在一个实施例中，视频对象的音频模板可W被用来确定用于音频对象提取的公式巧）中示出的模型中的音频对象信号。视频对象的音频模板可W被确定为音频对象参考信号。然后，可W基于音频对象参考信号来从音频内容中提取音频对象。当获得多个视频对象的音频模板时，运些音频模板中的一个或全部音频模板可W在音频对象提取中被使用。
[0082] 在典型的相关度分析的实施例中，基于由视频对象的音频模板所表示的音频对象参考信号，可W从音频内容中提取与该参考信号高度相关的音频信号。所提取的音频信号可W被视作与视频对象相对应的音频对象。
[0083] 如W上所描述的，在盲音频对象提取中，应当联合地估计音频对象信号S和混音矩阵A。在半监督的音频对象提取的另一个实施例中，由视频对象的音频模板表示的音频对象参考信号可W被用作音频对象信号S的一部分或者全部，或者被用来初始化音频对象信号S。因此，由于通过音频模板来更好地初始化或确定音频对象信号，可W获得更好的提取结果。
[0084] 当利用视频对象的音频模板时，由于在视频对象的音频模板与音频内容中的音频对象之间可能存在一些时间尺度的差异，可W使用一些动态的对准方法、诸如动态时间规整值ynamic Time Wa巧ing)来将音频模板与混音的多声道音频内容相对准。
[00化]在一些其他实施例中，可W在音频对象提取中利用所提取的视频对象的数量。
[0086] 在音频内容中，音频对象的数量可能随着时间变化，运意味着在一些情况下可能存在许多音频对象，而在一些情况下可能不存在音频对象或者仅存在若干音频对象。因此，为了更好地从音频内容中提取音频对象，可能需要与视频对象的数量有关的信息来改变音频对象提取的积极度或者要被提取的音频对象的数量。尽管存在仅基于音频内容来自动地估计音频对象数量的一些算法，但是基于视频内容来估计音频对象数量可能对于改善音频对象提取而言更有价值，特别是对于被混音在音频内容中的音频对象在视频内容中完全分离的情况而言。
[0087] 在一个实施例中，要被提取的音频对象的数量是音频对象提取的输入参数。该数量可W基于所提取的视频对象的数量来确定。例如，要被提取的音频对象的数量可W与所提取的视频对象的数量正相关。在其中视频对象与音频对象相对准是高度置信的一些实施例中，视频对象的数量可W被直接地用作要被提取的音频对象的数量。
[0088] 在一些实施例中，视频对象数量可W用来修改音频对象提取的积极度。也就是说，如果存在较少的视频对象，音频对象提取可W是更保守的，并且如果存在许多视频对象，那么音频对象提取将是更积极的。如W上所讨论的，在音频对象提取中，可W提取音频对象W 及残留信号。在运些实施例中，视频对象的数量可W被用来修改所提取的音频对象的部分和残留信号的部分。首先可W基于视频对象的数量来确定用于音频对象提取的增益，并且然后可W在音频对象提取之后使用该增益来修改所提取的音频对象信号。
[0089] 该增益可W被应用于所提取的音频对象，W修改音频对象信号的部分，并且该增益可w基于视频对象数量来确定，其可w被表示为：
[0090] g = fg(Nv) (6)
[0091] 其中Ny表示视频对象数量，fgO表示将视频对象数量映射到增益g的单调增加函数。该增益可W在0到1的范围中。因此，如果存在许多视频对象，音频对象提取可W较有积极性，增益接近于1。如果存在较少的视频对象，音频对象提取可W是保守的，增益接近于 0。
[0092] 注意到，也可W备选地基于视频对象数量来确定被应用于残留信号的增益。在运种情况下，增益可W随着视频对象数量的增加而单调地减小。
[0093] 图6示出了根据本发明的一个示例实施例的用于视频内容协助地从音频内容中提取音频对象的扩展框架200的框图。框架200可W基于图1中示出的框架100。基于视频对象的信息提取器101可W从视频内容中提取视频对象数量，W协助音频对象提取。增益计算器103通过映射函数来基于视频对象数量计算用于音频对象提取的增益g。音频对象提取器102可W处理输入的音频内容并且从音频内容中分离音频对象和残留部分。所确定的增益g可W在音频对象修改器104中被应用到音频对象信号。基于增益g，由音频对象修改器104输出的所提取的音频对象的一部分可W被认为是相应的音频对象。剩余部分可 W被增加到来自音频对象提取器102的残留部分中，W被认为是残留信号。
[0094] 在一些其他实施例中，在音频对象提取期间，还可W从音频内容中确定所提取的音频对象的元数据。元数据可W包括与所提取的音频对象有关的信息，诸如描述音频对象的位置、速度和尺寸的信息。
[0095] 由于音频混音师可能总是基于视频内容而将多个音频对象混音在一起，视频对象的信息与音频对象的实际混音元数据之间存在相关性。因此，在一些其他实施例中，基于视频对象的信息、诸如视频对象的位置信息、尺寸信息、视频对象数量、音频模板、类型等可W 协助音频对象提取期间的元数据估计。基于视频对象的信息可W用于修改在音频对象提取时获得的元数据，W便提高所提取的元数据的准确度。
[0096] 由于元数据与相应的所提取的音频对象相关联，并且协助的信息（基于视频对象的信息）是从相应的视频对象获得的，为了在元数据估计时更好地利用基于视频对象的信息，可W首先创建音频对象与视频对象之间的对准。为了避免使用不对准的视频对象的信息，可W从所提取的视频对象和音频对象中确定具有高的对准置信度的视频和音频对象的配对。假设存在N个提取的视频对象和Μ个提取的音频对象，可W获得具有高的对准置信度的视频和音频对象的Κ化《Ν并且Κ《Μ)个配对。可W通过视频对象与音频对象之间的相关度/相干度来衡量对准置信度。在一个实施例中，可W计算音频对象与相应的视频对象之间的相关度。可W基于所计算的相关度来确定与音频对象相对准的视频对象。例如，可W在所有提取的视频对象中确定与一个音频对象具有最高的相关度的视频对象。可W基于所对准的视频对象的信息，诸如位置信息、尺寸信息和音频模板，来修改该音频对象的元数据。
[0097] 在一些实施例中，视频对象与音频对象之间的相关度可W基于视频对象的位置信息与音频对象的元数据中的位置信息之间的距离。音频对象的元数据中的位置信息可W仅根据音频内容来估计。如果视频对象的位置的改变与音频对象的元数据中的位置信息的改变一致，那么该视频对象与该音频对象具有高的相关度。在一个示例中，相关度与视频对象与音频对象之间的距离负相关，运可w被表示为：阳09引 Cav= f "St - cor(dist(Pa，Pv)) (7)
[0099] 其中Cw表示视频对象与音频对象之间的相关度，dist (p。，py)表示视频对象的位置与仅根据音频内容而估计的音频对象的位置之间的距离，并且表示单调减小函数。
[0100] 备选地或附加地，视频对象与音频对象之间的相关度可W基于视频对象的音频模板与音频对象之间的相似度。在一个示例中，相关度和视频对象的音频模板与音频对象之间的相似度是正相关的，其可W被表示为：阳 W] Cav= f sim - cor(Sim(Sa，Sv)) (8) 阳102] 其中Cw表示视频对象与音频对象之间的相关度，sim(s。，Sy)表示视频对象的音频模板与音频对象之间的相似度，并且表示单调增加函数。阳103] 在一些实施例中，可W基于所对准的视频对象的位置来修改所提取的音频对象的位置。阳104] 元数据中的音频对象的位置可W用于音频对象的后续呈现。在一些实施例中，音频对象的位置可W包括音频内容的2D扬声器布局平面、诸如地平面中的2D位置（X。，y。)。音频对象的位置还可W包括高度信息（Z。)。该位置然后可W被表示在音频对象被呈现的3D 空间中。
[0105] 音频对象的2D位置（X。，y。）可W基于视频对象的2D位置成，y、）来修改。在一个示例中，音频对象位置和视频对象位置可W被如下地线性组合：阳 106] Xa' = aXa+(l-曰）Xv 阳 107] (9) 阳刪 y。' = aya+α-曰）yv
[0109] 其中X。和y a表示仅根据音频内容确定的音频对象的X坐标和y坐标位置，X V和 y、表示视频对象的X坐标和y坐标位置，X。'和y。'表示音频对象的经过修改的X坐标和 y坐标位置，并且α表示线性组合的参数，其可W在0到1的范围中。
[0110] 为了后续创建3D音频对象，通常需要音频对象的高度Ζ。。然而，对于常规的多声道音频对象内容（环绕5. 1、环绕7. 1等），所有的声道处于同一平面并且不具有高度信息。在运种情况下，应当通过其他信息来估计高度信息，诸如通过音频对象的2D位置、音频对象的类型等。基于音频对象的2D位置来估计高度的一个典型示例如W下所示：阳111] Za= f autozUa，Ya) (l〇)
[0112] 其中音频对象的高度信息z。基于音频对象的2D位置（Xg，y。）来计算，并且fgutuzO 表示将2D位置自动地映射到高度位置的映射函数，诸如半球化emis地ere)函数。然而，由于在所提取的音频对象中不存在高度信息，所计算的高度估计可能是粗略的。
[0113] 为了改善高度估计，可W利用基于视频对象的信息，因为视频对象的高度更加直观。在一个实施例中，可W基于仅根据音频内容估计的音频对象的2D位置和视频对象的3D 位置来确定音频对象高度的具有视频对象协助的估计，其可W被表示为：阳 114] Za' = f ' autozUa，Ya，Xv，Υν，Zv) (H)
[011引其中f' gutuz0表示基于音频对象的2D音频对象位置（X。，y。）和3D视频对象位置（Xy，y、，Zy)来计算音频对象的高度信息Z。'的映射函数。阳116] 在一些示例中，音频对象的高度可W与视频对象的高度成正相关，其可W被表示为：
[0117] Za' =f" autoZ(Zv) (。）阳11引其中f" 表示将视频对象的高度Zy映射到音频对象的高度Z。'的映射函数。在一个简单的示例中，音频对象的高度Z。'可W等于Zy。
[0119] 备选地或附加地，还可W利用视频对象类型来估计音频对象高度。例如，如果所对准的视频对象是直升机，音频对象的高度可W被设置为预定义的数值。
[0120] 在一些实施例中，由于所提取的音频对象可W被上混音到各种播放系统，诸如扬声器和耳机，在元数据估计时估计音频对象的尺寸有利于提高听觉体验。例如，如果音频对象不是点源，那么可W确定该音频对象的尺寸。在后续的呈现时，可W基于尺寸信息来呈现音频对象。因此，在一个实施例中，可W基于对准的视频对象的尺寸信息来修改所提取的音频对象的尺寸。阳121] 由于视频对象的尺寸信息可W基于视频对象的区域而轻松地估计，并且视频对象尺寸与音频对象尺寸之间可能存在相关性，可W通过利用视频对象尺寸来确定音频对象尺寸。在一个实施例中，音频对象尺寸可W与视频对象尺寸成正相关，其可W被表示为：阳 12引 sizea= f sizeA(sizev) (蝴
[0123] 其中size。表示音频对象的尺寸，size y表示与音频对象对准的视频对象的尺寸，并且fuwAO表示单调增加函数。
[0124] 在W上描述中，描述了不同类型的基于视频对象的信息的确定和利用的实施例。应当注意到，在协助音频对象提取时，运些实施例可W被单独地采用或者被组合在一起。还应当知道，仅描述了基于视频对象的信息的一些示例W及它们的应用，并且还可W获得许多其他类型的基于视频对象的信息W及其他的应用方法。
[01巧]图7示出了根据本发明的一个示例实施例的视频内容协助地从音频内容中提取音频对象的系统700的框图。如所示出的，系统700包括视频对象提取单元701，被配置为从与基于声道的音频内容相关联的视频内容中提取至少一个视频对象。系统700还包括信息确定单元702,被配置为确定与至少一个视频对象有关的信息。系统700进一步包括音频对象提取单元703,被配置为基于所确定的信息，从基于声道的音频内容中提取音频对象，该音频对象要被呈现为上混音音频信号。。阳1%] 在一些实施例中，信息确定单元702可W包括W下各项中的至少一项：位置确定单元，被配置为确定至少一个视频对象的位置，音频模板确定单元，被配置为确定至少一个视频对象的音频模板，尺寸确定单元，被配置为确定至少一个视频对象的尺寸，W及视频对象数量确定单元，被配置为确定至少一个视频对象的数量。
[0127] 在一些实施例中，位置确定单元可W进一步被配置为确定至少一个视频对象在视频内容的视频帖中的二维位置和深度；W及将二维位置和深度映射至听觉环境的Ξ维空间中，W获得至少一个视频对象的位置。
[0128] 在一些实施例中，音频对象提取单元703可W进一步被配置为基于至少一个视频对象的位置，确定用于音频对象提取的混音矩阵，W及基于混音矩阵，从基于声道的音频内容中提取音频对象。
[0129] 在一些实施例中，音频模板确定单元可W进一步被配置为标识至少一个视频对象的类型，w及基于至少一个视频对象的类型，从预定义的音频模板中确定至少一个视频对象的音频模板。
[0130] 在一些实施例中，音频对象提取单元703可W进一步被配置为基于至少一个视频对象的音频模板，确定音频对象参考信号，W及基于音频对象参考信号，从基于声道的音频内容中提取音频对象。阳131] 在一些实施例中，该信息可W包括至少一个视频对象的数量，并且音频对象提取单元703可W进一步被配置为基于至少一个视频对象的数量，确定要被提取的音频对象的数量，W及基于要被提取的音频对象的数量，从基于声道的音频内容中提取音频对象。
[0132] 在一些实施例中，该信息可W包括至少一个视频对象的数量，并且音频对象提取单元703可W进一步被配置为基于至少一个视频对象的数量，确定用于音频对象提取的增益，W及基于增益修改所提取的音频对象。
[0133] 在一些实施例中，系统700可W进一步包括元数据确定单元，被配置为从基于声道的音频内容中确定音频对象的元数据，W及元数据修改单元，被配置为基于所确定的信息修改音频对象的元数据。
[0134] 在一些实施例中，该元数据可W包括音频对象的位置。在运些实施例中，元数据修改单元可W进一步被配置为基于视频对象与音频对象之间的相关度，确定与音频对象对准的视频对象，W及基于所对准的视频对象的位置，修改音频对象的位置。
[0135] 在一些实施例中，该元数据可W包括音频对象的尺寸。在运些实施例中，元数据修改单元可W进一步被配置为基于视频对象与音频对象之间的相关度，确定与音频对象对准的视频对象；W及基于所对准的视频对象的尺寸，修改音频对象的尺寸。
[0136] 在运些实施例中，视频对象与音频对象之间的相关度基于W下各项中的至少一项：视频对象的位置与在音频对象的元数据中的音频对象的位置之间的距离，W及视频对象的音频模板与音频对象之间的相似度。
[0137] 为清晰起见，在图7中没有示出系统700的某些可选部件。然而，应当理解，上文参考图1-图6所描述的各个特征同样适用于系统700。而且，系统700中的各部件可W是硬件模块，也可W是软件单元模块。例如，在某些实施例中，系统700可W部分或者全部利用软件和/或固件来实现，例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地，系统700可W部分或者全部基于硬件来实现，例如被实现为集成电路（1C)、专用集成电路（ASIC)、片上系统（S0C)、现场可编程口阵列（FPGA)等。本发明的范围在此方面不受限制。
[0138] 下面参考图8,其示出了适于用来实现本发明实施例的计算机系统800的示意性框图。如图8所示，计算机系统800包括中央处理单元（CPU)801，其可W根据存储在只读存储器（ROM)802中的程序或者从存储部分808加载到随机访问存储器（RAM)803中的程序而执行各种适当的动作和处理。如所需要的，在RAM 803中，还存储有CPU 801执行各种过程等的数据。CPU 801、ROM 802 W及RAM803通过总线804彼此相连。输入/输出（I/O)接口 805也连接至总线804。
[0139] W下部件连接至I/O接口 805 :包括键盘、鼠标等的输入部分806 ;包括诸如阴极射线管（CRT)、液晶显示器化CD)等W及扬声器等的输出部分807 ;包括硬盘等的存储部分 808 ; W及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口 805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，W便于从其上读出的计算机程序根据需要被安装入存储部分808。
[0140] 特别地，根据本发明的实施例，上文参考图1-图7描述的过程可W被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令，该机器可执行指令在被执行时使得该机器执行方法200的步骤。在运样的实施例中，该计算机程序可W通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。阳141] 一般而言，本发明的各种示例实施例可W在硬件或专用电路、软件、逻辑，或其任何组合中实施。某些方面可W在硬件中实施，而其他方面可W在可W由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可 W作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。阳142] 而且，流程图中的各框可W被看作是方法步骤，和/或计算机程序代码的操作生成的操作，和/或理解为执行相关功能的多个禪合的逻辑电路元件。例如，本发明的实施例包括计算机程序产品，该计算机程序产品包括有形地实现在机器可读介质上的计算机程序，该计算机程序包含被配置为实现上文描述方法的程序代码。
[0143] 在公开的上下文内，机器可读介质可W是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可W是机器可读信号介质或机器可读存储介质。机器可读介质可W包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备，或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器（RAM)、只读存储器 (ROM)、可擦除可编程只读存储器巧PROM或闪存）、光存储设备、磁存储设备，或其任意合适的组合。
[0144] 用于实现本发明的方法的计算机程序代码可W用一种或多种编程语言编写。运些计算机程序代码可W提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器，使得程序代码在被计算机或其他可编程的数据处理装置执行的时候，引起在流程图和/ 或框图中规定的功能/操作被实施。程序代码可W完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。
[0145] 另外，尽管操作W特定顺序被描绘，但运并不应该理解为要求此类操作W示出的特定顺序或W相继顺序完成，或者执行所有图示的操作W获取期望结果。在某些情况下，多任务或并行处理会是有益的。同样地，尽管上述讨论包含了某些特定的实施细节，但运并不应解释为限制任何发明或权利要求的范围，而应解释为对可W针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可W整合实施在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可W分离地在多个实施例或在任意合适的子组合中实施。阳146] 针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实施例范围。此外，前述说明书和附图存在启发的益处，设及本发明的运些实施例的技术领域的技术人员将会想到此处阐明的本发明的其他实施例。阳147] 由此，本发明可W通过在此描述的任何形式来实现。例如，W下的枚举示例实施例巧邸）描述了本发明的某些方面的某些结构、特征和功能。
[0148] E邸1. 一种视频内容协助的音频对象提取的方法，包括：从视频内容中提取基于视频对象的信息，视频对象协助地从音频内容中提取音频对象，并且视频对象协助地估计音频对象元数据。
[0149] EEE 2.根据EEE 1所述的方法，提取基于视频对象的信息包括：提取视频对象，估计视频对象位置，生成音频模板，估计视频对象尺寸，W及估计视频对象数量。
[0150] E邸3.根据邸E 2所述的方法，估计视频对象位置包括：估计在视频场景中的视频对象位置，W及将视频对象位置映射到3D空间。阳151] E邸4.根据邸E 3所述的方法，视频对象的深度和3D空间中听众与视频对象之间的距离成正相关。
[0152] E邸5.根据邸E 2所述的方法，生成音频模板包括：基于视频对象识别技术来估计视频对象的类型，W及通过使用所估计的视频对象类型来从音频对象模板数据库中捜索音频模板。阳153] E邸6.根据邸E 1所述的方法，视频对象协助地提取音频对象包括：利用视频对象数量，利用视频对象的位置，和/或利用视频对象的音频模板。
[0154] E邸7.根据邸E 6所述的方法，利用视频对象数量来调谐音频对象提取的积极度，并且视频对象越多，音频对象提取的积极度越大。阳巧日]E邸8.根据邸E 7所述的方法，视频对象数量与所提取的音频对象的要被传送通过的部分成正相关。
[0156] E邸9.根据邸E 7所述的方法，视频对象数量与要被提取的音频对象的数量成正相关。阳157] E邸10.根据邸E 6所述的方法，利用视频对象位置来初始化音频对象提取算法的混音矩阵。
[0158] E邸11.根据邸E 6所述的方法，将视频对象的音频模板初始化为参考信号，W提取与该参考信号高度相关的音频对象信号。阳159] E邸12.根据邸E 6所述的方法，利用视频对象的音频模板来初始化音频对象提取算法的音频对象信号。
[0160] E邸13.根据邸E 1所述的方法，视频对象协助地估计音频对象元数据包括：对准视频对象与音频对象，并且基于对准的视频对象的信息来提高音频对象元数据估计。阳161] E邸14.根据邸E 13所述的方法，视频对象与音频对象的对准基于视频对象与音频对象之间的相关度/相干度。
[0162] E邸15.根据邸E 14所述的方法，视频对象与音频对象之间的相关度/相干度通过W下来衡量：随着时间的视频对象位置与音频对象位置之间的相关度/相干度，和/或音频对象与视频对象的音频模板之间的相关度/相干度。阳163] E邸16.根据邸E 13所述的方法，提高音频对象元数据估计包括：估计元数据中的音频对象的2D位置，估计元数据中的音频对象的高度，W及估计元数据中的音频对象的尺寸。阳164] E邸17.根据邸E 16所述的方法，基于2D视频对象位置来修改音频对象的2D位置。也就是说，所估计的音频对象的2D位置朝向2D视频对象位置而偏移。阳1化]E邸18.根据邸E 16所述的方法，基于3D视频对象位置和2D音频对象位置来联合地估计音频对象的高度。视频对象越高，音频对象也越高。阳166] E邸19.根据邸E 16所述的方法，基于视频对象类型来估计音频对象的高度。对于可能具有对应的高度信息的视频对象类型，相关的音频对象可W具有预定义的高度数值。阳167] E邸20.根据邸E 16所述的方法，音频对象的尺寸与视频对象的尺寸成正相关。
[0168] 将会理解，本法明的实施例不限于公开的特定实施例，并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语，但是它们仅在通用和描述的意义上使用，而并不用于限制目的。
【主权项】
1. 一种从基于声道的音频内容中提取音频对象的方法，包括：从与所述基于声道的音频内容相关联的视频内容中提取至少一个视频对象；确定与所述至少一个视频对象有关的信息；以及基于所确定的信息，从所述基于声道的音频内容中提取音频对象，所述音频对象要被呈现为上混音音频信号。2. 根据权利要求1所述的方法，其中所述确定与所述至少一个视频对象有关的信息包括以下各项中的至少一项：确定所述至少一个视频对象的位置；确定所述至少一个视频对象的音频模板；确定所述至少一个视频对象的尺寸；以及确定所述至少一个视频对象的数量。3. 根据权利要求2所述的方法，其中所述确定所述至少一个视频对象的位置包括：确定所述至少一个视频对象在所述视频内容的视频帧中的二维位置和深度；以及将所述二维位置和所述深度映射至听觉环境的三维空间中，以获得所述至少一个视频对象的所述位置。4. 根据权利要求2或3所述的方法，其中所述基于所确定的信息从所述基于声道的音频内容中提取音频对象包括：基于所述至少一个视频对象的所述位置，确定用于音频对象提取的混音矩阵；以及基于所述混音矩阵，从所述基于声道的音频内容中提取所述音频对象。5. 根据权利要求2所述的方法，其中所述确定所述至少一个视频对象的音频模板包括：标识所述至少一个视频对象的类型；以及基于所述至少一个视频对象的所述类型，从预定义的音频模板中确定所述至少一个视频对象的所述音频模板。6. 根据权利要求2或5所述的方法，其中所述基于所确定的信息从所述基于声道的音频内容中提取音频对象包括：基于所述至少一个视频对象的所述音频模板，确定音频对象参考信号；以及基于所述音频对象参考信号，从所述基于声道的音频内容中提取所述音频对象。7. 根据权利要求2所述的方法，其中所述信息包括所述至少一个视频对象的所述数量，并且其中所述基于所确定的信息从所述基于声道的音频内容中提取音频对象包括：基于所述至少一个视频对象的所述数量，确定要被提取的音频对象的数量；以及基于要被提取的音频对象的所述数量，从所述基于声道的音频内容中提取所述音频对象。8. 根据权利要求2所述的方法，其中所述信息包括所述至少一个视频对象的所述数量，并且其中所述基于所确定的信息从所述基于声道的音频内容中提取音频对象进一步包括：基于所述至少一个视频对象的所述数量，确定用于音频对象提取的增益；以及基于所述增益修改所提取的音频对象。9. 根据权利要求2所述的方法，进一步包括：从所述基于声道的音频内容中确定所述音频对象的元数据；以及基于所确定的信息修改所述音频对象的所述元数据。10. 根据权利要求9所述的方法，其中所述元数据包括所述音频对象的位置，并且其中所述基于所确定的信息修改所述音频对象的所述元数据包括：基于视频对象与音频对象之间的相关度，确定与所述音频对象对准的视频对象；以及基于所对准的视频对象的所述位置，修改所述音频对象的所述位置。11. 根据权利要求9所述的方法，其中所述元数据包括所述音频对象的尺寸，并且其中所述基于所确定的信息修改所述音频对象的所述元数据包括：基于视频对象与音频对象之间的相关度，确定与所述音频对象对准的视频对象；以及基于所对准的视频对象的所述尺寸，修改所述音频对象的所述尺寸。12. 根据权利要求10或11所述的方法，其中视频对象与音频对象之间的所述相关度基于以下各项中的至少一项：所述视频对象的所述位置与在所述音频对象的所述元数据中的所述音频对象的位置之间的距离，以及所述视频对象的所述音频模板与所述音频对象之间的相似度。13. -种从基于声道的音频内容中提取音频对象的系统，包括：视频对象提取单元，被配置为从与所述基于声道的音频内容相关联的视频内容中提取至少一个视频对象；信息确定单元，被配置为确定与所述至少一个视频对象有关的信息；以及音频对象提取单元，被配置为基于所确定的信息，从所述基于声道的音频内容中提取音频对象，所述音频对象要被呈现为上混音音频信号。14. 根据权利要求13所述的系统，其中所述信息确定单元包括以下各项中的至少一项：位置确定单元，被配置为确定所述至少一个视频对象的位置；音频模板确定单元，被配置为确定所述至少一个视频对象的音频模板；尺寸确定单元，被配置为确定所述至少一个视频对象的尺寸；以及视频对象数量确定单元，被配置为确定所述至少一个视频对象的数量。15. 根据权利要求14所述的系统，其中所述位置确定单元进一步被配置为：确定所述至少一个视频对象在所述视频内容的视频帧中的二维位置和深度；以及将所述二维位置和所述深度映射至听觉环境的三维空间中，以获得所述至少一个视频对象的所述位置。16. 根据权利要求14或15所述的系统，其中所述音频对象提取单元进一步被配置为：基于所述至少一个视频对象的所述位置，确定用于音频对象提取的混音矩阵；以及基于所述混音矩阵，从所述基于声道的音频内容中提取所述音频对象。17. 根据权利要求14所述的系统，其中所述音频模板确定单元进一步被配置为：标识所述至少一个视频对象的类型；以及基于所述至少一个视频对象的所述类型，从预定义的音频模板中确定所述至少一个视频对象的所述音频模板。18. 根据权利要求14或17所述的系统，其中所述音频对象提取单元进一步被配置为：基于所述至少一个视频对象的所述音频模板，确定音频对象参考信号；以及基于所述音频对象参考信号，从所述基于声道的音频内容中提取所述音频对象。19. 根据权利要求14所述的系统，其中所述信息包括所述至少一个视频对象的所述数量，并且其中所述音频对象提取单元进一步被配置为：基于所述至少一个视频对象的所述数量，确定要被提取的音频对象的数量；以及基于要被提取的音频对象的所述数量，从所述基于声道的音频内容中提取所述音频对象。20. 根据权利要求14所述的系统，其中所述信息包括所述至少一个视频对象的所述数量，并且其中音频对象提取单元进一步被配置为：基于所述至少一个视频对象的所述数量，确定用于音频对象提取的增益；以及基于所述增益修改所提取的音频对象。21. 根据权利要求14所述的系统，进一步包括：元数据确定单元，被配置为从所述基于声道的音频内容中确定所述音频对象的元数据；以及元数据修改单元，被配置为基于所确定的信息修改所述音频对象的所述元数据。22. 根据权利要求21所述的系统，其中所述元数据包括所述音频对象的位置，并且其中所述元数据修改单元进一步被配置为：基于视频对象与音频对象之间的相关度，确定与所述音频对象对准的视频对象；以及基于所对准的视频对象的所述位置，修改所述音频对象的所述位置。23. 根据权利要求21所述的系统，其中所述元数据包括所述音频对象的尺寸，并且其中所述元数据修改单元进一步被配置为：基于视频对象与音频对象之间的相关度，确定与所述音频对象对准的视频对象；以及基于所对准的视频对象的所述尺寸，修改所述音频对象的所述尺寸。24. 根据权利要求22或23所述的系统，其中视频对象与音频对象之间的所述相关度基于以下各项中的至少一项：所述视频对象的所述位置与在所述音频对象的所述元数据中的所述音频对象的位置之间的距离，以及所述视频对象的所述音频模板与所述音频对象之间的相似度。25. -种从基于声道的音频内容中提取音频对象的计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令，所述机器可执行指令在被执行时使得所述机器执行根据权利要求1至12中任一项所述的方法的步骤。
【文档编号】H04S7/00GK105989845SQ201510087313
【公开日】2016年10月5日
【申请日】2015年2月25日
【发明人】陈连武, 孙学京, 芦烈
【申请人】杜比实验室特许公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈连武;孙学京;芦烈;
技术所有人：杜比实验室特许公司;
我是此专利的发明人

上一篇：一种多通道语音信号同步方法及装置的制造方法
上一篇：一种音频传输的自适应方法及装置的制造方法