元数据保留的音频对象聚类的制作方法

文档序号：10536387阅读：220来源：国知局

元数据保留的音频对象聚类的制作方法
【专利摘要】本发明的实施例涉及音频对象聚类。公开了一种用于元数据保留的音频对象聚类的方法。该方法包括基于与多个音频对象相关联的元数据中的待保留信息，将多个音频对象分类到多个类别中。该方法还包括将预定数目的簇指派给类别，以及根据指派来将这些类别中的每个类别中的音频对象分配到簇中的至少一个簇。还公开了相应的系统和计算机程序产品。
【专利说明】
元数据保留的音频对象聚类
技术领域
[0001] 本发明总体上涉及音频内容处理，更具体地，涉及允许元数据被保留的音频对象聚类的方法和系统。
【背景技术】
[0002] 基于对象的音频的出现显著地增加了音频数据量以及在高端回放系统内渲染该数据的复杂度。例如，影院声轨可以包括许多不同的声音元素，这些声音元素对应于屏幕上的图像、对白、噪声和音效，该音效源自屏幕上的不同位置，并且这些声轨还与背景音乐和环境效果相结合以创建整体的听觉体验。精确回放要求声音应该以如下方式再现：该方式就声源位置、强度、运动和深度而言尽可能接近地对应于屏幕上所显示的内容。基于对象的音频表现出在传统的基于通道的音频系统上的显著改进，该基于通道的音频系统以扬声器馈送（speaker feeds)的形式发送音频内容至收听环境中的单个扬声器，并且因此就特定音频对象的空间回放而言是相对受限的。
[0003] 数字影院的引入和三维（"3D"）内容的发展创建了新的声音标准，诸如音频的多个通道的结合以允许内容创建者的更大的创造力和听众的更加包裹的和逼真的听觉体验。在作为用于分配空间音频的手段的传统的扬声器馈送和基于通道的音频以外进行扩展是至关重要的，并且基于模型的音频描述已经成为关注的热点，该基于模型的音频描述允许听者用音频来选择期望的回放配置，该音频被渲染以特别用于他们的所选配置。声音的空间表现利用音频对象，该音频对象是具有明显的源位置（例如3D坐标）、明显的源宽度和其他参数的关联的参数源描述的音频信号。进一步的改进包括已经开发出下一代空间音频 (也称为"自适应音频"）格式，其包括连同音频对象的位置元数据在内的音频对象和传统的基于通道的扬声器馈送（音频底层）的混合。
[0004] 如本文中所使用的，术语"音频对象"指的是在声场中存在一定时间期间的个体音频元素。术语"音频底层"或"底层"指的是要在预定义和固定扬声器位置中被重现的音频声道。
[0005] 在一些声轨中，可能有若干（例如，7个、9个或11个）包含音频的底层通道（bed channels)。此外，基于创作系统的能力，可能有几十个或者甚至几百个单个音频对象，这些单个音频对象在渲染期间组合以创建空间上多样化和身临其境的音频体验。在其他分配和传输系统中，可能有足够大的可用带宽用于使用少量或者无音频压缩来传输所有音频底层和对象。然而，在一些情况，如蓝光光盘、广播（电缆、卫星和陆地的）、移动（3G和4G)以及过顶（over-the-top) (0TT或互联网）分配下，可能在用于数字地传输在创作的时候所创建的所有底层和对象信息的可用带宽上有显著的限制。虽然音频编码方法（有损的或无损的）可以应用到音频以减少所需的带宽，但是音频编码可能不足以减少需要用来特别是在非常有限的网络诸如移动3G和4G网络上传输音频的带宽。
[0006] -些现有方法已经被开发用于通过聚类的手段将输入对象的数量减少至较小的输出对象集合。一般而言，在一些聚类过程中，元数据、诸如尺寸、区域掩蔽（zone mask)和抓取（snap)应当被预先渲染至内部声道结构。音频对象的聚类仅集合音频对象的空间位置，并且输出对象仅包含空间元数据。这类输出对象对于一些重现系统可能无法良好工作，因为元数据的损失可能违背了所期望的创造意图（artistic intent)。
[0007] 在【背景技术】章节中所讨论的主题不应当仅仅因为它公开在【背景技术】章节而被假定为是现有技术。类似地，在【背景技术】章节中提及的问题或者与【背景技术】章节的主题相关联的问题不应当被假定为在现有技术中预先已知。【背景技术】中的主题仅给出了不同的方法，这些方法本身也可以是发明。

【发明内容】

[0008] 为了解决上述问题，示例实施例提出一种用于元数据保留的音频对象聚类的方法和系统。
[0009] 在一个方面，示例实施例提供一种用于元数据保留的音频对象聚类的方法。该方法包括基于与多个音频对象相关联的元数据中的待保留信息，将多个音频对象分类到多个类别中。该方法还包括将预定数目的簇指派给类别，以及根据指派来将这些类别中的每个类别中的音频对象分配到簇中的至少一个簇。这方面的实施例还包括相应的计算机程序产品。
[0010] 在另一方面，示例实施例提供一种用于元数据保留的音频对象聚类的系统。该系统包括音频对象分类单元，被配置为基于与多个音频对象相关联的元数据中的待保留信息，将多个音频对象分类到多个类别中。该系统还包括簇指派单元，被配置为将预定数目的簇指派给类别，以及音频对象分配单元，被配置为根据指派将类别中的每个类别中的音频对象分配到簇中的至少一个簇。
[0011] 通过下文描述将会理解，根据本发明的实施例，输入音频对象基于它们的元数据中待保留的信息而被分类至对应的类别，从而不同的待保留元数据或者待保留元数据的特定组合与不同的类别相关联。在聚类之后，对于一个类别中的音频对象，较不可能与关联于不同元数据的音频对象进行混合。就此而言，音频对象的元数据在聚类后能够被保留。本发明的实施例所带来的其他益处将通过下文描述而清楚。
【附图说明】
[0012] 通过参考附图阅读下文的详细描述，本发明实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例而非限制性的方式示出了本发明的若干实施例，其中：
[0013] 图1示出了根据本发明的一个示例实施例的用于元数据保留的音频对象聚类的方法的流程图；
[0014] 图2示出了根据本发明的一个示例实施例的用于音频对象聚类过程的示意图；
[0015] 图3示出了根据本发明的一个示例实施例的用于元数据保留的音频对象聚类的系统的框图；以及
[0016] 图4示出了适于实现本发明的示例实施例的计算机系统的框图。
[0017] 在各个附图中，相同或对应的标号表相同或对应的部分。
【具体实施方式】
[0018] 下面将参考附图中示出的若干示例实施例来描述本发明的原理。应当理解，描述这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。
[0019] 如以上所提及的，由于编码/解码速率以及传输带宽的限制，用于生成自适应音频内容的音频对象的数量应当通过聚类的手段来减少。除了描述音频对象的空间位置的元数据之外，音频对象通常具有描述其属性的其他元数据，这些属性诸如尺寸、区域掩蔽、抓取、和内容类型等，每个属性描述了关于该音频对象在被渲染时应当被如何处理的创造意图。然而，在一些现有方法中，在音频对象被聚类之后，仅位置元数据得以保留。尽管其他元数据可以被预先渲染到内部声道架构，诸如在7. 1. 2或7. 1. 4系统中，这种方法并非对所有系统均能良好工作。特别是当音频对象被向下混合至例如5. 1或7. 1系统时，在渲染时可能会违背音频对象的创作意图。
[0020] 以元数据"区域掩蔽"为例，其具有多个模式并且每个模式定义一个音频对象不应当被渲染的区域。一个模式的区域掩蔽是"无侧边（no sides)"，描述了在渲染音频对象时侧边扬声器应当被掩蔽。通过利用传统的聚类方法，如果在空间位置z = 1的音频对象以元数据"无侧边"被渲染至5. 1系统中，在5. 1渲染中侧边扬声器可能被激活，因顶部 (ceiling)扬声器处的声音会被折叠到侧边。这违背了原始的创作意图。为了解决这个问题，元数据"区域掩蔽"在聚类过程中应当被保留，以使得其在音频渲染器处能够被正确地处理。
[0021] 在另一个示例中，可能期望在聚类之后对话对象与其他对象分离，这可以具有针对后续音频对象处理的许多益处。例如，在诸如对话增强的后续音频处理中，分离的对话对象簇可以通过简单地应用一个或增益来增强。否则，如果对话对象与其他对象在一个簇中被混合，可能难以分离出该对话对象。在对话替换的应用中，每种语言的对话可能要彼此完全分离。出于这些目的，在聚类过程中，对话对象应当被保留并且被分配至单独的特定簇中。
[0022] 进一步地，音频对象可以与描述其渲染模式的元数据相关联，当在耳机渲染器中被处理中，渲染模式例如被渲染为完全左/完全右（left total/right total，Lt/Rt)或者被渲染为具有头部关联传递函数（head related transfer function, HRTF)的双声道。也期望这些渲染模式在聚类之后被保留，以便生成良好的渲染结果。
[0023] 因此，为了实现更好的音频体验，期望在音频对象聚类中保留元数据。本发明的实施例提出了一种用于元数据保留的音频对象聚类的方法和系统。
[0024] 首先参照图1，其描述了根据本发明的示例实施例的用于元数据保留的音频对象聚类的方法1〇〇。
[0025] 在S101，基于与多个音频对象相关联的元数据中的待保留信息，将多个音频对象分类到多个类别中。音频对象被提供为输入，并且可以具有数十、数百、或者有时数千个的输入音频对象。
[0026] 如本文中所使用的，与每个音频对象相关联的元数据中的待保留信息可以指示在该音频对象被渲染时的处理意图。该信息可以描述音频对象在被渲染时应当被如何处理。在一些实施例中，该信息可以包括以下各项中的至少一项或多项：音频对象的尺寸信息、区域掩蔽信息、抓取信息、内容类型、和渲染模式。尺寸信息可以用于指示音频对象占据的空间区域或音量。区域掩蔽信息指示区域掩蔽的模式，该模式定义了音频对象不应当被渲染到的区域。例如，区域掩蔽信息可以指示"无侧边"模式、"仅环绕"模式、"仅前端"模式等。抓取信息指示音频对象是否应当被直接平移（pan)至最近的扬声器。
[0027] 应当注意到，仅描述了元数据中的待保留信息的一些示例，并且根据用户或音频工程师的偏好，被保留在元数据中的其他信息（这样的非限制示例包括空间位置、空间宽度等）在音频对象分类中也可以被保留。在一些实施例中，与音频对象相关联的元数据中的所有信息可以被考虑。
[0028] 类别的数目可以取决于音频对象的元数据中的信息并且可以大于或等于1。在一个实施例中，没有待保留信息的音频对象可以被分类到一个类别中，并且具有不同待保留信息的音频对象分类到不同类别。也就是说，取决于不同待保留信息，对应的音频对象被分类至不同的类别。备选地，类别可以代表元数据中的不同待保留信息的特定组合。不具有感兴趣的信息的所有其他音频对象可以被包含在一个类别中，在一些情况中可以被包含在多个类别中。本发明的范围在此方面不受限制。
[0029] 这些类别可以通过人工指派、自动指派或者两者的组合来给定。例如，用户或音频工程师可以通过不同的标志来标记与不同类型的元数据相关联的音频对象，并且然后这些被标记的音频对象可以根据他们的标志来分类至不同的类别。对于另一个示例，元数据中的待保留信息可以被自动地识别。用户或音频工程师还可以预先配置他们的偏好或期望，诸如分类对话对象、分离不同的对话语言、和/或分类不同的区域掩蔽模式。根据预先配置，音频对象可以被分类至不同的类别。
[0030] 假设具有0个音频对象。在分类过程中，音频对象的元数据中的待保留信息可以根据以下来获取：（1)通过用户输入提供的元数据的标签，诸如区域掩蔽的标签、或抓取的标签、或音频类型的标签、或语言的标签，和/或（2)元数据的自动标识/标注，诸如但不限于，对内容类型的识别。可能的类别的数目N可以根据所获取的信息来确定，每个类别由待保留信息的特定组合来组成。在分类之后，每个音频对象可以具有相关联的分类标识n。。
[0031] 参照图2,图示了音频对象聚类的示意图。如图2所示，基于元数据中的待保留信息，多个输入音频对象被分类至五个类别，类别〇至4。这些类别的一个示例可以被如下给出：
[0032] ?类别0 :没有待保留信息的所有音频对象；
[0033] ?类别1 :音乐对象，没有区域掩蔽；
[0034] ?类别2 :声效对象，具有区域掩蔽"仅环绕"；
[0035] ?类别3 :英语对话对象；以及
[0036] ?类别4 :西班牙语对话对象，具有区域掩蔽"仅前端"。
[0037] 输入音频对象可以包括一个或多个帧。一个帧是音频内容的处理单元，一个帧的持续时间可以变化并且可以取决于音频处理系统的配置。因为待分类的音频对象可能针对时间上的不同帧而变化并且它们的元数据也可能变化，类别的数目值也可以随着时间而变化。代表不同类型的待保留信息的类别可以由用户预先定义或者被默认，并且在一个或多个帧中的输入音频对象然后可以基于该信息二被分类至预定的类别。在后续处理中，具有分类的音频对象的类别可以被考虑并且不具有音频对象的那些类别可以被忽略。例如，在图2中，当不存在没有待保留信息的音频对象时，对应的类别0可以被省略。能够想到的是，被分类在每个类别中的音频对象的数目可以随着时间而变化。
[0038] 在S102,预定数目的簇被指派给类别。该预定数目可以大于1并且可以取决于音频处理系统的传输带宽和编码/解码速率。在传输带宽（和/或编码速率，和/或解码速率）与输出音频对象的错误准则之间可以存在权衡。例如，预定数目可以是11或16。也可以确定其他数值，诸如5、7、或20,并且本发明的范围在此方面不受限制。
[0039] 在一些实施例中，预定数目在同一处理系统中可能不变。在一些其他实施例中，预定数目可以针对要被处理的不同音频文件而变化。
[0040] 在本发明的实施例中，首先在S101处根据元数据将音频对象分类到类别中，从而每个类别可以代表不同的待保留信息或不同待保留信息的特定组合。然而，在这些类别中的音频对象可以在后续处理中被聚类。可能有很多方法来将总预定数目的簇指派/分配给这些类别。在一些示例实施例中，由于簇的总数目是预定且固定的，在聚类音频对象之前可能要确定被指派给每个类别的簇的数目。现在讨论一些示例实施例。
[0041] 在一个实施例中，簇指派可以取决于多个音频对象的重要度。具体地，首先可以基于每个音频对象相对于其他音频对象的重要度，从多个音频对象中确定预定数目的音频对象，并且然后可以确定所述预定数目的音频对象在所述类别之间的分布。因而预定数目的簇根据该分部而被指派至这些类别。
[0042] 每个音频对象的重要度可以与以下各项中的一项或多项有关：音频对象的内容类型、相对响度（partial loudness)水平、和能量水平。具有高重要度的音频对象可以表示该音频对象例如因为它的相对响度或能量水平而在输入音频对象之中在感知上是显著的。在一些使用情况中，一个或多个内容类型可以被认为是重要的，并且因而高重要度被给定至相应的音频对象。例如，较大的重要度可以被指派给对话对象。应当注意到，存在许多其他方式来确定或定义每个音频对象的重要度。例如，一些音频对象的重要水平可以由用户来指定。本发明的范围在此方面不受限制。
[0043] 假设预定的总的簇数目是M。在第一步，输入音频对象之中最重要的最多M个音频对象被选择。因为在S101中所有输入音频对象被分类至对应的类别，在第二步中，可以确定M个最重要的音频对象在类别之间的分布。基于M个音频对象在一个类别中分布有多少个，可以向该类别指派相当数目的簇。
[0044] 例如，参照图2,从多个输入音频对象（被图示为圆圈201和202的集合）中确定 11个最重要的音频对象（被图示为圆圈201)。在将所有输入音频对象分类至五个类别（类别〇至4)之后，从图2可以看出，四个最重要的音频对象被分类至类别0,三个最重要的音频对象被分类至类别1，一个最重要的音频对象被分类至类别2,两个最重要的音频对象被分类至类别3,并且一个最重要的音频对象被分类至类别4。因此，4个簇、3个簇、1个簇、2 个簇和1个簇分别被指派给类别〇至4,如图2所示。
[0045] 应当注意到，以上根据本发明的示例实施例描述的重要性准则的示例可以不是那么严格。也就是说，不必要选择最重要的音频对象。在一些实施例中，可以配置重要度阈值。在其重要度大于该阈值的这些音频对象之中，可以随机选择预定数目的音频对象。
[0046] 除了重要度准则之外，簇指派可以基于类别的整体空间失真。也就是说，基于减少或者甚至最小化类别的整体空间失真来将预定数目的簇指派至这些类别。
[0047] 在一个实施例中，类别的整体空间失真可以包括类别的个体空间失真的加权和。对应的类别的权重可以代表该类别的重要度或者与该类别相关联的待保留信息的重要度。例如，具有较高重要度的类别可以具有较高的权重。在另一个实施例中，类别的整体空间失真可以包括类别的个体空间失真之中的最大空间失真。应当认识到，不必要仅选择最大值，并且在一些实施例中，这些类别之中的其他空间失真，诸如第二个最大的空间失真、或第三个最大的空间失真等可以被认为是整体空间失真。
[0048] 每个类别的空间失真可以有被包括在该类别中的音频对象的失真水平来表示，并且每个音频对象的失真水平可以通过它的原始空间位置与它在被聚类之后的位置之间的距离来衡量。一般而言，音频对象的经聚类后的位置取决于它被分配至的（多个）簇的空间位置。在这种情况下，每个类别的空间失真与该类别中的每个音频对象的原始空间位置以及（多个）簇的空间位置相关联。音频对象的原始空间位置可以被包含在音频对象的元数据中并且例如包括三个笛卡尔坐标（或者类似地，例如包括极坐标、圆柱和球坐标、齐次坐标、线坐标等）。在一个实施例中，为了计算每个类别的空间失真，可以基于（多个）簇的空间位置来确定该类别中的每个音频对象的重构空间位置。然而，每个类别的空间失真可以基于该类别中的每个音频对象的原始空间位置与该音频对象的重构空间位置之间的距离来计算。音频对象的重构空间位置是由一个或多个对应空间簇表示的音频对象的空间位置。确定重构空间位置的一个示例方法将在以下进行描述。
[0049] 为了获得整体空间失真，首先可以关于不同的簇数目计算每个类别的空间失真。有许多方法来确定音频对象的类别的空间失真。在以下给出一种方法作为示例。应当注意到，可以应用其他现有的方法来测量音频对象的空间失真（并且因此计算类别的空间失真）。
[0050] 假设对于类别n，存在Mn个簇心（centroid)，表示为具有空间位置 {^M,R， 2"..，^I，M"}W{Cn(l)，Cn(2)，...，C n(Mn)：UdiS(〇n(i)，{Cn(l)，C n(2)，...，Cn(Mn)}) 可以表示在将音频对象〇"(1)聚类至Mn个簇心时该音频对象的空间失真（在该情况下假设一个类别中的音频对象仅被分配至与该类别相关联的簇中）。类别n的空间失真可以被表示为：
[0051] zuofxwxKGXC；⑵，(1) /=1
[0052] 其中0n表示在类别n中的音频对象的数目，并且on(i)表示在类别n中的第i个音频对象。在一个实施例中，C n(m)可以是该类别中具有第m个最大的重要度的音频对象的空间位置，并且Cn(m)的空间位置可以是该音频对象的空间位置。空间失真dis( 〇n(i)， |Cn(l)，Cn(2)，? ? ?，Cn(Mn)})可以由每个音频对象〇n(i)的空间位置;^.与该音频对象在被聚类至1个簇时的重构空间位置之间的距离（或者距离的平方）来确定。
[0053] 获取每个类别的空间失真之后，在一个实施例中，如以上所提及的，这些类别的整体空间失真可以被确定为个体空间失真的加权和。例如，整体空间失真可以被如下确定：
[0054] Cost = Y(a"Dn(Mn、) (2) n=0
[0055] 其中N表示类别的总数目。每个类别的增益an可以是预定的并且可以表示对应的类别的重要度或者与该类别相关联的元数据中的待保留信息的重要度。
[0056] 在另一个实施例中，类别的整体空间失真可以被确定为类别的个体空间失真之间的最大空间失真。例如，整体空间失真可以被如下地确定：
[0057] Cost = max (a〇D〇 (M〇), a1d1 (Mj), . . . , anDn (Mn)) (3)
[0058] 通过该方式，被指派给每个类别的簇的数目Mn可以基于减少或最小化整体空间失真度量来确定，并且具有约束条件也就是说，指派的簇的整体数目等于预定数 n~0 目M。
[0059] 输入音频对象通常是以一个帧的音频信号为单位。归因于音频信号的典型的动态特性，并且假定音频对象数目在每个类别中变化，被指派给每个类别的簇的数目通常可以随着时间而变化。由于每个类别的改变的簇的数目可能导致一些不稳定问题，以成本度量在利用考虑了簇数目一致性的修改的空间失真。因此，成本度量可以被定义为时间函数。具体地，每个类别的空间失真进一步基于在当前帧中被指派给类别的簇的数目与在先前的帧中被指派给类别的簇的数目之间的差异。就此而言，公式（2)中的整体空间失真可以被修改为如下：
[0060] Cost = j^{aJ{Dn(Mn\Mn,Mn O) (4) n=0
[0061] 公式（3)中的整体空间失真可以被修改为如下：
[0062] Cost = max(a^f^D。(M〇)，M〇, M〇' ), ajf (D^Mj), Mj, M/ )，???，a/(Dn(M")，M"，M"'）） (5)
[0063] 在公式⑷和（5)中，Mn表示在当前帧中类别n的簇数目，Mn'表示在先前的帧中类别n的簇数目，并且f(D n(Mn)，Mn，Mn')表示经修改的整体空间失真。
[0064] 如果被指派给一个类别的簇数目在当前帧中改变了，相较于先前的空间失真，经修改的空间失真可以被增加，以防止簇数目的改变。在一个实施例中，以被如下地确定：
[0065] f (Dn (Mn)，Mn，Mn' ) = Dn (Mn) + 3 | Mn-Mn' | (6)
[0066] 其中^表示具有正数值的参数。根据经修改的空间失真，存在对于每个类别的簇数目改变的惩罚。因此，由簇数目的变换所引入的空间不稳定性可以被缓和。
[0067] 由于类别的簇数目的减少比簇数目的增加更可能引入空间不稳定性，在另一个实施例中，f (Dn(Mn)，Mn，Mn'可以如下地确定：「D"(MJ ifMn >M'
[0068] = j n " n (7) nJ n nf \Dn{Mn)*P2 \iMn<Mn'
[0069] 其中表示具有大于1的值的参数。在这个实施例中，对减少簇数目具有较大的惩罚，特别是当具有降低的簇数目的类别的空间失真较大时。因此，由降低的簇数目引入的空间不稳定性可以被减少。
[0070] 在以上描述中，关于基于减少整体空间失真的族指派，在为每个类别确定最有数目的簇时可能涉及大量的计算工作。为了有效地确定每个类别的簇数目，在一个实施例中，提出了迭代过程。也就是说，通过在簇指派过程的每次迭代中最大化成本减少，来估计每个类别的最优簇数目，从而类别的整体空间失真可以被迭代地减少或者甚至最小化。
[0071] 通过从1迭代至预定簇数目M，在每次迭代中，一个或多个簇被指派给最需要它们的类别。将Cost (m-1)和Cost (m)表示为在第（m-1)次迭代和第m次迭代中的整体空间失真。在第m次迭代中，一个或多个新的簇可以被指派给最能够减少整体空间失真的类别n' 因此，f可以通过增大或最大化整体空间失真的减少来确定，其可以被表示为以下：
[0072] n * = xn.di^{Cost{m -1) - Cost(m)} (8)
[0073] 迭代过程可以基于在当前迭代中一个类别的空间失真与在先前迭代中该类别的空间失真之间的差异，或者在先前迭代中一个类别的空间失真的量。
[0074] 对于通过类别的所有空间失真的加权和来获得的整体空间失真，迭代过程可以基于在当前迭代中一个类别的空间失真与在先前迭代中该类别的空间失真之间的差异。在每次迭代中，至少一个簇可以被指派给如下的类别，该类别如果被指派有该至少一个簇则其在当前迭代中的空间失真变得足够低于它在先前的迭代中的空间失真（根据第一预定水平）。在一个实施例中，至少一个簇可以被指派给在被指派有该至少一个簇的情况下具有空间失真最大程度被减少的类别。例如，在该实施例中，f可以被如下地确定：
[0075] n* = max{D"* ) - Dn, (M"t +1)} (9)
[0076] 其中表示在第（m-l)次迭代之后类别f的簇的数目和空间失真。+ 1表示在如果在第m次迭代中一个新的簇被指派/添加给类别f的话在该迭代中类别f的簇的数目，并且+1)表示在第m次迭代中类别f的空间失真。应当注意到，在每次迭代中，多于一个的新簇可以被指派，并且类别f可以被类似地确定。
[0077] 对于被确定为所有类别之中的最大空间失真的整体空间失真，迭代过程可以基于在先前迭代中一个类别的空间失真的量。在每次迭代中，至少一个簇可以被指派给在先前迭代中具有高于第二预定水平的空间失真的类别。在一个实施例中，至少一个簇可以被指派给在先前迭代中具有最大空间失真的类别。例如，在该实施例中，f可以被如下地确定：
[0078] n* = max{D"*(M"*m_1)} (10)
[0079] 由于在先前迭代中具有最大空间失真的类别（如果在当前迭代中被指派有一个或多个簇）在当前迭代中可以减少它的空间失真，由所有类别之中的最大空间失真确定的整体空间失真在当前迭代中也可以被减少。
[0080] 注意到，在公式（9)和（10)中提供的确定可以在一个迭代过程中被联合地使用。例如，在一个迭代中，公式（9)可以被用于在该迭代中指派（多个）新的簇。在另一个迭代中，公式（10)可以被用于指派其他（多个）新的簇。
[0081] 以上已经描述了两种簇指派方式，一个是基于音频对象的重要度，另一个基于减少整体空间失真。附加地或备选地，用户输入也可以用于指导簇指派。因为用户可能在不同的使用情况下对于不同的内容具有不同的要求，因此可以很大地提高聚类过程的灵活性。在一些实施例中，簇指派可以进一步基于以下各项中的一项或多项：针对要被指派给每个类别的簇的数目的第一阈值，针对每个类别的空间失真的第二阈值，以及每个类别相对于其它类别的重要度。
[0082] 第一阈值可以针对要被指派给每个类别的簇的数目而预定义。第一阈值可以是每个类别的预定的最小簇数目或最大簇数目。例如，用户可以指定一个簇应大哥具有某个最小簇数目。在这种情况下，在指派期间，至少指定数目的簇应当被指派给该类别。在最大阈值被设置的情况中，最多指定数目的簇可以被指派给该类别。第二阈值可以被设置为确保一个类别的空间失真要被减少至合理水平。每个类别的重要度可以由用户指定，或者可以基于被分类至该类别中的音频对象的重要度来确定。
[0083] 在一些情况下，可能在簇指派完成之后，一个类别的空间失真仍然较高。为了解决这个问题，在一些实施例中，基于一个类别的空间失真，将该类别中的至少一个音频对象重分类至另一个类别。在一个示例实施例中，如果这些类别中的一个类别的空间失真高于预定阈值，该类别中的一些音频对象可以被重分类至另一个类别，直至该空间失真小于（或等于）该阈值。在一些示例中，音频对象可以被重分类至包含元数据中没有待保留信息的音频对象的类别，诸如图2中的类别0。在簇指派是基于以迭代过程来最小化整体空间失真的实施例中，对象重分类也可以是一个迭代的过程，在该迭代的过程中，在每次迭代中具有最大空间失真dis (〇n (i)，{Cn (1)，Cn (2)，. . .，Cn (Mn)})的音频对象可以被重分类，直至该类别的空间失真准则被满足。
[0084] 归因于音频信号典型的动态特性，音频对象的重要度或空间位置（并且因此是空间失真）随着时间而改变。因此，簇指派可以是时间变化的，并且因而被指派给每个类别的簇的数目可以随着时间而改变。就此而言，与簇m相关联的类别标识可以随着时间而改变。具体地，簇m在第一帧期间可以代表某种语言（例如，西班牙语），而在第二帧中该簇可以改变类别标识并且因此改变语言（例如，英语）。这与旧有的基于信道的系统相反，在旧有的系统中，语言与某个声道静态耦合，而不是动态地改变。
[0085] 在S102处的簇指派在以上被描述。
[0086] 参考回图1，在S103,根据该指派，在类别的每个类别中的音频对象被分配至簇中的至少一个簇。
[0087] 在以下描述中，提供了两种方法用于在音频对象在S101处被分类至类别中并且簇在S102处被指派之后聚类音频对象。
[0088] 在一个方法中，基于减少与这些类别相关联的失真成本，将每个类别中的音频对象分配到被指派给这些类别中的一个或多个类别的簇中的至少一个簇。也就是说，由于被指派给每个类别的簇的数目是有限的，跨簇和跨类别的一些泄露是允许的，以便于减少失真成本并且避免复杂音频内容的人为噪音（artifact)。这种方法可以被称为模糊类别聚类。在该模糊类别聚类方法中，音频对象以某个增益被软划分至不同类别中的不同簇并且具有对应的成本。在聚类过程中，期望关于整体空间失真以及将一个类别中的对象分配至不同类别的簇的不利或失配，失真成本是最小的。因此，在簇预算和音频内容的复杂度之间存在权衡。模糊类别聚类方法可以适合于具有诸如区域掩蔽和抓取之类的元数据的音频对象，因为对于这些音频对象，不用于其他元数据严格分离。模糊类别聚类方法可以以以下阐述的方法来描述。
[0089] 在模糊类别聚类方法中，被指派给每个类别的簇的数目可以在S102处基于音频对象的重要度或者基于最小化整体空间失真来确定。对于基于重要度的簇指派，可能存在一些类别不被指派有任何簇。在这些情况中，模糊类别聚类方法可以在聚类音频对象的时候被应用，因为对象可以被软聚类至其他类别的一个或多个簇。应当注意到，在簇指派步骤中应用的方法和在音频对象聚类步骤中应用的方法之间可以没有必然相关性。
[0090] 在模糊类别聚类方法中，失真成本可以被表示为与以下各项中的一项或多项相关联的成本函数：（1)每个音频对象的原始空间位置(2)每个音频对象被分类到的类别的标识I，（3)每个簇的空间位置，或者更具体地，音频对象将被分配到的（多个）簇的空间位置，以及（4)与每个簇相关联的类别的标识rv在一个示例中，簇的经聚类的音频对象可以通过将所有输入音频对象以增益分布在其中来确定，其可以被表示为： o-O
[0091] ym='Zg〇：mx0 (11) 0=1
[0092] 其中0表示输入音频对象的数目，表示第m个簇的经聚类的音频对象，x。表示第〇个输入音频对象，并且增益g。^可以被表示为g。,^ F(P。，n。，pm，nm)。例如，如图2所示，在类别1中的音频对象可以以相应的增益被聚类至所有11个簇中，而无论这些簇被指派给哪些类别。
[0093] 在一些实施例中，g。,^增益可以通过最小化与;^、n。、和中的一项或多项相关联的成本函数来确定。成本函数可以基于每个音频对象的原始空间位置^与该音频对象被分配至的簇的空间位置；^。如以上讨论的，可以被确定为在第m个类别内具有最大重要度的音频对象的空间位置。例如，期望A与；^之间的距离尽可能的小。备选地或附加地，成本函数还可以关联于每个音频对象被分类到的类别的标识n。与一个簇被指派到的每个类别的标识rvt间的失配。一般而言，期望音频对象在同一个类别内被聚类，因而成本可以较小。
[0094] 在一些实施例中，成本函数可以被表示为使用;^、n。、和化的二阶多项式的累积贡献，并且可以从成本函数中确定出全局最小值作为增益详细讨论在以下阐述的方式中被提供。
[0095] 成本函数通常关于某个附加的准则而被最小化。在分配音频对象时，一个准则是维持输入音频对象的总幅度或能量，例如，
[0096] V〇e〇2(^0；m) =1 (12) m=l
[0097] 其中ct可以是1和2之间的值。对于音频对象〇,对应于所有M个簇的增益g。,^ 可以服从以上等式。
[0098] 在以下，可以讨论成本函数E。通过最小化成本函数，可以确定增益g。#
[0099] 如以上所提及的，成本函数可以和A与之间的距离相关联，其可以被视为成本函数的第一项E D，并且可以被确定为：
[moo] ED=zlls2〇,m pm~p〇 (13) m
[0101] 成本函数还可以和n。与之间的失配相关联，其可以被视为成本函数的第二项 Ec。E e可以表示跨不同类别内的簇聚类音频对象的成本，并且可以被确定为：
[0102] = ^S2〇,m(nm ' ~ W〇) (14) m
[0103] 其中nj = n。可以被确定为： - 「0， if n= n
[0104] 5 = L m 。（15) ll ifnm^ n0V 7
[0105] 如以上所提及的，当最小化成本函数时，一个准则是维持输入音频对象的加和幅度或能量。因此，成本函数还可以与能量的增加或损失相关联，也就是说，具体音频对象的增益和于+1的偏差。该偏差可以被视为成本函数的第三项E N，其可以被确定为：
[0106] 〇,m^2 (16) m
[0107] 另外，成本函数可以基于每个音频对象的空间位置A与该音频对象的重构空间位置A '之间的距离。重构空间位置A '可以根据音频对象以增益1"聚类到的簇的空间位置来确定/^。例如，;V可以被如下地确定：
[0108] P〇' = ^jS〇,mPm (17) m
[0109] 云。与之间的距离可以被认为是成本函数的第四项EP，并且可以被表示为：
(18)
[0111] 根据第一、第二、第三和第四项，成本函数可以被表示为这些项的加权和，并且可以被表示为：
[0112] E = wDED+wcEc+wNE N+wPEP (19)
[0113] 其中权重wD，we，wjP wP可以表示不同项在成本函数中的重要度。
[0114] 基于成本函数中的四个项，可以确定增益g。, "。计算g。, "的一个示例在以下被给出。应当指导，其他计算方法也是可能的。
[0115] 对于M个簇，第〇个对象的增益g。,^可以被写成一个向量：
[0116] g0 = (20) _S〇,M _
[0117] M个簇的空间失真可以被写成一个矩阵： Pi
[0118] PM= ; (21) .Pm.
[0119] 音频对象的原始空间位置的矩阵也可以被构建为： Po
[0120] P〇 = i (22) .Po.
[0121] 表示音频对象的原始空间位置与重构空间位置之间的距离的第一项ED可以被重新表示为： 2 T
[0122] ED=Y^lm pm-p〇 ^g〇Ks〇 (23) m
[0123] 其中AD表示具有对角元素A =$ _;2的对角矩阵。 mm Jr m o
[0124] 表示音频对象的n。与n "之间的失配的第二项E e可以被重新表示为：
[0125] Ec = {nm\ = n0) = g0 Ac g〇 (24) m
[0126] 其中Ac表示具有对角元素X m= (nm! = n。）的对角矩阵。
[0127] 表示音频对象的增益和与+1的偏差的第三项EN可以被重新表示为： / \2 j-
[0128] En= ^-2ix,MS〇 + S〇 iN,MS〇 (25) V rn J
[0129] 其中JN,M表示具有维度（N，M)的全一矩阵。
[0130] 表示音频对象的原始空间位置与重构空间位置之间的距离的第四项EP可以被重新表示为：
[0131] 2 T7 7'2广7' T \ 疒 T T _ -^1 -^1 -^ 1 -V EP= TjS〇,mPm-T^〇,^P〇 ^ So^M-go^O = So^M-So^O go^M-So^O (26) mm \ J\ J
[0132] 通过将以上公式（23)-(26)组合在一起，成本函数可以被表示为：
[0133] E^g〇Al0 + B~lo + C (27)
[0134] 其中
[0135] d = wp (PMPM - PMP0 - P0PM + P0P0) + WqAd + wcAc (28)
[0136] B = -2wnJ1jM (29)
[0137] C = wN (30)
[0138] 如以上所讨论的，期望获得成本函数的最小值，其可以通过以下来确定：
(31)
[0140] 给定：
[0141] [A + AT)g0+BT (32)
[0142] 最后，向量可以被确定为：
[0143] 1〇=-[A + AtY bt (33)
[0144] 通过计算以上公式，可以确定第〇个音频对象在M个簇之中的增益。
[0145] 第〇个音频对象可以以所确定的增益将向量&聚类至M个簇中。可以认识到，取决于所确定的增益向量，音频对象可以被聚类到它被分类到的一个类别中的一个簇，或者被聚类到不同类别的一个簇中，或者音频对象可以被聚类到它被分类到的一个类别中的多个簇，或者被聚类到多个不同类别的多个簇中。
[0146] 当增益向量^被确定时，通过公式（17)可以获得音频对象的重构空间位置。就此而言，确定增益的过程还可以被应用如以上所描述的基于最小化整体空间失真的簇指派中，以便确定重构空间位置并且因此确定每个类别的空间失真。
[0147] 应当注意，二阶多项式被用作确定成本函数的最小值的示例。在其他示例实施例中，许多其他指数值，例如1、1. 5、3等，也可以被使用。
[0148] 以上描述了用于音频对象聚类的模糊类别聚类方法。在另一个方法中，基于减少与每个类别相关联的空间失真成本，可以将该类别中的音频对象分配至被指派给该类别的簇中的至少一个簇。也就是说，不允许跨类别的泄露。音频对象聚类在每个类别内被执行并且音频对象不可以被分组至被指派给另一个类别的簇。这个方法可以被称为硬类别聚类方法。在该方法被应用的一些实施例中，音频对象可以被分配至与该音频对象对应的类别被指派的簇中的多于一个簇中。在进一步的实施例中，在音频对象聚类时不允许跨簇的泄露，并且一个音频对象仅被分配至对应的类别所指派的一个簇中。
[0149] 硬类别聚类方法可以适合于一些具体的应用，诸如对话替换或对话增强，这些应用要求音频对象（对话对象）彼此分离。
[0150] 在硬类别聚类方法中，由于一个类别中的音频对象不可以被聚类至其他类别的一个或多个簇中，因而期望在先前的簇指派时，每个类别被指派有至少一个簇。因此，在一些实施例中，以上所描述的通过最小化整体窘境失真的簇指派可能更适合。在其他实施例中，在应用应类别聚类时，基于重要性的簇指派也可以被使用。如以上所描述的，在簇指派中可以使用一些附加的条件来保证每个类别被指派有至少一个簇。例如，可以采用簇的最小阈值或者每个类别的空间失真的最小阈值。
[0151 ] 在一个或多个示例实施例中，在一个类别内，音频对象可以被分配至仅一个簇或者被分配至多个簇，因为该类别代表同一类待保留信息。例如，如图2所示，类别1中的音频对象可以被聚类至簇4、5和6中的一个或多个。在音频对象被聚类至一个类别内的多个簇的场景中，可以确定对应的增益以减少或甚至最小化与该类别相关联的失真成本，其可以类似于关于模糊类别聚类方法所描述的那些。区别在于确定是在一个类别内执行的。在一些实施例中，可以允许每个输入音频对象仅仅被聚类至它的类别所指派有的一个簇。
[0152] 以上描述了两种用于音频聚类的方法。应当注意，这两种方法可以单独地被利用或者结合在一起被利用。例如，在S101的音频对象分类和S102的簇指派之后，对于这些类别中的某些类别，模糊类别聚类方法可以被用于聚类它们的音频对象，并且对于剩余的类另IJ，可以应用硬类别聚类方法。也就是说，在一些类别内允许跨类别的一些泄露，而对于其他类别则不允许跨类别的泄露。
[0153] 在输入音频对象被分配至这些簇之后，对于每个簇，音频对象可以被组合以获得经聚类的音频对象，并且每个簇的音频对象的元数据可以被组合以获得经聚类的音频对象的元数据。经聚类的音频对象可以是在该簇中的所有音频对象利用对应增益的加权和。经聚类的音频对象的元数据在一些示例中可以是该类别所表示的对应元数据，或者在另外的示例中可以是该簇或其类别内的任何音频对象的对应元数据或者是最重要的音频对象的对应元数据。
[0154] 由于在音频对象聚类之前所有输入音频对象基于它们元数据中的待保留信息而被分类至对应的类别，不同的待保留元数据或待保留元数据的特定组合与不同的类别相关联。在聚类之后，对于一个类别内的音频对象，较不可能将它与关联于不同元数据的音频对象进行混合。就此而言，音频对象的元数据在聚类之后被保留。此外，在簇指派和音频对象分配过程中，考虑了空间失真或失真成本。
[0155] 图3描绘了根据本发明的一个示例实施例的用于元数据保留的音频对象聚类的系统300的架构。如图3所描绘的，系统300包括音频对象分类单元301，被配置为基于与多个音频对象相关联的元数据中的待保留信息，将多个音频对象分类到第一数目的多个类别中。系统300还包括簇指派单元302,被配置为将预定数目的簇指派给类别，以及音频对象分配单元303,被配置为根据指派将类别中的每个类别中的音频对象分配到簇中的至少一个簇。
[0156] 在一些实施例中，该信息可以包括以下各项中的至少一项或多项：音频对象的尺寸信息、区域掩蔽信息、抓取信息、内容类型、和渲染模式。
[0157] 在一些实施例中，音频对象分类单元301可以进一步被配置为将没有待保留信息的音频对象分类到一个类别中，以及将具有不同待保留信息的音频对象分类到不同类别。
[0158] 在一些实施例中，簇指派单元302可以进一步包括：基于重要度的确定单元，被配置为基于每个音频对象相对于其他音频对象的重要度，从多个音频对象中确定预定数目的音频对象；以及分布确定单元，被配置为确定预定数目的音频对象在类别之间的分布。在这些实施例中，簇指派单元302可以进一步被配置为根据分布将预定数目的簇指派给类别。
[0159] 在一些实施例中，簇指派单元302可以进一步被配置为基于减少类别的整体空间失真来将预定数目的簇指派给类别。
[0160] 在一些实施例中，类别的整体空间失真可以包括类别的个体空间失真之中的最大空间失真、或者类别的个体空间失真的加权和，并且每个类别的空间失真可以与类别中的每个音频对象的原始空间位置以及簇中的至少一个簇的空间位置相关联。
[0161] 在一些实施例中，可以基于至少一个簇的空间位置确定每个音频对象的重构空间位置，并且可以基于每个类别中的每个音频对象的原始空间位置与音频对象的重构空间位置之间的距离来确定类别的空间失真。
[0162] 在一些实施例中，多个音频对象处于音频信号的一个帧中，并且每个类别的空间失真可以进一步基于在当前帧中被指派给类别的簇的数目与在先前的帧中被指派给类别的簇的数目之间的差异。
[0163] 在一些实施例中，簇指派单元302可以进一步被配置为基于以下各项中的至少一项，迭代地减少类别的整体空间失真：在先前迭代中一个类别的空间失真的量，或者在当前迭代中一个类别的空间失真与在先前迭代中类别的空间失真之间的差异。
[0164] 在一些实施例中，簇指派单元302可以进一步被配置为基于以下各项中的至少一项来将预定数目的簇指派给类别：针对要被指派给每个类别的簇的数目的第一阈值，针对与每个类别的空间失真的第二阈值，以及每个类别相对于其它类别的重要度。
[0165] 在一些实施例中，系统300可以进一步包括音频对象重分类单元，被配置为基于一个类别的空间失真，将类别中的至少一个音频对象重分类至另一个类别。
[0166] 在一些实施例中，音频对象分配单元303可以进一步被配置为：基于减少与每个类别相关联的失真成本，来将每个类别中的音频对象分配至被指派给类别的簇中的至少一个簇。
[0167] 在一些实施例中，音频对象分配单元303可以进一步被配置为：基于减少与类别相关联的失真成本，将每个类别中的音频对象分配到被指派给类别中的一个或多个类别的簇中的至少一个簇。
[0168] 在一些实施例中，失真成本与以下各项中的一项或多项相关联：每个音频对象的原始空间位置、至少一个簇的空间位置、每个音频对象被分类到的类别的标识、和至少一个簇被指派到的每个类别的标识。
[0169] 在一些实施例中，失真成本基于以下各项中的一项或多项来确定：每个音频对象的原始空间位置与至少一个簇的空间位置之间的距离，每个音频对象的原始空间位置与音频对象的重构空间位置之间的距离，重构空间位置基于至少一个簇的空间位置而确定，以及每个音频对象被分类到的类别的标识与至少一个簇被指派到的每个类别的标识之间的失配。
[0170] 在一些实施例中，系统300可以进一步包括：音频对象组合单元，被配置为组合每个簇中的音频对象以获得聚类后的音频对象，以及元数据组合单元，被配置为组合每个簇中的音频对象的元数据以获得聚类后的音频对象的元数据。
[0171] 为清晰起见，在图3中没有描绘出系统300的某些另外的部件。然而，应当理解，上文参考图1所描述的各个特征同样适用于系统300。而且，系统300中的各部件可以是硬件模块，也可以是软件单元模块等等。例如，在某些实施例中，系统300可以部分或者全部利用软件和/或固件来实现，例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地，系统300可以部分或者全部基于硬件来实现，例如被实现为集成电路（1C)、专用集成电路（ASIC)、片上系统（S0C)、现场可编程门阵列（FPGA)等。本发明的范围在此方面不受限制。
[0172] 下面参考图4,其示出了适于用来实现本发明实施例的计算机系统400的示意性框图。如图4所示，计算机系统400包括中央处理单元（CPU)401，其可以根据存储在只读存储器（ROM)402中的程序或者从存储部分408加载到随机访问存储器（RAM)403中的程序而执行各种适当的动作和处理。如所需要的，在RAM 403中，还存储有CPU 401执行各种过程等的数据。CPU 401、R0M 402以及RAM 403通过总线404彼此相连。输入/输出（I/O)接口 405也连接至总线404。
[0173] 以下部件连接至I/O接口 405 :包括键盘、鼠标等的输入部分406 ;包括诸如阴极射线管（CRT)、液晶显示器（LCD)等以及扬声器等的输出部分407 ;包括硬盘等的存储部分 408 ;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口 405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。
[0174] 特别地，根据本发明的实施例，上文参考图1描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行方法100的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411 被安装。
[0175] 一般而言，本发明的各种示例实施例可以在硬件或专用电路、软件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。
[0176] 而且，流程图中的各框可以被看作是方法步骤，和/或计算机程序代码的操作生成的操作，和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如，本发明的实施例包括计算机程序产品，该计算机程序产品包括有形地实现在机器可读介质上的计算机程序，该计算机程序包含被配置为实现上文描述方法的程序代码。
[0177] 在公开的上下文内，机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备，或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器（RAM)、只读存储器 (ROM)、可擦除可编程只读存储器（EPROM或闪存）、光存储设备、磁存储设备，或其任意合适的组合。
[0178] 用于实现本发明的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器，使得程序代码在被计算机或其他可编程的数据处理装置执行的时候，引起在流程图和/ 或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。程序代码可以被分布在被特定编程的设备，这些设备通常在本文中可以被称为"模块"。这些模块的软件分组部分可以以任何具体计算机语言来编写并且可以是单片集成代码库的一部分，或者可以被开发成多个离散代码部分，诸如通常以面向对象的计算机语言来开发。此外，模块可以跨多个计算机平台、服务器、终端、移动设备等来分布。给定的模块甚至可以被实施为使得所描述的功能有单个处理器和/或计算机硬件平台来执行。
[0179] 如本申请中所使用的，属于"电路装置"指的是以下的所有：(a)仅硬件电路实现方式（诸如仅模拟电路装置和/或仅数字电路装置的实现方式）以及（b)与电路和软件 (和/或固件）的组合，诸如（可用的）：（i)与处理器的组合或（ii)处理器/软件（包括数字信号处理器）、软件、和存储器的一部分，这些部分一起工作以使得装置（诸如移动电话或服务器）执行各种功能，以及（c)电路，诸如微处理器或微处理器的一部分，其需要软件或固件用于操作，即使软件或固件不是物理存在的。此外，本领域技术人员已知的是，通信媒介通常体现计算机可读指令、数据结构、程序模块或模块化数据信号中的其他数据，该数据信号诸如载波或其他传输机制，并且通信媒介包括任何信息传送媒介。
[0180] 另外，尽管操作以特定顺序被描绘，但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成，或者执行所有图示的操作以获取期望结果。在某些情况下，多任务或并行处理会是有益的。同样地，尽管上述讨论包含了某些特定的实施细节，但这并不应解释为限制任何发明或权利要求的范围，而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。
[0181] 针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实施例范围。此外，前述说明书和附图存在启发的益处，涉及本发明的这些实施例的技术领域的技术人员将会想到此处阐明的本发明的其他实施例。
[0182] 由此，本发明可以通过在此描述的任何形式来实现。例如，以下的枚举示例实施例 (EEE)描述了本发明的某些方面的某些结构、特征和功能。
[0183] EEE 1. -种用于在音频对象聚类中保留对象元数据的方法，包括：将音频对象分配至类别中，每个类别代表一个或多个需要保留的元数据的特定组合，并且通过聚类过程来针对每个类别生成多个簇，聚类过程遵从整体（最大）数目的可用簇以及整体误差准则，并且该方法进一步包括：模糊对象类别分离或硬对象类别分离。
[0184] EEE 2.根据EEE 1的方法，其中模糊对象类别分离方法包括：例如通过选择最重要的对象来确定输出簇心；并且通过最小化成本函数来输出簇信号，该成本函数联合考虑： (1)每个对象的位置元数据(2)每个对象的类别标识I，（3)每个簇的位置元数据以及⑷与每个簇相关联的类别标识rv
[0185] EEE 3.根据EEE 2的方法，其中成本函数考虑对象类别标识n。与簇类别标识之间的失配。
[0186] EEE 4.根据EEE 1的方法，其中硬对象类别分离包括：通过最小化整体空间失真来为每个类别确定最优的簇数目；并且在每个簇内聚类对象，该聚类过程针对每个类别单独地执行。
[0187] EEE 5.根据EEE 4的方法，其中整体空间失真包括：在每个类别中测量原始对象位置和聚类后的位置之间的差异的空间位置，每个类别的重要度，以及每个类别的簇数目改变。
[0188] EEE 6.根据EEE 4的方法，为每个类别确定最优的簇数目的过程是迭代过程，并且在每次迭代中一个簇被添加或指派至最需要它的类别。
[0189] EEE 7.根据EEE 4的方法，为每个类别确定最优簇数目的过程是进一步包括对象重分配，以便避免一个类别中的大的空间失真。
[0190] 将会理解，本法明的实施例不限于公开的特定实施例，并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语，但是它们仅在通用和描述的意义上使用，而并不用于限制目的。
【主权项】
1. 一种用于元数据保留的音频对象聚类的方法，包括：基于与多个音频对象相关联的元数据中的待保留信息，将所述多个音频对象分类到多个类别中；将预定数目的簇指派给所述类别；以及根据所述指派，将所述类别中的每个类别中的音频对象分配到所述簇中的至少一个簇。2. 根据权利要求1所述的方法，其中所述信息包括以下各项中的至少一项或多项：音频对象的尺寸信息、区域掩蔽信息、抓取信息、内容类型、和渲染模式。3. 根据权利要求1所述的方法，其中基于与多个音频对象相关联的元数据中的待保留信息，将所述多个音频对象分类到多个类别中包括：将没有待保留信息的音频对象分类到一个类别中；以及将具有不同待保留信息的音频对象分类到不同类别。4. 根据权利要求1所述的方法，其中将预定数目的簇指派给所述类别包括：基于每个音频对象相对于其他音频对象的重要度，从所述多个音频对象中确定所述预定数目的音频对象；确定所述预定数目的音频对象在所述类别之间的分布；以及根据所述分布，将所述预定数目的簇指派给所述类别。5. 根据权利要求1所述的方法，其中将预定数目的簇指派给所述类别包括：基于减少所述类别的整体空间失真来将所述预定数目的簇指派给所述类别。6. 根据权利要求5所述的方法，其中所述类别的整体空间失真包括所述类别的个体空间失真之中的最大空间失真、或者所述类别的个体空间失真的加权和，并且其中每个类别的空间失真与所述类别中的每个音频对象的原始空间位置以及所述簇中的至少一个簇的空间位置相关联。7. 根据权利要求6所述的方法，其中基于所述至少一个簇的空间位置确定每个音频对象的重构空间位置，并且基于每个类别中的每个音频对象的原始空间位置与所述音频对象的重构空间位置之间的距离来确定所述类别的空间失真。8. 根据权利要求6所述的方法，其中所述多个音频对象处于音频信号的一个帧中，并且每个类别的空间失真进一步基于在当前帧中被指派给所述类别的簇的数目与在先前的帧中被指派给所述类别的簇的数目之间的差异。9. 根据权利要求5所述的方法，其中基于减少所述类别的整体空间失真来将所述预定数目的簇指派给所述类别包括：基于以下各项中的至少一项，迭代地减少所述类别的整体空间失真：在先前迭代中一个类别的空间失真的量，以及在当前迭代中一个类别的空间失真与在先前迭代中所述类别的空间失真之间的差异。10. 根据权利要求4至9中任一项所述的方法，其中将预定数目的簇指派给所述类别进一步基于以下各项中的一项或多项：针对要被指派给每个类别的簇的数目的第一阈值，针对每个类别的空间失真的第二阈值，以及每个类别相对于其它类别的重要度。11. 根据权利要求1所述的方法，进一步包括：基于一个类别的空间失真，将所述类别中的至少一个音频对象重分类至另一个类别。12. 根据权利要求1所述的方法，其中根据所述指派将所述类别中的每个类别中的音频对象分配到所述簇中的至少一个簇包括：基于减少与每个类别相关联的失真成本，来将所述类别中的音频对象分配至被指派给所述类别的簇中的至少一个簇。13. 根据权利要求1所述的方法，其中根据所述指派将所述类别中的每个类别中的音频对象分配到所述簇中的至少一个簇包括：基于减少与所述类别相关联的失真成本，将每个类别中的音频对象分配到被指派给所述类别中的一个或多个类别的簇中的至少一个簇。14. 根据权利要求12或13所述的方法，其中所述失真成本与以下各项中的一项或多项相关联：每个音频对象的原始空间位置、所述至少一个簇的空间位置、每个音频对象被分类到的类别的标识、和所述至少一个簇被指派到的每个类别的标识。15. 根据权利要求14所述的方法，其中所述失真成本基于以下各项中的一项或多项来确定：每个音频对象的原始空间位置与所述至少一个簇的空间位置之间的距离，每个音频对象的原始空间位置与所述音频对象的重构空间位置之间的距离，所述重构空间位置基于所述至少一个簇的空间位置而确定，以及每个音频对象被分类到的类别的标识与所述至少一个簇被指派到的每个类别的标识之间的失配。16. 根据权利要求1所述的方法，进一步包括：组合每个簇中的音频对象以获得聚类后的音频对象；以及组合每个簇中的音频对象的元数据以获得所述聚类后的音频对象的元数据。17. -种用于元数据保留的音频对象聚类的系统，包括：音频对象分类单元，被配置为基于与多个音频对象相关联的元数据中的待保留信息，将所述多个音频对象分类到多个类别中；簇指派单元，被配置为将预定数目的簇指派给所述类别；以及音频对象分配单元，被配置为根据所述指派将所述类别中的每个类别中的音频对象分配到所述簇中的至少一个簇。18. 根据权利要求17所述的系统，其中所述信息包括以下各项中的至少一项或多项：音频对象的尺寸信息、区域掩蔽信息、抓取信息、内容类型、和渲染模式。19. 根据权利要求17所述的系统，其中所述音频对象分类单元进一步被配置为将没有待保留信息的音频对象分类到一个类别中，以及将具有不同待保留信息的音频对象分类到不同类别。20. 根据权利要求17所述的系统，其中所述簇指派单元进一步包括：基于重要度的确定单元，被配置为基于每个音频对象相对于其他音频对象的重要度，从所述多个音频对象中确定所述预定数目的音频对象；以及分布确定单元，被配置为确定所述预定数目的音频对象在所述类别之间的分布，其中所述簇指派单元进一步被配置为根据所述分布将所述预定数目的簇指派给所述类别。21. 根据权利要求17所述的系统，其中所述簇指派单元进一步被配置为基于减少所述类别的整体空间失真来将所述预定数目的簇指派给所述类别。22. 根据权利要求21所述的系统，其中所述类别的整体空间失真包括所述类别的个体空间失真之中的最大空间失真、或者所述类别的个体空间失真的加权和，并且其中每个类别的空间失真与所述类别中的每个音频对象的原始空间位置以及所述簇中的至少一个簇的空间位置相关联。23. 根据权利要求22所述的系统，其中基于所述至少一个簇的空间位置确定每个音频对象的重构空间位置，并且基于每个类别中的每个音频对象的原始空间位置与所述音频对象的重构空间位置之间的距离来确定所述类别的空间失真。24. 根据权利要求22所述的系统，其中所述多个音频对象处于音频信号的一个帧中，并且每个类别的空间失真进一步基于在当前帧中被指派给所述类别的簇的数目与在先前的帧中被指派给所述类别的簇的数目之间的差异。25. 根据权利要求21所述的系统，其中所述簇指派单元进一步被配置为基于以下各项中的至少一项，迭代地减少所述类别的整体空间失真：在先前迭代中一个类别的空间失真的量，以及在当前迭代中一个类别的空间失真与在先前迭代中所述类别的空间失真之间的差异。26. 根据权利要求20至25中任一项所述的系统，其中所述簇指派单元进一步被配置为基于以下各项中的一项或多项来将所述预定数目的簇指派给所述类别：针对要被指派给每个类别的簇的数目的第一阈值，针对与每个类别的空间失真的第二阈值，以及每个类别相对于其它类别的重要度。27. 根据权利要求17所述的系统，进一步包括：音频对象重分类单元，被配置为基于一个类别的空间失真，将所述类别中的至少一个音频对象重分类至另一个类别。28. 根据权利要求17所述的系统，其中所述音频对象分配单元进一步被配置为：基于减少与每个类别相关联的失真成本，来将所述类别中的音频对象分配至被指派给所述类别的簇中的至少一个簇。29. 根据权利要求17所述的系统，其中所述音频对象分配单元进一步被配置为：基于减少与所述类别相关联的失真成本，将每个类别中的音频对象分配到被指派给所述类别中的一个或多个类别的簇中的至少一个簇。30. 根据权利要求28或29所述的系统，其中所述失真成本与以下各项中的一项或多项相关联：每个音频对象的原始空间位置、所述至少一个簇的空间位置、每个音频对象被分类到的类别的标识、和所述至少一个簇被指派到的每个类别的标识。31. 根据权利要求30所述的系统，其中所述失真成本基于以下各项中的一项或多项来确定：每个音频对象的原始空间位置与所述至少一个簇的空间位置之间的距离，每个音频对象的原始空间位置与所述音频对象的重构空间位置之间的距离，所述重构空间位置基于所述至少一个簇的空间位置而确定，以及每个音频对象被分类到的类别的标识与所述至少一个簇被指派到的每个类别的标识之间的失配。32. 根据权利要求17所述的系统，进一步包括：音频对象组合单元，被配置为组合每个簇中的音频对象以获得聚类后的音频对象；以及元数据组合单元，被配置为组合每个簇中的音频对象的元数据以获得所述聚类后的音频对象的元数据。33. -种计算机程序产品，包括被有形地包括在机器可读介质上的计算机程序，所述计算机程序包含程序代码，用于执行根据权利要求1至16中任一项所述的方法。
【文档编号】G10L15/07GK105895086SQ201410765578
【公开日】2016年8月24日
【申请日】2014年12月11日
【发明人】D·J·布里巴尔特, 陈连武, 芦烈, N·R·齐英戈斯
【申请人】杜比实验室特许公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：D·J·布里巴尔特;陈连武;芦烈;N·R·齐英戈斯;
技术所有人：杜比实验室特许公司;
我是此专利的发明人

上一篇：一种语音识别方法及装置的制造方法
上一篇：一种多媒体转写方法和系统的制作方法