自适应音频内容生成的制作方法

文档序号：2826036阅读：183来源：国知局

自适应音频内容生成的制作方法
【专利摘要】本发明的实施例涉及自适应音频内容生成。具体而言，公开了一种用于生成自适应音频内容的方法，该方法包括：从基于声道的源音频内容中提取至少一个音频对象，以及至少部分地基于该至少一个音频对象生成自适应音频内容。还公开了相应的系统和计算机程序产品。
【专利说明】自适应音频内容生成

【技术领域】
[0001] 本发明总体上涉及音频信号处理，更具体地，涉及自适应音频内容生成。

【背景技术】
[0002] 目前的音频内容通常按照基于声道（channel based)的格式来生成和保存。例如，立体声、环绕5. 1、环绕7. 1都是得到广泛应用的基于声道的音频内容格式。随着多媒体技术的不断发展，诸如三维（3D)电影和电视之类的多媒体数字内容正在变得日益流行。然而，传统的基于声道的音频格式通常难以有效地创建与之相适应的具有沉浸感的、逼真的音频内容。因此，期望多声道音频系统能够相应地得到扩展，从而创建更为富有沉浸感的立体声声场。实现这一目标的重要途径之一是使用自适应（adaptive)音频内容。
[0003] 与传统基于声道的音频内容相比，自适应音频内容不仅包括音频声道，而且还包括音频对象（audio object)。在此使用的术语"音频对象"是指在所定义的一段持续时间中而存在的各种音频元素或声源。音频对象可以是动态的或者静态的。音频对象可以是在声场中充当声源的人、动物或者任何其他物体。可选地，音频对象还可以具有关联的元数据，例如用于描述对象的位置、速度、大小等方面的信息。音频对象的使用使得自适应音频内容具有很高的沉浸感和良好的听觉效果，并且允许调音师等操作者方便地控制和调整音频对象。而且，借助于对音频对象的操作，可以准确地控制离散的声音元素，而无需考虑具体的回放扬声器配置。同时，自适应音频内容可以进一步包括称为"静态环境声"（audio bed) 的基于声道的部分和/或任何其他音频元素。在此使用的术语"静态环境声"或简称"环境声"是指将在预定义的固定位置被回放的声音的音频声道。静态环境声可以被认为是静态的音频对象，并且同样可以具有相关联的元数据。以此方式，自适应音频内容还可以兼具声道格式的优势以便例如表示复杂的声音纹理。
[0004] 自适应音频内容的生成方式不同于单纯基于声道的音频内容。因此，为了获得自适应音频内容，必须自始使用相应的专用处理流程来创建和处理音频信号。然而，受到物理设备和/或技术条件的制约，并非所有音频内容提供方都能够生成这种自适应音频内容。很多音频内容提供方只能产生和提供基于声道的音频内容。而且，期望为已经被创建和发布的基于声道的音频内容创建三维（3D)体验。然而，对于目前已经存在的大量基于声道的传统音频内容而言，尚不存在一种方案能够将这些音频内容有效地转换为自适应音频内容。
[0005] 因此，本领域中需要一种能够将基于声道的音频内容转换为自适应音频内容的技术方案。

【发明内容】

[0006] 为了解决上述问题，本发明提出一种用于生成自适应音频的方法和系统。
[0007] 在一个方面，本发明的实施例提供一种用于生成自适应音频内容的方法。该方法包括：从基于声道的源音频内容中提取至少一个音频对象；以及至少部分地基于所述至少一个音频对象生成所述自适应音频内容。这方面的实施例还包括包含相应的计算机程序产品。
[0008] 在另一方面，本发明的实施例提供一种用于生成自适应音频内容的系统。该系统包括：音频对象提取器，被配置为从基于声道的源音频内容中提取至少一个音频对象；以及自适应音频生成器，被配置为至少部分地基于所述至少一个音频对象生成所述自适应音频内容。
[0009] 通过下文描述将会理解，根据本发明的实施例，能够在确保音频保真度的同时，将传统基于声道的音频内容有效地转换为自适应音频内容。特别地，能够从源音频内容中准确地提取一个或多个音频对象，用于表示尖锐的和动态的声音，从而允许对各个主要声源对象的控制、编辑、回放和/或后处理（re-authoring)。同时,复杂的音频纹理可以是基于声道的格式以支持高效的创作和分发。本发明的实施例所带来的其他益处将通过下文描述而清楚。

【专利附图】

【附图说明】
[0010] 通过参考附图阅读下文的详细描述，本发明实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例而非限制性的方式示出了本发明的若干实施例，其中：
[0011] 图1示出了根据本发明的一个示例实施例的自适应音频内容的示意图；
[0012] 图2示出了根据本发明的一个示例实施例的用于生成自适应音频内容的方法的流程图；
[0013] 图3示出了根据本发明的另一示例实施例的用于生成自适应音频内容的方法的流程图；
[0014] 图4示出了根据本发明的一个示例实施例的生成静态环境声的示意图；
[0015] 图5A和图5B不出了根据本发明的不例实施例的重置的首频对象的不意图；
[0016] 图6示出了根据本发明的一个示例实施例的元数据编辑的示意图；
[0017] 图7示出了根据本发明的一个示例实施例的用于生成自适应音频内容的系统的框图；以及
[0018] 图8示出了可用于实现本发明的示例实施例的计算机系统的示意性框图。
[0019] 在各个附图中，相同或对应的标号表不相同或对应的部分。

【具体实施方式】
[0020] 下面将参考附图中示出的若干示例实施例来描述本发明的原理和精神。应当理解，描述这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。
[0021] 首先参考图1，其示出了根据本发明实施例的自适应音频内容生成的示意图。根据本发明的实施例，将要被处理的源音频内容101采用传统的基于声道的格式，例如立体声、环绕5. 1、环绕7. 1等格式。特别地，根据本发明的实施例，源音频内容101可以是任何类型的最终混合音，或者是在被合并为传统立体声或多声道内容的最终混合音之前可被分别处理的一组音轨。源音频内容101被处理以生成两个部分：基于声道的静态环境声102,以及音频对象103和104。静态环境声102可以利用声道来表示复杂的音频纹理，例如声场中的背景声音和环境声音，这有利于高效的编辑和分发。音频对象可以是声场中的主要声源，例如尖锐和/或动态声音的声源。在图1所示的示例中，音频对象包括鸟103和青娃104。自适应音频内容105可以基于静态环境声102和声音对象103、104而被生成。
[0022] 应当注意，根据本发明的实施例，自适应音频内容并非必须包括音频对象和环境声。相反，某些自适应音频内容可以仅包含音频对象和环境声之一。备选地，自适应音频内容可以包含除音频对象和/或环境声之外的任何适当格式的附加音频元素。例如，某些自适应音频内容可以包括环境声和某些类似于对象的内容，例如频谱中的部分对象。本发明的范围在此方面不受限制。
[0023] 下面参考图2详细描述根据本发明一个示例实施例的用于生成自适应音频内容的方法200的流程图。方法200开始之后，在步骤S201，从基于声道的音频内容中提取至少一个音频对象。为讨论方便起见，将作为输入的基于声道的音频内容称为"源音频内容"。根据本发明的实施例，可以直接对源音频内容的音频信号进行处理，以从中提取音频对象。备选地，为了更好地保持源音频内容的空间保真度等目的，也可以首先对源音频内容的信号进行预处理，例如信号分解，使得音频对象可以从经过预处理的音频信号中被提取。这方面的实施例将在下文详述
[0024] 根据本发明的实施例，可以使用任何适当的方法来执行音频对象提取。总体上，可以基于频谱连续性和空间一致性，来确定音频内容中属于同一对象的信号分量。在实现中，可以对源音频内容进行处理以获取一个或多个音频信号特征或称线索，用以衡量源音频内容中的子频带、声道和/或帧是否属于同一音频对象。这种音频信号特征的示例可以包括但不限于：声音的方向/位置，发散性，直达混响声能比（DRR)、开/关同步、调和性 (harmonicity)调制、音高和音高波动、显著性/局部响度/能量、重复性，等等。任何其他适当的音频信号特征均可以与本发明的实施例结合使用，本发明的范围在此方面不受限制。音频对象提取的若干具体实施例将在下文进一步描述。
[0025] 在步骤S201处提取的音频对象可以采用各种适当的形式。例如，在某些实施例中，音频对象可以被生成为包含具有相似音频信号特征的信号分量的多声道音轨。备选地，音频对象也可以被生成为经过下混音的单声道音轨。注意，这里所描述的仅仅是几个示例。所提取的音频对象可以利用目前已知或者将来开发的任何适当形式来表示，本发明的范围在此方面不受限制。
[0026] 方法200继而进行到步骤S202,在此至少部分地基于在步骤S201处提取的至少一个音频对象生成自适应音频内容。根据某些实施例，可以将音频对象以及可能还有其他音频元素封装为单个声音文件，以作为得到的自适应音频内容。这些附加音频元素可以包括但不限于基于声道的静态环境声和/或任何其他格式的音频内容。备选地，音频对象和附加音频元素可以分别分发，并且由回放系统将其结合以便基于回放扬声器的配置来自适应地重建音频内容。
[0027] 特别地，根据本发明的某些实施例，在生成自适应音频内容时，还可以对音频对象和/或其他音频元素（如果有的话）执行各种后处理。后处理过程例如可以包括分离重叠的音频对象、操控音频对象、修改音频对象的属性、控制自适应音频内容的增益，等等。这方面的实施例将在下文进一步描述。
[0028] 在此特定示例中，方法200在步骤S202之后结束。通过执行方法200,可以将基于声道的音频内容转换为自适应的音频内容，其中尖锐的、动态的声音利用音频对象来表示，而背景声音之类的复杂音频纹理则借助于其他格式来表示，例如被表示为静态环境声。这种自适应音频内容可以被高效地分发，并且可以利用各种回放系统配置而被保真地回放。以此方式，可以同时兼具对象格式和声道格式之类的其他格式的优势。
[0029] 接下来参考图3,其示出了根据本发明一个示例实施例的用于生成自适应音频内容的方法300的流程图。应当理解，方法300可被认为是上文参考图2描述的方法200的一种具体实施例。
[0030] 方法300开始之后，在步骤S301对基于声道的源音频内容执行指向性音频信号和发散性音频信号分解，从而将源音频内容分解为指向性音频信号和发散性音频信号。执行信号分解的目的是为了随后更加准确和有效地提取音频对象和生成静态环境声。具体而言，如下文将会详述的，分解出的指向性音频信号可被用于提取音频对象，而发散性音频信号则可用于生成静态环境声。以此方式，能够在获得具有良好沉浸感的听觉感受的同时，确保源音频内容的较高保真度。而且，这有利于实现灵活的对象提取和较为准确的元数据估计。有关的实施例将在下文进一步描述。
[0031] 指向性音频信号是能够相对容易地被定位并且可以跨声道平移（pan)的主要声音。发散性音频信号是与指向性声源的相关性和/或跨声道相关性较弱的环境信号。根据本发明的实施例，在步骤S301，可以利用任何适当方法提取源音频内容中的指向性音频信号，则剩余的信号便是发散性音频信号。用于提取指向性音频信号的方法例如可以包括但不限于：主元分析（PCA)、独立元分析、B格式（B-format)分析，等等。以PCA为例，它可以基于特征值配对的概率分析而处理任何声道配置。例如，对于具有左声道（L)、右声道（R)、中央声道（C)，左环绕声道（Ls)和右环绕声道（Rs)这5个声道的源音频内容，可以对若干对（例如，10对）声道分别应用PCA，并且输出相应的立体声指向性信号和发散性信号。
[0032] 传统上，基于PCA的分离通常仅被应用于双声道配对。根据本发明的某些实施例， PCA可被扩展到多声道音频信号，以实现对源音频内容更为有效的信号分量分解。具体而言，对于包括C个声道的源音频内容，假设在这C个声道上根据平移法则（panning law)分布有D个指向性声源，并且C个发散性音频信号（每个由一个声道表示）与指向性声源弱相关和/或跨C个声道弱相关。根据本发明的实施例，可以将每个声道的模型定义为一个环境信号和根据其空间感知位置而被加权的指向性音频信号的和。时域多声道信号X。= (X1, · · · , χε)τ可以表示为：
[0033]

【权利要求】
1. 一种用于生成自适应音频内容的方法，所述方法包括：从基于声道的源音频内容中提取至少一个音频对象；以及至少部分地基于所述至少一个音频对象而生成所述自适应音频内容。
2. 根据权利要求1所述的方法，其中提取所述至少一个音频对象包括：将所述源音频内容分解为指向性音频信号和发散性音频信号；以及从所述指向性音频信号中提取所述至少一个音频对象。
3. 根据权利要求2所述的方法，其中分解所述源音频信号内容包括：对所述源音频内容执行信号分量分解；以及通过分析分解出的信号分量来计算发散概率。
4. 根据权利要求1到3中任一项所述的方法，其中提取所述至少一个音频对象包括：对于所述源音频内容中的多个帧中的每一个帧，通过频谱合成来识别和聚集存在相同音频对象的声道；以及跨所述多个帧对识别和聚集的所述声道执行时间合成，以便沿时间合成所述至少一个音频对象。
5. 根据权利要求4所述的方法，其中识别和聚集所述存在相同音频对象的声道包括：对于所述多个帧中的每一个帧，将频率范围划分为多个子频带；以及基于所述多个子频带之间的包络和频谱形状中至少一个的相似性，来识别和聚集所述存在相同音频对象的声道。
6. 根据权利要求1到5中任一项所述的方法，还包括：从所述源音频内容生成基于声道的静态环境声，并且其中生成所述自适应音频内容包括基于所述至少一个音频对象和所述静态环境声来生成所述自适应音频内容。
7. 根据权利要求6所述的方法，其中生成所述静态环境声包括：将所述源音频内容分解为指向性音频信号和发散性音频信号；以及从所述发散性音频信号生成所述静态环境声。
8. 根据权利要求6到7中任一项所述的方法，其中生成所述静态环境声包括：通过对所述源音频内容执行环境上混音来创建至少一个高度声道；以及从所述源音频内容的声道和所述至少一个高度声道生成所述静态环境声。
9. 根据权利要求1到8中任一项所述的方法，还包括：估计与所述自适应音频内容相关联的元数据。
10. 根据权利要求9所述的方法，其中生成所述自适应音频内容包括编辑与所述自适应音频内容相关联的所述元数据。
11. 根据权利要求10所述的方法，其中编辑所述元数据包括控制所述自适应音频内容的增益。
12. 根据权利要求1到11中任一项所述的方法，其中生成所述自适应音频内容包括：对所述至少一个音频对象执行后处理，所述后处理包括以下至少一个：分离所述至少一个音频对象中的至少部分重叠的音频对象；修改与所述至少一个音频对象相关联的属性；以及交互地操控所述至少一个音频对象。
13. -种用于生成自适应音频内容的系统，所述系统包括：音频对象提取器，被配置为从基于声道的源音频内容中提取至少一个音频对象；以及自适应音频生成器，被配置为至少部分地基于所述至少一个音频对象生成所述自适应音频内容。
14. 根据权利要求13所述的系统，还包括：信号分解器，被配置为将所述源音频内容分解为指向性音频信号和发散性音频信号，并且其中所述音频对象提取器被配置为从所述指向性音频信号中提取所述至少一个音频对象。
15. 根据权利要求14所述的系统，其中所述信号分解器包括：分量分解器，被配置为对所述源音频内容执行信号分量分解；以及概率计算器，被配置为通过分析分解出的信号分量来计算发散概率。
16. 根据权利要求13到15中任一项所述的系统，其中所述音频对象提取器包括：频谱合成器，被配置为对于所述源音频内容中的多个帧中的每一个帧，通过频谱合成来识别和聚集存在相同音频对象的声道；以及时间合成器，被配置为跨所述多个帧对识别和聚集的所述声道执行时间合成，以便沿时间合成所述至少一个音频对象。
17. 根据权利要求16所述的系统，其中所述频谱合成器包括：频率划分器，被配置为对于所述多个帧中的每一个帧，将频率范围划分为多个子频带，并且其中所述频谱合成器被配置为基于所述多个子频带之间的包络和频谱形状中至少一个的相似性，来识别和聚集所述存在相同音频对象的声道。
18. 根据权利要求13到17中任一项所述的系统，还包括：静态环境声生成器，被配置为从所述源音频内容生成基于声道的静态环境声，并且其中所述自适应音频生成器被配置为基于所述至少一个音频对象和所述静态环境声来生成所述自适应音频内容。
19. 根据权利要求18所述的系统，还包括：信号分解器，被配置为将所述源音频内容分解为指向性音频信号和发散性音频信号，并且其中所述静态环境声生成器被配置为从所述发散性音频信号生成所述静态环境声。
20. 根据权利要求18到19中任一项所述的系统，其中所述静态环境声生成器包括：高度声道创建器，被配置为通过对所述源音频内容执行环境上混音来创建至少一个高度声道，并且其中所述静态环境声生成器被配置为从所述源音频内容的声道和所述至少一个高度声道来生成所述静态环境声。
21. 根据权利要求13到20中任一项所述的系统，还包括：元数据估计器，被配置为估计与所述自适应音频内容相关联的元数据。
22. 根据权利要求21所述的系统，还包括：元数据编辑器，被配置为编辑与所述自适应音频内容相关联的所述元数据。
23. 根据权利要求22所述的系统，其中所述元数据编辑器包括增益控制器，被配置为控制所述自适应音频内容的增益。
24. 根据权利要求13到23中任一项所述的系统，其中所述自适应音频生成器包括：后处理控制器，被配置为对所述至少一个音频对象执行后处理，所述后处理控制器包括以下至少一个：对象分离器，被配置为分离所述至少一个音频对象中的至少部分重叠的音频对象；属性修改器，被配置为修改与所述至少一个音频对象相关联的属性；以及对象操控器，被配置为交互地操控所述至少一个音频对象。
25. -种计算机程序产品，包括有形地包含于机器可读介质上的计算机程序，所述计算机程序包含用于执行根据权利要求1到12任一项所述的方法的程序代码。
【文档编号】G10L19/008GK104240711SQ201310246711
【公开日】2014年12月24日申请日期:2013年6月18日优先权日:2013年6月18日
【发明者】王珺, 芦烈, 胡明清, D·J·布里巴特, N·R·辛格斯申请人:杜比实验室特许公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王珺;芦烈;胡明清;D·J·布里巴特;N·R·辛格斯
技术所有人：杜比实验室特许公司
我是此专利的发明人

上一篇：集成音频编解码器的芯片
上一篇：Wifi音响与智能终端协商解码的方法及系统的制作方法