包括音频对象的音频场景的高效编码的制作方法

文档序号：9476321阅读：179来源：国知局

包括音频对象的音频场景的高效编码的制作方法
【专利说明】包括首频对象的首频场景的局效编码
[0001]相关申请的交叉引用
[0002]本申请要求2013年5月24日提交的美国临时专利申请No:61/827246、2013年10月21日提交的美国临时专利申请No:61/893770、以及2014年4月I日提交的美国临时专利申请No =61/973623的申请日的权益，其中的每一个通过其完整引用合并到此。
技术领域
[0003]本公开在此总体上涉及包括音频对象的音频场景的编码。具体地说，其涉及用于音频对象的编码和解码的编码器、解码器以及相关联的方法。
【背景技术】
[0004]音频场景可以通常包括音频对象和音频通道。音频对象是具有可以随时间而变化的关联空间位置的音频信号。音频通道是直接与多通道扬声器配置(如具有三个前部扬声器、两个环绕扬声器以及一个低频效果扬声器的所谓的5.1扬声器配置)对应的音频信号。
[0005]由于音频对象的数量通常可以非常大，(例如在几百个音频对象的量级上)，因此需要允许在解码器侧处高效地重构音频对象的编码方法。已经建议在编码器侧上将音频对象组合为多通道下混(downmix)(即与特定多通道扬声器配置(如5.1配置)的通道对应的多个音频通道)，并且在解码器侧上从多通道下混以参变方式重构音频对象。
[0006]该方法的优点在于，不支持音频对象重构的传统解码器可以直接使用多通道下混，以用于多通道扬声器配置上的回放。通过示例的方式，可以在5.1配置的外放扬声器上直接播放5.1下混。
[0007]然而，该方法的缺点在于，多通道下混无法在解码器侧处给出音频对象的足够好的重构。例如，考虑具有与5.1配置的左前部扬声器相同的水平位置但不同的垂直位置的两个音频对象。这些音频对象将通常组合到5.1下混的同一通道中。这将在解码器侧处构成对于音频对象重构的以下挑战情况，必须从同一下混通道重构两个音频对象的近似，即一种不能确保完全重构并且有时甚至导致听觉伪声的处理。
[0008]因此需要提供高效并且改进的音频对象的重构的编码/解码方法。
[0009]在从例如下混重构音频对象期间一般采用辅助信息或元数据。该辅助信息的形式和内容可能例如影响所重构的音频对象的保真度和/或执行重构的计算复杂度。因此，将期望提供具有新的以及替选的辅助信息格式的编码/解码方法，其允许增加所重构的音频对象的保真度，和/或其允许减少重构的计算复杂度。
【附图说明】
[0010]现将参照附图描述示例实施例，在附图上:
[0011]图1是根据示例性实施例的编码器的示意性图解；
[0012]图2是根据示例性实施例的支持音频对象重构的解码器的示意性图解；
[0013]图3是根据示例性实施例的不支持音频对象重构的低复杂度解码器的示意性图解；
[0014]图4是根据示例性实施例的包括用于简化音频场景的依次布置的聚类组件的编码器的示意性图示；
[0015]图5是根据示例性实施例的包括用于简化音频场景的并行布置的聚类组件的编码器的示意性图解；
[0016]图6示出用于计算用于元数据实例集合的呈现矩阵的典型已知处理；
[0017]图7示出在呈现音频信号中所采用的系数曲线的推导；
[0018]图8示出根据示例实施例的元数据实例内插方法；
[0019]图9和图10示出根据示例实施例的引入附加元数据实例的示例；以及
[0020]图11示出根据示例实施例的使用具有低通滤波器的采样和保持电路的内插方法。
[0021]所有附图是示意性的并且通常仅示出为了阐明本公开而必需的部分，而其它部分可以省略或仅提及。除非另外声明，否则在不同附图中相似标号指代相同部分。
【具体实施方式】
[0022]鉴于上述，因此目的是提供一种编码器、解码器以及相关联的方法，其允许高效并且改进的音频对象重构，和/或其允许增加所重构的音频对象的保真度，和/或其允许减少重构的计算复杂度。
[0023]1.概述-编码器
[0024]根据第一方面，提供一种用于对音频对象进行编码的编码方法、编码器以及计算机程序产品。
[0025]根据示例性实施例，提供一种用于将音频对象编码到数据流中的方法，包括:
[0026]接收N个音频对象，其中，N〉I ；
[0027]通过根据独立于任何外放扬声器配置的准则来形成所述N个音频对象的组合，计算M个下混信号，其中，M彡N;
[0028]计算包括允许从所述M个下混信号重构基于所述N个音频对象形成的音频对象集合的参数的辅助信息；以及
[0029]将所述M个下混信号和所述辅助信息包括在数据流中，用于发送到解码器。
[0030]使用以上布置，就独立于任何外放扬声器配置从N个音频对象形成M个下混信号。这意味着M个下混信号并不限于适合于在具有M个通道的扬声器配置的通道上的回放的音频信号。反之，可以根据准则来更自由地选择M个下混信号，以使得它们例如适用于N个音频对象的动态并且改进在解码器侧处的音频对象的重构。
[0031]返回具有与5.1配置的左前部扬声器相同的水平位置但不同的垂直位置的两个音频对象的示例，所提出的方法允许将第一音频对象放在第一下混信号中，并且将第二音频对象放在第二下混信号中。这样使得能够在解码器中完全重构音频对象。通常，只要起作用的音频对象的数量不超过下混信号的数量，这种完全重构就是可能的。如果起作用的音频对象的数量较高，则所提出的方法允许选择必须被混合到同一下混信号中的音频对象，以使得解码器中的所重构的音频对象中产生的可能近似误差对所重构的音频场景没有或尽可能小的感知影响。
[0032]M个下混信号为自适应的第二优点是用于保持特定音频对象与其它音频对象严格分离的能力。例如，可以有利地保持任何对话对象与背景对象分离，以确保就空间属性而言精确地呈现对话，并且允许解码器中的对象处理(如对话增强或对话响度的增加，以用于改进的智能性)。在其它应用(例如卡拉0K)中，可以有利的是，允许完成一个或更多个对象的静音，这也要求这些对象不与其它对象混合。使用与特定扬声器配置对应的多通道下混的传统方法不允许其它音频对象的混合中出现的音频对象的完全静音。
[0033]词语下混信号反映下混信号是其它信号的混合体(即组合)。词语“下”指示下混信号的数量M通常低于音频对象的数量N。
[0034]根据示例性实施例，所述方法可以还包括:将每个下混信号与空间位置进行关联，并且将下混信号的空间位置包括在数据流中作为用于下混信号的元数据。这样的有利之处在于，其允许在传统回放系统的情况下使用低复杂度解码。更准确地说，与下混信号关联的元数据可以用在解码器侧上，以用于将下混信号呈现给传统回放系统的通道。
[0035]根据示例性实施例，N个音频对象与包括N个音频对象的空间位置的元数据关联，基于N个音频对象的空间位置来计算与下混信号关联的空间位置。因此，下混信号可以解释为具有取决于N个音频对象的空间位置的空间位置的音频对象。
[0036]此外，N个音频对象的空间位置以及与M个下混信号关联的空间位置可以是时变的，即，它们可以在音频数据的各时间帧之间变化。换言之，下混信号可以解释为具有在各时间帧之间变化的关联位置的动态音频对象。这与下混信号对应于固定空间外放扬声器位置的现有技术系统形成对比。
[0037]通常，辅助信息也是时变的，由此允许掌控音频对象重构的参数在时间上变化。
[0038]编码器可以应用不同的准则，以用于计算下混信号。根据示例性实施例，其中，N个音频对象与包括N个音频对象的空间位置的元数据关联，用于计算M个下混信号的准则可以基于N个音频对象的空间接近度。例如，彼此靠近的音频对象可以组合为同一下混信号。
[0039]根据示例性实施例，其中，与N个音频对象关联的元数据还包括指示N个音频对象相对于彼此的重要性的重要性值，用于计算M个下混信号的准则可以进一步基于N个音频对象的重要性值。例如，N个音频对象中的最重要的音频对象可以直接映射为下混信号，而其余音频对象被组合以形成其余下混信号。
[0040]具体地说，根据示例性实施例，计算M个下混信号的步骤包括第一聚类过程，其包括:基于N个音频对象的空间接近度和重要性值(若可用的话)将所述N个音频对象与M个聚类关联，以及通过形成与聚类关联的音频对象的组合来计算用于每个聚类的下混信号。在一些情况下，音频对象可以形成至多一个聚类的一部分。在其它情况下，音频对象可以形成若干聚类的一部分。以此方式，从音频对象形成不同的分组(即聚类)。每个聚类可以进而由可以看作音频对象的下混信号来表示。所述聚类方法允许将每个下混信号与基于音频对象(这些音频对象和与下混信号对应的聚类关联)的空间位置而计算出的空间位置进行关联。通过这种解释，第一聚类过程因此以灵活的方式将N个音频对象的维度减少为M个音频对象。
[0041]与每个下混信号关联的空间位置可以例如被计算为与和下混信号对应的聚类关联的音频对象的空间位置的质心或加权质心。权重可以例如基于音频对象的重要性值。
[0042]根据示例性实施例，通过应用具有N个音频对象的空间位置作为输入的K-means算法，所述N个音频对象得以与M个聚类关联。
[0043]由于音频场景可以包括巨大数量的音频对象，因此所述方法可以采取进一步措施，以用于减少音频场景的维度，由此当重构所述音频对象时减少在解码器侧处的计算复杂度。具体地说，所述方法还包括第二聚类过程，用于将第一组多个音频对象减少为第二组多个音频对象。
[0044]根据一个实施例，在计算M个下混信号之前，执行第二聚类过程。在该实施例中，第一组多个音频对象因此与音频场景的初始音频对象对应，并且减少的第二组多个音频对象与计算M个下混信号所基于的N个音频对象对应。此外，在该实施例中，基于N个音频对象形成的(待在解码器中重构的)音频对象集合与N个音频对象对应(即相等)。
[0045]根据另一实施例，与计算M个下混信号并行地执行第二聚类过程。在该实施例中，计算M个下混信号所基于的N个音频对象以及输入到第二聚类过程的第一组多个音频对象与音频场景的初始音频对象对应。此外，在该实施例中，基于N个音频对象所形成的(待在所述解码器中重构的)音频对象集合与第二组多个音频对象对应。以此方法，因此基于音频场景的初始音频对象而不基于减少数量的音频对象来计算M个下混信号。
[0046]根据示例性实施例，所述第二聚类过程包括:
[0047]接收第一组多个音频对象及其关联空间位置，
[0048]基于第一组多个音频对象的空间接近度而将第一组多个音频对象与至少一个聚类进彳丁关联，
[0049]通过用作为与至少一个聚类中的每一个相关联的音频对象的组合的音频对象来表示所述每一个聚类而生成第二组多个音频对象，
[0050]计算包括用于第二组多个音频对象的空间位置的元数据，其中，基于与对应聚类相关联的音频对象的空间位置而计算第二组多个音频对象的每个音频对象的空间位置；以及
[0051]将用于第二组多个音频对象的元数据包括在数据流中。
[0052]换言之，第二聚类过程利用音频场景(如具有等同或非常相似的位置的对象)中出现的空间冗余性。此外，当生成第二组多个音频对象时，可以考虑音频对象的重要性值。
[0053]如上所述，音频场景可以还包括音频通道。这些音频通道可以看作音频对象与静态位置(即与音频通道对应的外放扬声器的位置)关联。更详细地说，第二聚类过程可以还包括:
[0054]接收至少一个音频通道；
[0055]将至少一个音频通道中的每一个转换为具有与该音频通道的外放扬声器位置对应的静态空间位置的音频对象；以及
[0056]将转换后的至少一个音频通道包括在第一组多个音频对象中。
[0057]以此方式，所述方法允许对包括音频通道以及音频对象的音频场景进行编码。
[0058]根据示例性实施例，提供一种计算机程序产品，包括具有用于执行根据示例性实施例的解码方法的指令的计算机可读介质。
[0059]根据示例性实施例，提供一种用于将音频对象编码到数据流中的编码器，包括:
[0060]接收组件，被配置为接收N个音频对象，其中，N〉I ；
[0061]下混组件，被配置为:通过根据独立于任何外放扬声器配置的准则形成N个音频对象的组合，来计算M个下混信号，其中，M ( N ;
[0062]分析组件，被配置为:计算包括允许从M个下混信号重构基于N个音频对象所形成的音频对象集合的参数的辅助信息；以及
[0063]复用组件，被配置为:将M个下混信号和辅助信息包括在数据流中，以用于发送到解码器。
[0064]I1.概述-解码器
[0065]根据第二方面，提供一种用于对多通道音频内容进行解码的解码方法、解码器和计算机程序产品。
[0066]第二方面可以总体上具有与第一方面相同的特征和优点。
[0067]根据示例性实施例，提供一种用于对包括所编码的音频对象的数据流进行解码的解码器中的方法，包括:
[0068]接收数据流，数据流包括:M个下混信号，其为根据独立于任何外放扬声器配置的准则所计算出的N个音频对象的组合，其中，MSN;以及辅助信息，其包括允许从M个下混信号重构基于N个音频对象所形成的音频对象集合的参数；以及
[0069]从M个下混信号和辅助信息重构基于N个音频对象所形成的音频对象集合。
[0070]根据示例性实施例，所述数据流还包括含有与M个下混信号关联的空间位置的用于M个下混信号的元数据，所述方法还包括:
[0071]在解码器被配置为支持音频对象重构的状况时，执行步骤:从M个下混信号和辅助信息重构基于N个音频对象所形成的音频对象集合；以及
[0072]在解码器并未被配置为支持音频对象重构的状况时，使用用于M个下混信号的元数据，以用于将M个下混信号呈现给回放系统的输出通道。
[0073]根据示例性实施例，与M个下混信号关联的空间位置是时变的。
[0074]根据示例性实施例，辅助信息是时变的。
[0075]根据示例性实施例，所述数据流还包括用于基于N个音频对象所形成的音频对象集合的元数据，所述元数据含有基于N个音频对象所形成的音频对象集合的空间位置，所述方法还包括:
[0076]使用用于基于N个音频对象所形成的音频对象集合的元数据，以用于将所重构的基于N个音频对象所形成的音频对象集合呈现给回放系统的输出通道。
[0077]根据示例性实施例，基于N个音频对象所形成的音频对象集合等于N个音频对象。
[0078]根据示例性实施例，基于N个音频对象所形成的音频对象集合包括作为N个音频对象的组合的多个音频对象，并且其数量小于N。
[0079]根据示例性实施例，提供一种计算机程序产品，包括具有用于执行根据示例性实施例的解码方法的指令的计算机可读介质。
[0080]根据示例性实施例，提供一种用于对包括编码的音频对象的数据流进行解码的解码器，包括:
[0081]接收组件，被配置为:接收数据流，数据流包括:M个下混信号，其为根据独立于任何外放扬声器配置的准则所计算出的N个音频对象的组

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：H·普恩哈根;K·克约尔林;T·赫冯恩;L·维勒莫斯;D·J·布瑞巴特;L·J·萨米尔森;
技术所有人：杜比国际公司;
我是此专利的发明人

上一篇：包括音频对象的音频场景的高效编码的制作方法
上一篇：根据下混的音频场景的重构的制作方法