用于低延迟对象元数据编码的装置及方法

文档序号：9713663阅读：446来源：国知局

用于低延迟对象元数据编码的装置及方法
【技术领域】
[0001] 本发明涉及音频编码/解码，特别涉及空间音频编码和空间音频对象编码，更特别涉及用于有效的对象元数据编码的装置和方法。
【背景技术】
[0002] 在本技术领域中，空间音频编码工具是众所周知的并且，例如，在环绕MPEG标准中已被标准化。空间音频编码从诸如在再现装备（setup)中通过其布置而识别的五个或七个声道（即左声道、中间声道、右声道、左环绕声道、右环绕声道以及低频增强声道）的原始输入声道开始。空间音频编码器通常从原始声道得到一个或多个降混合声道，以及此外，得到关于空间线索（cues)的参数化数据，例如在声道相干数值中的声道间水平差异、声道间相位差异、声道间时间差异等等。一个或多个降混合声道与指示空间线索的参数化边信息一起被传输至空间音频解码器，该空间音频解码器对降混合声道和相关联的参数化数据进行解码以最终获得输出声道，该输出声道为原始输入声道的近似版本。声道在输出装备中的布置通常为固定的且为，例如5.1声道格式或7.1声道格式等。
[0003] 此种基于声道的音频格式被广泛用于储存或传输多声道音频内容，其中每个声道涉及在给定位置处的特定扬声器。这些种类的格式的忠实再现需要扬声器装备，其中扬声器放置在与音频信号产生期间所使用的扬声器相同的位置。而增加扬声器数量可改进真正拟真的三维音频场景的再现，但是达到此要求变得越来越困难，尤其是在诸如客厅的家庭环境中。
[0004] 通过基于对象的方法可以克服对特定扬声器装备的需求，在基于对象的方法中特别针对播放装备渲染扬声器信号。
[0005] 例如，空间音频对象编码工具在此技术领域中是众所周知的且在MPEG SA0C(SA0C =空间音频对象编码)标准中被标准化。相比于空间音频编码从原始声道开始，空间音频对象编码从非自动专用于特定渲染再现装备的音频对象开始。另外，音频对象在再现场景中的布置是灵活的，且可由用户通过将特定渲染信息输入至空间音频对象编码解码器来确定。可选地或此外地，渲染信息，即在再现装备中特定音频对象通常随时间待被放置的位置处的信息，可被传输作为附加的边信息或元数据。为了获得特定的数据压缩，通过SA0C编码器对多个音频对象进行编码，SA0C编码器通过根据特定的降混合信息对对象进行降混合以从输入对象计算一个或多个传输声道。此外，SA0C编码器计算表示对象间线索的参数化边信息，例如对象水平差异(0LD)、对象相干数值等等。当在空间音频编码(SAC)中，针对个别的时间/频率平铺(time/frequency tiles)(即，针对包括例如1024或2048个样本的音频信号的特定帧，24、32或64等)计算对象间参数化数据，考虑频带以使得最后对于每个帧和每个频带都存在参数化数据。作为示例，当音频片具有20个帧且每个帧被细分成32个频带时，时间/频率平铺的数量为640。
[0006] 在基于对象的方法中，通过离散音频对象描述声场。此需要对象元数据，其描述每个声源在3D空间中的时变位置。
[0007] 现有技术中的第一元数据编码概念为空间声音描述交换格式（SpatDIF)，尚在发展中的音频场景描述格式[1]。音频场景描述格式被设计为用于基于对象的声音场景的交换格式，且其并没有提供任何用于对象轨迹的压缩方法。SpatDIF使用基于文本的开放式声音控制(0SC)格式以构造对象元数据[2]。然而，简单的基于文本的表示并不是用于对象轨迹的经压缩的传输的选项。
[0008] 现有技术中的另一个元数据概念为音频场景描述格式(ASDF)[3]，其和基于文本的解决方案具有相同的缺点。由同步多媒体集成语言（SMIL)的扩展构造数据，该同步多媒体集成语言(SMIL)为可扩展标记语言(XML) [ 4，5 ]的子集。
[0009] 现有技术中的另一个元数据概念为用于场景的音频二进制格式(AudioBIFS)，二进制格式是MPEG-4规范[6,7]的一部分。它与基于乂1^的虚拟现实建模语言（￥1?^)密切相关，基于XML的虚拟现实建模语言被开发用于音频虚拟3D场景的描述和交互式虚拟现实应用[8]。复杂的AudioBIFS规范使用场景图以指定对象移动的路径。AudioBIFS的主要缺点在于，它并非被设计用于要求有限的系统延迟和随机访问数据流的实时操作。此外，对象位置的编码没有运用听者的有限定位能力。对于音频虚拟场景中的固定的听者位置，可以利用较低数目的比特[9]来量化对象数据。因此，应用于AudioBIFS的对象元数据的编码对于数据压缩是无效的。
[0010] 因此，如果能提供改进的有效的对象元数据编码概念，将会获得高度的赞赏。

【发明内容】

[0011] 本发明的目的在于提供用于对象元数据编码的改进技术。通过根据权利要求1的装置、根据权利要求6的装置、根据权利要求12的系统、根据权利要求13的方法、根据权利要求14的方法以及根据权利要求15的计算机程序达成本发明的目的。
[0012] 提供一种用于生成一个或多个音频声道的装置，该装置包括:元数据解码器，用于根据控制信号(b)从一个或多个经处理的元数据信号( Z1，…，ZN)生成一个或多个重建的元数据信号（11'，一，別'），其中一个或多个重建的元数据信号(^'，一，別'）中的每个指示与一个或多个音频对象信号的音频对象信号相关联的信息，其中元数据解码器用于通过确定用于一个或多个重建的元数据信号（^'，一，別'）中的每个的多个重建的元数据样本(^' (11)，一，別'（11))以生成一个或多个重建的元数据信号(1 1'，一，幼'）。此外，该装置包括:音频声道生成器，用于根据一个或多个音频对象信号以及根据一个或多个重建的元数据信号 ( Χ1'，···，ΧΝ'）生成一个或多个音频声道。元数据解码器用于接收一个或多个经处理的元数据信号( Z1，…，ΖΝ)中的每个的多个经处理的元数据样本(Ζ1(η)，…，ΖΝ(η))。此外，元数据解码器用于接收控制信号（b)。此外，元数据解码器用于确定一个或多个重建的元数据信号 ( X1'，…，XN'）中的每个重建的元数据信号(Xl'）的多个重建的元数据样本(1 1'（1)，-^1'（11-1)，^'（11))中的每个重建的元数据样本(11'（11))，以使得当控制信号(13)指示第一状态卬 (η) =0)时，所述重建的元数据样本(Xl'（η))为一个或多个经处理的元数据信号中的一个 (Zl)的经处理的元数据样本中的一个( Zl(n))与所述重建的元数据信号(Xl'）的另一个已生成的重建的元数据样本(Xl'（n-1))的和，并使得当控制信号指示不同于第一状态的第二状态（b(n) = l)时，所述重建的元数据样本（Xl'（η))为一个或多个经处理的元数据信号 (Ζ1,…，ΖΝ)中的所述一个(Zi)的经处理的元数据样本(Zi(l))，···，Zi(n))中的所述一个(Zi (n))〇
[0013] 此外，提供一种用于生成包括一个或多个编码的音频信号和一个或多个经处理的元数据信号的编码的音频信息的装置。此装置包括:元数据编码器，用于接收一个或多个原始元数据信号，以及用于确定一个或多个经处理的元数据信号，其中一个或多个原始元数据信号中的每个包括多个原始元数据样本，其中一个或多个原始元数据信号中的每个的原始元数据样本指示与一个或多个音频对象信号中的音频对象信号相关联的信息。
[0014] 此外，该装置包括:音频编码器，用于对一个或多个音频对象信号进行编码以获得一个或多个编码的音频信号。
[0015] 元数据编码器用于确定一个或多个经处理的元数据信号(zi，…，ZN)中的每个经处理的元数据信号（zi)的多个经处理的元数据样本(zi (1)，…zi (n-1)，zi (η))中的每个经处理的元数据样本(ζΚη))，以使得当控制信号(b)指示第一状态(b(n) = 0)时，所述重建的元数据样本(Zl(n))指示一个或多个原始元数据信号中的一个(Xl)的多个原始元数据样本中的一个( Xl(n))与所述经处理的元数据信号（Zl)的另一个已生成的经处理的元数据样本之间的差值或量化差值;并使得当控制信号指示不同于第一状态的第二状态(b(n) = l)时，所述经处理的元数据样本(zdn))为一个或多个经处理的元数据信号中的所述一个(Xl)的原始元数据样本(xi(1)，…，xi(η))中的所述一个(xi (η))或为原始元数据样本(xi (1)，…，xi (11))中的所述一个(11(11))的量化表示(91(11))。
[0016] 根据实施例，提供用于对象元数据的数据压缩概念，其利用有限的数据速率实现用于多个传输声道的有效压缩机制。编码器和解码器没有引入额外的延迟。此外，可实现用于纯方位角变化(例如，照相机旋转）的良好的压缩速率。此外，所提供的概念支持不连续的轨迹，例如位置的跳跃。此外，实现了低解码复杂度。此外，实现了具有有限的重新初始化时间的随机访问。
[0017]此外，提供一种用于生成一个或多个音频声道的方法，该方法包括：
[0018] -根据控制信号(b)从一个或多个经处理的元数据信号(zi，…，ZN)中生成一个或多个重建的元数据信号(^'，一，幼'），其中一个或多个重建的元数据信号(^'，一，別'）中的每个指示与一个或多个音频对象信号中的音频对象信号相关联的信息，其中通过确定用于一个或多个重建的元数据信号（ X1'，···，'）中的每个的多个重建的元数据样本（X1' (η)，…，ΧΝ'（η))，以执行生成一个或多个重建的元数据信号( X1 '，…，XN'）；以及
[0019] -根据一个或多个音频对象信号以及根据一个或多个重建的元数据信号(xi'，···， XN'），生成一个或多个音频声道。
[0020]通过接收一个或多个经处理的元数据信号(Ζ1,…，ΖΝ)中的每个的多个经处理的元数据样本(Ζ1(η)，···，ζΝ(η))、通过接收控制信号(b)以及通过确定一个或多个重建的元数据信号( X1'，…，XN'）中的每个重建的元数据信号(Xl'）的多个重建的元数据样本(1 1'（1)，一 xi'（n-1)，xi'（η))中的每个重建的元数据样本(xi'（η))，以执行生成一个或多个重建的元数据信号(1 1'，一，幼'），以使得当控制信号(13)指示第一状态(13(11)=0)时，所述重建的元数据样本(Xl'（η))为一个或多个经处理的元数据信号中的一个( Zl)的经处理的元数据样本中的一个(Zl(n))与所述重建的元数据信号（Xl'）的另一个已生成的重建的元数据样本( Xl' (n-1))的和，并使得当控制信号指示不同于第一状态的第二状态(b(n) = l)时，所述重建的元数据样本(Xl'（η))为一个或多个经处理的元数据信号(Z1，…， ZN)中的所述一个(Zl)的经处理的元数据样本(zi(l)，…，zi(n))中的所述一个(zi(n))。
[0021]此外，提供一种用于生成包括一个或多个编码的音频信号和一个或多个经处理的元数据信号的编码的音频信息的方法，此方法包括：
[0022]-接收一个或多个原始元数据信号；
[0023]-确定一个或多个经处理的元数据信号；以及
[0024]-对一个或多个音频对象信号进行编码以获得一个或多个编码的音频信号。
[0025] -个或多个原始元数据信号中的每个包括多个原始元数据样本，其中一个或多个原始元数据信号中的每个的原始元数据样本指示与一个或多个音频对象信号中的音频对象信号相关联的信息。确定一个或多个经处理的元数据信号包括:确定一个或多个经处理的元数据信号（ Z1，…，ZN)中的每个经处理的元数据信号（Zl)的多个经处理的元数据样本 ( Ζι(1)Γ··Ζι(η-1)，Ζι(η))中的每个经处理的元数据样本( Zl(n))，以使得当控制信号(b)指示第一状态(b(n)=0)时，所述重建的元数据样本(Zl(n))指示一个或多个原始元数据信号中的一个( Xl)的多个原始元数据样本中的一个(Xl(n))与所述经处理的元数据信号（21)的另一个已生成的经处理的元数据样本之间的差值或量化差值，并使得当控制信号指示不同于第一状态的第二状态(b(n) = l)时，所述经处理的元数据样本(Zl(n))为一个或多个经处理的元数据信号中的所述一个(Xl)的原始元数据样本( Χι(1)，···，Χι(η))中的所述一个(Xl (η))或为原始元数据样本(xi(l)，···，h(n))中的所述一个(xi(n))的量化表示(qi(n))。
[0026] 此外，提供一种计算机程序，当其执行于计算机或信号处理器上时，其用于实现上述方法。
【附图说明】
[0027] 以下将参考附图详细地描述本发明的实施例，其中：
[0028] 图1示出根据实施例的用于生成一个或多个音频声道的装置；
[0029] 图2示出根据实施例的用于生成编码的音频信息的装置；
[0030] 图3示出根据实施例的系统；
[0031] 图4示出通过方位角、仰角以及半径表示的音频对象在三维空间中离原点的位置。
[0032] 图5示出音频声道生成器假定的音频对象和扬声器装备的位置；
[0033]图6示出差分脉冲码调制编码器；
[0034]图7示出差分脉冲码调制解码器；
[0035]图8a示出根据实施例的元数据编码器；
[0036]图8b示出根据另一实施例的元数据编码器；
[0037]图9a示出根据实施例的元数据解码器；
[0038]图9b示出根据实施例的元数据解码器子单元；
[0039]图10示出3D音频编码器的第一实施例；
[0040]图11示出3D音频解码器的第一实施例；

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：克里斯蒂安·鲍斯;克里斯蒂安·埃特尔;约翰内斯·希勒佩特;
技术所有人：弗朗霍夫应用科学研究促进协会;
我是此专利的发明人

上一篇：基于听觉场景分析及语音模型化的语音信号分离及合成的制作方法
上一篇：高效率对象元数据编码的装置及方法