使用被插值矩阵的多通道音频的渲染的制作方法

文档序号:9893670阅读:279来源:国知局
使用被插值矩阵的多通道音频的渲染的制作方法
【专利说明】使用被插值矩阵的多通道音频的這染
[0001] 相关申请的交叉引用
[0002] 本申请要求2013年9月27日提交的美国临时专利申请No. 61/883,890的优先权,该 申请的全部内容特此通过引用并入。
技术领域
[0003] 本发明设及音频信号处理,并且尤其设及使用被插值矩阵的多通道音频节目(例 如,指示包括至少一个音频对象通道和至少一个扬声器通道的基于对象的音频节目的位 流)的擅染、W及节目的编码和解码。在一些实施例中,解码器对种子本原矩阵集合执行插 值W确定用于对节目的通道进行擅染的被插值矩阵。一些实施例W已知为Do化y化U細D的 格式产生、解码和/或擅染音频数据。
【背景技术】
[0004] Do化y和Do化y TrueHD是Do化y Laboratories Licensing Co;rporation(杜比实 验室特许公司)的商标。
[0005] 擅染音频节目的复杂度W及经济成本和计算成本随将被擅染的通道的数量而增 加。在基于对象的音频节目的擅染和回放期间,音频内容具有若干数量的通道(例如,对象 通道和扬声器通道),该数量通常比常规的基于扬声器通道的节目的擅染和回放期间出现 的数量大得多(例如,大一个量级)。通常同样地,用于回放的扬声器系统包括其数量比用于 常规的基于扬声器通道的节目的回放的数量大得多的扬声器。
[0006] 尽管本发明的实施例对于擅染任何多通道音频节目的通道是有用的,但是本发明 的许多实施例对于擅染具有大量通道的基于对象的音频节目的通道是特别有用的。
[0007] 利用回放系统(例如,在电影院里)来擅染基于对象的音频节目是已知的。基于对 象的音频节目可W指示许多不同的音频对象,运些音频对象对应于屏幕上的图像、对话、噪 声、发源于屏幕上的不同地方的音效、W及创建预期的总体听觉体验的背景音乐和环境效 果(其可W由节目的扬声器通道指示)。运样的节目的准确回放要求声音被W关于音频对象 大小、位置、强度、移动和深度尽可能接近地对应于内容创建者预期意图的方式再现。
[000引在基于对象的音频节目的产生期间,通常假定将被用于擅染的扩音器位于回放环 境中的任意位置处;不一定为(标称)水平面中的预定布置或者在节目产生时已知的任何其 他的预定布置。通常,包括在节目中的元数据指示用于在表观空间位置处或者沿着轨迹(在 Ξ维空间中)擅染节目的至少一个对象(例如,通过使用扬声器的Ξ维阵列)的擅染参数。例 如,节目的对象通道可W具有对应的元数据,该元数据指示(由对象通道指示的)对象将在 其处被擅染的表观空间位置的Ξ维轨迹。该轨迹可W包括"地板"位置(该位置在被假定为 位于回放环境的地板上或另一个水平面中的扬声器的子集的平面中)的序列W及"地板上 方"位置(每个位置通过驱动被假定为位于回放环境的至少一个其他的水平面中的扬声器 的子集而被确定)的序列。
[0009]基于对象的音频节目在许多方面表现出优于传统的基于扬声器通道的音频节目 的显著改进,运是因为基于扬声器通道的音频就特定音频对象的空间回放而言比基于对象 通道的音频受到的限制更多。基于扬声器通道的音频节目仅由扬声器通道组成(不由对象 通道组成),并且每个扬声器通道通常确定对于收听环境中的特定的、单独的扬声器的扬声 器馈送。
[0010] 用于产生并擅染基于对象的音频节目的各种方法和系统已经被提出。在基于对象 的音频节目的产生期间,通常假定任意数量的扩音器将被用于回放该节目,并且要被用于 回放的扩音器将被安置在回放环境中的任意位置;不一定被安置于(标称)水平面中或者被 安置为在产生节目时已知的任何其他的预定布置。通常,包括在节目中的对象相关的元数 据指示用于在表观空间位置处或者沿着轨迹(在Ξ维空间中)擅染节目的至少一个对象(例 如,通过使用扬声器的Ξ维阵列)的擅染参数。例如,节目的对象通道可W具有对应的元数 据,该元数据指示(由对象通道指示的)对象将在其处被擅染的表观空间位置的Ξ维轨迹。 该轨迹可W包括"地板"位置(该位置在被假定为位于回放环境的地板上或另一个水平面中 的扬声器的子集的平面中)的序列W及"地板上方"位置(每个位置通过驱动被假定为位于 回放环境的至少一个其他的水平面中的扬声器的子集而被确定)的序列。例如在PCT国际申 请NO.PCT/US2001/028783中描述了基于对象的音频节目的擅染的例子,该申请于2011年9 月29日按照国际公开No.W0 2011/119401 A2公布,并且被转让给本申请的受让人。
[0011] 基于对象的音频节目可W包括"床(bed)"通道。床通道可W是指示其位置在相关 的时间间隔期间不改变的对象的对象通道(所W通常使用具有静态扬声器位置的一组回放 系统扬声器进行擅染),或者它可W是(将被回放系统的特定扬声器擅染的)扬声器通道。床 通道不具有对应的时变位置元数据(但是它们可W被认为具有时不变位置元数据)。它们可 W指示散布在空间中的音频元素,例如,指示环境的音频。
[0012] 基于对象的音频节目通过传统的扬声器设置(例如,7.1回放系统)的回放是通过 将节目的通道(包括对象通道)擅染到一组扬声器馈送来实现的。在本发明的典型的实施例 中,擅染基于对象的音频节目的对象通道(在本文中有时被称为对象)和其他通道(或者另 一种类型的音频节目的通道)的过程在很大程度上(或者仅)包括每个时刻的空间元数据 (关于将被擅染的通道巧I树应的增益矩阵化本文中被称为"擅染矩阵")的转换,所述增益 矩阵表示通道(例如,对象通道和扬声器通道)中的每个通道对于用于特定扬声器的扬声器 馈送所指示的(在所述时刻的)音频内容的混合的贡献程度(即,节目的每个通道在扬声器 馈送所指示的混合中的相对权重)。
[001引基于对象的音频节目的%象通道"指示采样序列,所述采样指示音频对象,并且 该节目通常包括指示每个对象通道的对象位置或轨迹的空间位置元数据值的序列。在本发 明的典型实施例中,与节目的对象通道对应的位置元数据值的序列被用于确定MXN矩阵A (t),该矩阵指示用于该节目的时变增益规范(specification)。
[0014]在节目的时间V时音频节目的"N"个通道(例如,对象通道,或者对象通道和扬声 器通道巧ΓΜ"个扬声器(扬声器馈送)的擅染可W由长度"N"的矢量x(t)乘WMXN矩阵A(t) 来表示,矢量x(t)由来自每个通道的在时间"t"时的音频采样组成,矩阵A(t)被从时间"t" 时的相关联的位置元数据及可选地,与将被擅染的音频内容对应的其他元数据,例如, 对象增益)确定。时间t时的扬声器馈送的结果值(例如,增益或水平)可W被表示为矢量y (t),如下式(1):
[0015]
[0016] 尽管式(1)描述了音频节目(例如,基于对象的音频节目、或者基于对象的音频节 目的编码版本)的N个通道到Μ个输出通道(例如,Μ个扬声器馈送)的擅染,但是它还表示如 下的一般性的场景的集合,其中一组Ν个音频采样通过线性运算而被转换为一组Μ个值(例 如,Μ个采样)。例如,A(t)可W是静态矩阵"Α",其系数不随着时间"t"的不同值而改变。另举 一例,A(t)(其可W是静态矩阵A)可W表示一组扬声器通道x(t)到更小的一组扬声器通道y (t)的常规下混(或者x(t)可W是WAmbisonics格式描述空间场景的一组音频通道),并且 到扬声器馈送y(t)的转换可W被规定为乘W下混矩阵A。即使在利用标称静态下混矩阵的 应用中,所应用的实际的线性变换(矩阵乘法)仍可W是动态的,W便确保下混的裁剪保护 (即,静态变换A可W被转换为时变变换A(t),W确保裁剪保护)。
[0017] 音频节目擅染系统(例如,实现运样的系统的解码器)可W在节目期间仅间歇地、 而不是在每一个时刻"t"都接收确定擅染矩阵A(t)的元数据(或者它可W接收矩阵本身)。 例如,运可能是由于多种原因中的任何一个(例如,实际输出元数据的系统的时间分辨率 低、或者需要限制节目的传输的位率)导致的。发明人已经认识到,对于擅染系统可能可取 的是,分别在节目期间的时刻tl和t2在擅染矩阵A(tl)和A(t2)之间进行插值,W获得用于 中间时刻"t3"的擅染矩阵A(t3)。插值确保被擅染的扬声器馈送中的对象的感知位置随着 时间的过去平滑地改变,并且可W消除来源于不连续的(分段恒定的)矩阵更新的不希望的 伪像,诸如拉链噪声。插值可W是线性的(或非线性的),并且通常应确保从A(tl巧ljA(t2)的 时间上连续的路径。
[0018] Do化y Tru細D是支持音频信号的无损的、可缩放的传输的常规的音频编解码器格 式。源音频被编码为通道的子流的层次结构,并且运些子流的所选择的子集(而不是所有运 些子流)可W从位流被检索并且被解码,W便获得空间场景的更低维度(下混)呈现。当所有 的子流都被解码时,所得的音频与源音频相同(编码、后跟解码,是无损的)。
[0019] 在化ue皿的市售版本中,源音频通常是被编码为Ξ个子流的序列的7.1通道混合, 包括可W被解码W确定7.1通道原始音频的两通道下混的第一子流。前两个子流可W被解 码W确定原始音频的5.1通道下混。所有Ξ个子流都可W被解码W确定原始的7.1通道音 频。Do化y化ue皿W及它所基于的Meridian无损包装(MLP)技术的技术细节是众所周知的。 化ue皿和MLP技术的各方面在W下文献中有所描述:2003年8月26日发表并且被转让给杜比 实验室特许公司的美国专利6,611,212;^及在1.465第52卷第3期第243-260页(2004年3 月)上的、Gerzon等人的标题为叮he MLP Lossless Compression System for PCM Audio" 的论文。
[0020] TrueHD支持下混矩阵的规范。在典型的使用中,7.1通道音频节目的内容创建者指 定将7.1通道节目下混为5.1通道混合的静态矩阵、W及将5.1通道下混下混为2通道下混的 另一个静态矩阵。每个静态矩阵可W被转换为下混矩阵序列(该序列中的每个矩阵用于对 节目中的不同间隔进行下混),W便实现裁剪保护。然而,该序列中的每个矩阵被发送(或者 确定该序列中的每个矩阵的元数据被发送)给解码器,并且解码器不对任何先前指定的下 混矩阵执行插值来确定用于节目的下混矩阵序列中的后续矩阵。
[0021] 图1是常规的True皿系统的元件的示意图,在该示意图中,编码器(30)和解码器 (32)被配置为对音频采样执行矩阵化运算。在图1系统中,编码器30被配置为将8通道音频 节目(例如,传统的一组7.1扬声器馈送)编码为包括两个子流的编码位流,解码器32被配置 为对该编码位流进行解码W擅染原始8通道节目(无损地)或原始8通道节目的2通道下混。 编码器30被禪合,并且被配置为产生编码位流并且将该编码位流断言到传送系统31。
[0022] 传送系统31被禪合,并且被配置为将编码位流传送(例如,通过存储和/或发送巧。 解码器32。在一些实施例中,系统31实现编码的多通道音频节目通过广播系统或网络(例 如,互联网)到解码器32的传送(例如,发送)。在一些实施例中,系统31将编码的多通道音频 节目存储在存储介质(例如,盘或一组盘)中,并且解码器32被配置为从该存储介质读取该 节目。
[0023] 编码器30中被标记为"Inv化Assi即Γ的块被配置为对输入节目的通道执行通道 置换(等同于乘W置换矩阵)。经置换的通道然后在级33中进行编码,级33输出八个编码的 信号通道。编码的信号通道可W (但无需)对应于回放扬声器通道。编码的信号通道有时被 称为"内部"通道,运是因为解码器(和/或擅染系统)通常对编码的信号通道的内容进行解 码和擅染W恢复输入音频,使得编码的信号通道对于编码/解码系统而言是"内部"的。在级 33中执行的编码等同于经置换的通道的每组采样乘W编码矩阵(被实现为下面将更详细地 描述的被标识为i^l,,...,/fj,/Γl的n+l个矩阵乘法的级联)。
[0024] 矩阵确定子系统34被配置为产生指示两个输出矩阵集合(一个集合对应于编码通 道的两个子流中的一个子流)的系数的数据。一个输出矩阵集合由两个矩阵/?,/f组成,其 中每个是尺寸为2X2的本原矩阵(下面描述),并且用于擅染包括编码位流的编码音频通道 中的两个的第一子流(下混子流)(W擅染八通道输入音频的两通道下混)。另一个输出矩阵 集合由擅染矩阵Ρο,Ρι,...,Pn(其中每个均是本原矩阵)组成,并且用于擅染包括编码位流 的全部八个编码音频通道的第二子流(W无损地恢复八通道输入音频节目)。在编码器处应 用于音频的矩阵婷,if连同矩阵P〇-i,PrV ..,Pn-i-起的级联等于将8输入音频通道变换为2 通道下混的下混矩阵规范,并且矩阵Ρο,Ρι,...,Pn的级联将编码位流的8个编码通道擅染回 原始8输入通道。
[0025] 从子系统34输出到包装子系统35的(每个矩阵的)系数是元数据,其指示将被包括 在节目的通道的对应混合中的每个通道的相对或绝对增益。(针对节目期间的某一时刻的) 每个擅染矩阵的系数表示混合中的每个通道应对用于特定回放系统扬声器的扬声器馈送 所指示的(在擅染的混合的对应时刻的)音频内容的混合做出多大贡献。
[0026] 八个编码音频通道(从编码级33输出)、输出矩阵系数(由子系统34产生)、通常还 有附加数据被断言到包装子系统35,包装子系统35将它们组装为编码位流,该编码位流然 后被断言到传送系统31。
[0027] 编码位流包括指示八个编码音频通道的数据、两个输出矩阵集合(一个集合对应 于编码通道的两个子流中的一个子流)、通常还有附加数据(例如,关于音频内容的元数 据)。
[0028] 解码器32的解析子系统36被配置为接受(读取或接收)来自传送系统31的编码位 流,并且对该编码位流进行解析。子系统36可操作为断言编码位流的子流,所述子流包括仅 包括编码位流的编码通道中的两个的"第一"子流;并且将与第一子流对应的矩阵 (传 ,/f )输出到矩阵乘法级38(W用于如下处理,该处理导致原始8通道输入节目的2通道 下混呈现)。子系统36也可操作为将编码位流的子流(包括编码位流的全部八个编码通道的 "第二"子流)和对应的输出矩阵(Ρο,Ρι,. . .,Pn)断言到矩阵乘法级37W用于如下处理,该处 理导致无损地擅染原始8通道节目。
[0029] 更具体地,级38将第一子流的两个通道的两个音频采样乘W矩阵i^,if的级联, 并且所得的每个两个线性变换采样的集合经过标记为乂MssignO"的块所表示的通道置换 (等同于乘W置换矩阵),W得到所需的8个原始音频通道的2通道下混的每对采样。在编码 器30和解码器32中执行的矩阵化运算的级联等同于将8个输入音频通道变换为2通道下混 的下混矩阵规范的应用。
[0030] 级37将每个八个音频采样(编码位流的八个通道的全集中的每个通道一个音频采 样)的矢量乘W矩阵Ρο,Ρ?,...,Pn的级联,并且所得的每个八个线性变换采样的集合经过标 记为乂 hAssignl"的块所表示的通道置换(等同于乘W置换矩阵),W得到被无损地恢复的 原始8通道节目的每个八个采样的集合。为了使输出的8通道音频与输入的8通道音频完全 相同实现系统的"无损"特性),在编码器30中执行的矩阵化运算应正好是(包括量化效 果)在解码器32中对编码位流的无损(第二)子流执行的矩阵化运算的逆(即,乘W矩阵Po, Pi,...,Pn的级联)。因此,在图1中,编码器30的级33中的矩阵化运算被标识为在解码器32的 级37中应用的相反序列中的矩阵口〇,&,...瓜的逆矩阵的级联,即,巧:1,,..,巧^/^1。
[0031] 解码器32应用由编码器30应用的通道置换的逆(即,解码器32的元件"化Assignl" 所表示的置换矩阵是编码器30的元件"InvCMssignl"所表示的矩阵的逆)。
[0032] 给定下混矩阵规范(例如,尺寸为2X8的静态矩阵A的规范),编码器30的常规的 Tru細D编码器实现的目标是设计输出矩阵(例如,图1的P〇,Pi,...,Pn和传,片)和输入矩阵 (巧-1,...,巧-1,巧-1)^及输出(和输入)通道分配,从使得:
[0033] 1.编码位流是分层次的(即,在例子中,前两个编码通道足W导出2通道下混呈现, 并且八个编码通道的全集足W恢复原始8通道节目);并且
[0034] 2.用于最上流(在例子中,Ρο,Ρι,...,Pn)的矩阵是完全可逆的,W使得输入音频可 W被解码器完全恢复。
[0035] 典型的计算系统W有限的精度工作,而精确地对任意的可逆矩阵进行逆运算可能 需要非常高的精度。True皿通过将输出矩阵和输入矩阵(即,Ρο,Ρι,. . .,Pn和P )约束为已知为"本原矩阵"的类型的方阵。
[0036] 尺寸为NX N的本原矩阵P为如下形式:
[0037]
[0038] 本原矩阵总是方阵。尺寸为NXN的本原矩阵与尺寸为NXN的单位矩阵相同,除了 一个(非平凡(non-trivial))行(在例子中,即,包括元素 α〇,αι,α2,···αΝ-ι的行)之外。在所有 其他的行中,非对角线元素是零,并且与对角线共享的元素绝对值为1(即,要么是+1,要么 是-1)。为了简化本公开中的语言,附图和描述将总是假定本原矩阵具有等于+1的对角线元 素,可能除了非平凡行中的对角线元素之外。然而,我们注意到,运并不丧失一般性,并且在 本公开中呈现的构思适合在其中对角线可W是+1或-1的一般类型的本原矩阵。
[0039] 当本原矩阵Ρ对矢量x(t)进行运算(即,乘W矢量x(t))时,结果是乘积Px(t),其是 除了 1之外所有元素与x(t)完全相同的另一个N维矢量。因此,每个本原矩阵可W与它操纵 (或者它对其进行运算)的唯一通道相关联。
[0040] 在本文中我们将使用术语"单位本原矩阵"来表示如下的本原矩阵,其中(本原矩 阵的非平凡行)与对角线共享的元素具有绝对值1(即,要么是+1,要么是-1)。因此,单位本 原矩阵的对角线由全正1(+1)或全负1(-1)或者一些正1和一些负1组成。本原矩阵仅改变音 频节目通道的采样的集合(矢量)的一个通道,并且由于对角线上的值为1,单位本原矩阵也 是无损地可逆的。再一次,为了简化本文中的讨论,我们将使用术语单位本原矩阵来指代其 非平凡行具有对角线元素+1的本原矩阵。然而,本文中(包括在权利要求中)对于单位本原 矩阵的所有论述意图涵盖更一般的情况,在所述更一般的情况下,单位本原矩阵可W具有 其与对角线的共享元素为+1或-1的非平凡行。
[0041] 如果在本原矩阵P的W上例子中,〇2 = 1(得到具有由正1组成的对角线的单位本原 矩阵),则看出P的逆正好是:
[0042]
[0043] -般而言,单位本原矩阵的逆简单地通过对其非平凡α系数中的不沿着对角线的 每个非平凡α系数进行逆运算(乘W-1)而被确定是真的。
[0044] 如果在图1的解码器32中利用的矩阵Ρο,Ρι,...,Ρη是单位本原矩阵(具有单位对角 线),则编码器3〇中的矩阵化运算序列巧-1,...,矿,巧-1和解码器3帥的Ρο,Ρι,...,Ρη可W由 图2Α和图2Β中所示的类型的有限精度电路实现。图2Α是用于经由用有限精度运算实现的本 原矩阵来执行无损矩阵化的编码器的常规电路。图2Β是用于经由用有限精度运算实现的本 原矩阵来执行无损矩阵化的解码器的常规电路。在W上引用的2003年8月26日发表的US专 利6,611,212中描述了图24和图28电路(及其变型)的典型实现的细节。
[0045] 在图2A(表示用于对包括通道S1、S2、S3和S4的四通道音频节目进行编码的电路) 中,第一本原矩阵P(fi(具有一行四个非零α系数)通过将通道S1的相关采样与通道S2、S3和 S4的(在相同时间t发生的)对应采样混合,来对通道S1的每个采样进行运算产生编码通 道Sr )。第二本原矩阵ΡΓ?(也具有一行四个非零α系数)通过将通道S2的相关采样与通道 S1'、S3和S4的对应采样混合来对通道S2的每个采样进行运算产生编码通道S2'的对应 采样)。更具体地,通道S2的采样乘W矩阵Ρ0-?的系数αι的逆巧被标识为"coeff[l,2r)^ 道S3的采样乘W矩阵Ρ0-?的系数02的逆(其被标识为"coeff[l,3r),通道S4的采样乘W矩 阵Ρ0-?的系数03的逆(其被标识为"coeff[l,4r),乘积被求和然后被量化,然后从通道Sl的 对应采样减去经量化的和。类似地,将通道S1的采样乘W矩阵ΡΓ?的系数α0的逆(其被标识 为"coeff[2,lr),将通道S3的采样乘W矩阵PΓl的系数α2的逆(其被标识为"coeff[2, 3Γ ),将通道S4的采样乘W矩阵ΡΓ?的系数03的逆(其被标识为"coeff [2,4]"),乘积被求和 并然后被量化,然后从通道S2的对应采样减去经量化的和。矩阵Ρ0-?的量化级Q1对求和元件 的输出进行量化W产生量化值,该求和元件对乘法(乘W矩阵Ρ0-?的非零α系数,运些系数通 常是分数值)的乘积进行求和,该量化值被从通道S1的采样减去W产生编码通道sr的对应 采样。矩阵ΡΓ?的量化级Q2对求和元件的输出进行量化W产生量化值,该求和元件对乘法 (乘W矩阵ΡΓ?的非零α系数,运些系统通常是分数值)的乘积进行求和,该量化值被从通道 S2的采样减去W产生编码通道S2'的对应采样。在典型的实现(例如,用于执行True皿编码) 中,通道S1、S2、S3和S4中的每一个通道的每个采样包括24个位(如图2A中所指示的),并且 每个乘法元件的输出包括38个位(也如图2A中所指
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1