使用奇异值分解进行高阶高保真立体声编码和解码的方法和装置的制造方法

文档序号:10618750阅读:296来源:国知局
使用奇异值分解进行高阶高保真立体声编码和解码的方法和装置的制造方法
【专利摘要】使用奇异值分解来对HOA信号进行编码和解码包括:基于声源方向值和高保真立体声阶次,形成(11)对应的球谐右矢量(|Y(Ωs)>)和编码器模式矩阵(ΞOxS)。根据音频输入信号(|x(Ωs)>),确定奇异阈值(σε)。对编码器模式矩阵执行奇异值分解(13),以便得到与所述阈值比较的相关奇异值,导致最终的编码器模式矩阵秩基于扬声器的方向值(Ωl)和解码器高保真立体声阶次(Nl),形成(18)对应的右矢量(|Y(Ωl)>)以及解码器模式矩阵(ΨOxL)。对解码器模式矩阵执行奇异值分解(19),以提供最终的解码器模式矩阵秩根据最终的编码器模式矩阵秩和最终的解码器模式矩阵秩,确定最终的模式矩阵秩(rfin),并且根据最终的模式矩阵秩以及编码器侧的奇异值分解,计算编码器模式矩阵(ΞOxS)的伴随伪逆和高保真立体声右矢量(|a′s>)。根据所述最终的模式矩阵秩(rfin)减少(16)高保真立体声右矢量(|a′s>)的分量的数量,以便提供改动的高保真立体声右矢量(|a′l>)。根据改动的高保真右矢量、解码器侧的奇异值分解的输出值和所述最终的模式矩阵秩计算(15)伴随解码器模式矩阵(Ψ+),得到所有扬声器的输出信号的右矢量(|y(Ωl)>)。
【专利说明】
使用奇异值分解进行高阶高保真立体声编码和解码的方法和 装置
技术领域
[0001] 本发明设及用于使用奇异值分解进行高阶高保真立体声(Ambisonics)编码和解 码的方法和装置。
【背景技术】
[0002] 高阶高保真立体声巧igher化der Ambisonics,H0A)表示S维声音。其他技术是 波场合成(WFS)或基于声道的方法(比如,22.2)。然而,与基于声道的方法相反,册A表示提 供独立于特定扬声器设置的优点。但是,运种灵活性是WHOA表示在特定扬声器设置上的回 放所需的解码处理为代价的。与所需扬声器的数量通常非常大的方法相比,HOA也可W 被擅染到仅由几个扬声器组成的设置。HOA的其他优点是,同一表示也可W无任何修改地用 于对耳机的双耳擅染。
[0003] 册A基于复谐波平面波振幅的空间密度的通过截断球谐(SH)扩展的表示。每个扩 展系数是角频率的函数,其可W等效地由时域函数表示。因此,不失一般性地,整个HOA声场 表示实际上可被假定为由0个时域函数组成,其中0表示扩展系数的数量。运些时域函数在 下面将被等效地称为HOA系数序列或册A声道。册A表示可W被表达为包含HOA系数的HOA数 据帖的时间序列。HOA表示的空间分辨率随着扩展的最大阶次N增长而提高。对于3D情况,扩 展系数的数量0随着阶次N呈二次方地增长,特别地为0=(化I)2。
[0004] 复矢量空间
[0005] 高保真立体声必须处理复函数。因此引入了基于复矢量空间的符号。该符号随抽 象的复矢量操作,所述复矢量不表示从=维"xyz"坐标系知道的真实的几何矢量。相反,每 个复矢量描述物理系统的可能的状态,并且在d维空间中由具有d个分量Xi的列矢量形成, 并且根据Dirac,运些面向列的矢量被称为右矢量化et vector),被表示为I X〉。在d维空间 中,任意的I X〉由其分量Xi和d个正交基矢量I ei>形成:
[0006]
")
[0007] 运里,d维空间不是通常的"xyz" 3D空间。
[000引右矢量的共辆复数被称为左矢量(bra vector) I x〉* = <x I。左矢量表示基于行的 描述,并且形成原始右矢量空间的对偶空间一一左矢量空间。
[0009] 该Dirac符号将被用在对高保真立体声相关音频系统的W下描述中。
[0010] 内积可W根据同一维度的左矢量和右矢量来构建,得到复数标量值。如果随机矢 量|x>由其在正交矢量基中的分量描述,则对于特定基的特定分量,即,|x>到I ei>上的投 影,由内积给出:
[0011] Xi = <X I I Gi> = <x I Gi> (2)
[0012] 在左矢量和右矢量之间,仅考虑一个条、而非两个条。
[001引对于同一基中的不同矢量I X〉和I y〉,内积通过将左矢量<x I乘W右矢量I y>而得 到,使得:
[0014]
(3)
[0015] 如果维度mxl的右矢量和维度Ixn的左矢量被乘W外积,则具有m行n列的矩阵A被 导出:
[0016] A=Ix^yI (4)
[0017] 高保真立体声矩阵
[0018] 基于高保真立体声的描述考虑了用于将整个声场映射到时变矩阵中所需的相关 性(dependency)。在高阶高保真立体声化OA)编码或解码矩阵中,行(列)的数量与从声源或 声宿(sound sink)起的特定方向相关。在编码器侧,变化数量的S个声源被考虑,其中,S = 1,…,S。每个声源S可W具有离原点的个体距离。、个体方向Q s=(0s,Os),其中,0S描述 从Z轴开始的倾斜角,Os描述从X轴开始的方位角。对应的时间相关信号Xs=(t)具有个体时 间行为。
[0019] 为芦K心虑方向部分(径向相关性将由贝塞尔函数描述)。那么,特定方向 Q S用列矢量 苗述,其中,n表示高保真立体声度,m是高保真立体声阶次N的索 引。对应的值分别按m= 1,…财Pn = -m,…,0,? ? 'm取值。
[0020] 一般来说,特定HOA描述根据N来对2D或3D情况下的每个右矢量I 從y)限制 分量的敬量0:
[0021] ㈱
[0022] 对于多于一个的声源,如果阶次n的S个个体矢量悄n(化))被组合,则所有方向都 被包括。运导致包含0 X S个模式分量的模式矩阵曰,即,曰的每个列表示特定方向:
[0023] ㈱
[0024] 所有信号值都被组合在信号矢量Ix化T)〉中,但是被W共同的采样速率^采样,信 号矢量Ix化T)〉考虑每个源信号Xs化T)的时间相关性:
[0025] (7)
[00%]在下文中,为简单起见,在比如I X化T)〉的时变信号中,采样编号k不再被描述,即, 它将被忽视。那么,如方程(8)中所示,I X〉被乘W模式矩阵S。运确保所有信号分量都与对应 的同一方向QS的列线性地组合,根据方程(5)得到具有O个高保真立体声模式分量或系数 的右矢量I as〉:
[0027] as> = S|x> (8)
[00%]解码器具有再现由专用数量的I个扬声器信号I y>所表示的声场I ai>的任务。因 此,扬声器模式矩阵W由基于球谐的单位矢量阳。'裤{八的L个单独的列组成(类似于方程 (6 )),即,每个扬声器方向一个右矢量:
[0029] Qi: |ai>=W |y> (9)
[0030] 对于其中模式的数量等于扬声器的数量的二次矩阵,I y>可W由模式矩阵W的逆 矩阵确定。在其中行和列的数量可W不同的任意矩阵的一般情况下,扬声器信号I y>可W由 伪逆确定,参见M.A.F*oletti,"A S地erical 化rmonic A卵roach to 3D Surround Sound Systems" ,Acusti州m论坛,布达佩斯,2005。那么,利用W的伪逆W + :
[0031] y> = W+|ai> (10)
[0032] 假定在编码器侧和解码器侧描述的声场几乎是相同的,即,|as〉> |ai〉。然而,扬声 器位置可W不同于源位置,即,对于有限的高保真立体声阶次,由I X〉描述的实值源信号和 由I y>描述的扬声器信号是不同的。因此,将映射I X〉在I y>上的平移矩阵G可W被使用。那 么,根据方程(8)和(10 ),编码器和解码器的串运算是:
[0033] y>=GW+H|x> (11)
[0034] 线性泛函
[0035] 为了保持W下方程更简单,平移矩阵直到"
【发明内容】
"章节都将被忽视。如果所需 的基矢量的数量变为无限,则基矢量可W从离散基变为连续基。因此,函数f可W被解释为 具有无限数量的模式分量的矢量。运从数学意义上来讲被称为"泛函",因为它W确定性的 方式执行从右矢量到特定的输出右矢量的映射。它可W用函数f和右矢量I X〉之间的内积表 示,得到一般的复敬C:
[0036] (12)
[0037] 如果泛函保持右矢量的线性组合,则f被称为"线性泛函"。
[0038] 只要对化rmitean运算符存在约束,就应考虑W下特性。Hermitean运算符总是具 有:
[0039] ?实的特征值;
[0040] ?对于不同特征值的完备的正交特征函数集。
[004。 因此,每个函数可W从运些特征函数建立,参见H.Vogel、C.Gerthsen、 H.O.Kneser, "Physik" ,Springer Verlag, 1982.任意函数可W被表示为球谐.巧资) 与复数常数Cf的线性组合:
[0042] 闺 U4)
[0044] 索引n、m被W确定性的方式使用。它们被一维索引j取代,索引n'、m'被相同大小的 索引i替代。由于每个子空间正交于具有不同i、j的子空间的事实,它们可被描述为无限维 的空间中的线性独立的正交单位矢量:
[0045] (15)
[0046]
[0047] (16)
[004引 子空间(索引i) 的映射
[0049]
[0050] -个本质的方面是,如果存在从连续描述到左矢量/右矢量符号的变化,则积分解 (integral solution)可W被球谐的左矢量描述和右矢量描述之间的内积的和替代。一般 来说,与连续基的内积可W被用于将基于右矢量的波描述I X〉的离散表示映射到连续表示。 例如,x(ra)是位置基(即,半径)中的右矢量表示:
[0051] ra:x(ra) =<ra | x> (18)
[0052] 针对不同种类的模式矩阵W和曰,奇异值分解被用于处理任意种类的矩阵。
[0053] 奇异值分解
[0054]奇异值分解(SVD,参见G.H.GolubXh.F.van Loan, "Matrix Computations",约翰 霍普金斯大学出版社,第3版,1996年10月11日)使得能够将具有m行和n列的任意矩阵A分解 为S个矩阵U、X和Ft,参见方程(19)。在原始形式中,矩阵U和F"*'分别是维度mXm和nXn 的酉矩阵(unitary ma化ix)。运样的矩阵是正交的,并且分别是从表示复单位矢量I山〉和 二《町:i的正交的列构建的。来自复数空间的酉矩阵与实空间中的正交矩阵是等效 的,即,它们的列表示正交矢量基:
[00 巧]
(19)
[0056]矩阵U和V包含用于所有四个子空间的正交基。
[0化7] ? U的头r个列:A的列空间
[0化引 ? U的后m-r个列:_4十的零空间
[0化9] ? V的头r个列:A的行空间
[0060] -V的后n-r个列:A的零空间
[0061] 矩阵E包含可W被用于表征A的行为的所有奇异值。一般来说,E是具有多达r个 对角元素Oi的mXn矩形对角矩阵,其中,秩r给出A的线性独立的列和行的数量(r《(min(m, n))。它包含降序的奇异值,即,在方程(20)和(21)中,Oi具有最高值,Or具有最低值。
[0062] 在紧凑形式中,只有r个奇异值(即,U的r个列和rt的r个行)是重构矩阵A必需的。
[0063] 矩阵U、E和ri的维度不同于原始形式。然而,E矩阵总是得到二次形式。那么,对于m〉n = r,
(2斯
[0064]
[00 化] (21)
[0066] 因此,可W通过低秩逼近来非常高效地实现SVD,参见W上提及的Golub/van Loan 教科书。运种逼近精确地描述了原始矩阵,但是包含多达r个秩-I矩阵。就Dirac符号而言,
矩阵I、I山 八=1 Ar工口 ± -
[0067] (22)
[0068] 当查看方程(Il)中的编码器解码器链时,不仅存在用于编码器的模式矩阵(比如, 矩阵巧,而且模式矩阵(比如,矩阵W )的逆矩阵或另一个复杂的解码器矩阵也要被考虑。对 于一般的矩阵A,可W通过执行方形矩阵E的逆W及U和Ft的共辆复数转置来直接从SVD检 查A的伪逆A+,其结果是:
[0069;
(23)
[0070]对于方程(22)的基于矢量的描述,伪逆A+通过执行I化〉和<乂11的共辆转置而得到, 而奇异估0;化须献求橄。化责结單浩卸的伪逆看上去如下; W71]
口 4)[0072] 如果不同矩阵的基于SVD的分解与基于矢量的描述组合(参见方程(8)和(10)),则 对于编码处理得到:
[0073] (瑚
[0074] 对于解码器,当考虑伪逆矩阵W +(方程(24))时:
[0075]
(26)
[0076] 如果假定来自编码器的高保真立体声声场描述I as〉与用于解码器的I ai>几乎相 同,并且维度rs = ri = r,则对于输入信号|x>和输出信号|y〉,组合的方程看上去如下:
[0077] (27)

【发明内容】

[0078] 然而,编码器解码器链的运个组合的描述具有如下所述的一些特定问题。
[0079] 对高保真立体声矩阵的影响
[0080] 高阶高保真立体声化OA)模式矩阵S和W受到声源或扬声器的位置(参见方程(6)) 和它们的高保真立体声阶次的直接影响。如果几何结构是规则的,即,源或扬声器位置之间 的相互角距离几乎相等,则方程(27)可W被求解。
[0081 ] 但是在实际的应用中,通常不是如此。因此,执行曰和W的SVD并且调查它们在对应 的矩阵E中的奇异值是有道理的,因为它反映了S和W的数值行为。E是具有实奇异值的正 定矩阵。但是尽管如此,即使存在多达r个奇异值,运些值之间的数值关系对于声场的再现 也是非常重要的,因为在解码器侧必须构建矩阵的逆或伪逆。用于测量该行为的合适的量 是A的条件数(condition number)。条件数K(A)被定义为最小奇异值与最大奇异值之比: W 剧
(28)
[0083] 逆问题
[0084] 病态矩阵是有问题的,因为它们具有大的k(A)。在求逆或求伪逆的情况下,病态矩 阵导致很小的奇异值Oi变得非常占主导的问题。在P.畑.Hansen, "Rank-Deficient and Discrete Ill-Posed Problems !Numerical Aspects of Linear Inversion'',工业和应用 数学学会(SIAM),1998中,两种基本类型的问题通过描述奇异值如何衰减而被区分(第I. I 章第2-3页)。
[0085] ?秩亏问题,在该秩亏问题中,矩阵在大奇异值和小奇异值的聚类之间具有差距 (非逐渐衰减);
[0086] ?离散不适定问题,在该离散不适定问题中,平均地,矩阵的所有奇异值都逐渐衰 减到零,即,在奇异值谱中没有差距。
[0087] 关于编码器侧的麦克风的几何结构W及解码器侧的扬声器几何结构,主要发生第 一个秩亏问题。然而,在记录期间修改一些麦克风的位置比控制客户端的所有可能的扬声 器位置更简单。尤其是在解码器侧,模式矩阵的逆或伪逆将被执行,运对于较高的模式分量 导致数值问题和过分强调的值(参见W上提及的化nsen的书)。
[0088] 信号有关的相关性
[0089] 减少上述求逆问题可W例如通过降低模式矩阵的秩,即,通过避免最小奇异值来 实现。但是然后,阔值将被用于最小的可能的值Or(参见方程(20)和(21))。在W上提及的 化nsen的书中描述了用于运种最低奇异值的最佳值。Hansen提出了
其取决于 输入信号的特性(运里用I X〉描述)。从方程(27)可W看出,该信号对再现具有影响,但是信 号相关性在解码器中不能被控制。
[0090] 非正交基的问题
[0091] 根据方程(25)和(26),在不同基的每个系统中描述了在HOA编码和HOA解码器之间 传输的状态矢量las〉。然而,如果正交基被使用,则状态不改变。那么,模式分量可W从一个 基投影到另一个基。所W,原则上,每个扬声器设置或声音描述应构建在正交基系统上,因 为运允许运些基之间的矢量表示的改变,例如,在高保真立体声中,从3D空间投影到2D子空 间中。
[0092] 然而,经常存在具有病态矩阵的设置,在病态矩阵中,基矢量是近似线性相关的。 所W,原则上,非正交基将被处理。运使得当HOA声场描述应被采用到不同的扬声器设置上 时或者当期望在编码器侧或解码器侧处理不同的HOA阶次和维度时必要的从一个子空间到 另一个子空间的改变复杂化。
[0093] 投影到稀疏扬声器集上的典型问题是,声音能量在扬声器附近高,并且在运些扬 声器之间的距离很时低。所W,不同扬声器之间的位置需要相应地对能量进行平衡的平移 函数。
[0094] 上述问题可W通过本发明的处理来绕开,并且通过权利要求1中公开的方法来解 决。利用该方法的设备在权利要求2中被公开。
[00%]根据本发明,考虑到最低的模式矩阵秩W及截断的奇异值分解,用于编码过程的 互逆基(reciprocal basis)与用于解码过程的原始基被组合使用。因为双正交系统被表 示,所W确保编码器矩阵和解码器矩阵的乘积保持至少用于最低的模式矩阵秩的单位矩 阵。
[0096] 运通过将基于右矢量的描述变为基于对偶空间(具有互逆基矢量的左矢量空间) 的表示来实现,在对偶空间中,每一个矢量是右矢量的伴随(adjoint)。它通过使用模式矩 阵的伪逆的伴随来实现。"伴随"意指复数共辆转置。
[0097] 因此,伪逆的伴随已经被用于编码器侧W及伴随解码器矩阵。对于所述处理,正交 互逆基矢量被使用,W便关于基变化而不变。此外,运种类型的处理允许考虑与输入信号相 关的影响,对于正则化过程中的Oi导致降噪最佳阔值。
[0098] 原则上,本发明的方法适合于使用奇异值分解的高阶高保真立体声编码和解码, 所述方法包括W下步骤:
[0099] -接收音频输入信号;
[0100] -基于声源的方向值和所述音频输入信号的高保真立体声阶次,形成对应的球谐 右矢量和对应的编码器模式矩阵;
[0101] -对所述编码器模式矩阵执行奇异值分解,其中,两个对应的编码器酉矩阵、对应 的包含奇异值的编码器对角矩阵W及相关的编码器模式矩阵秩被输出;
[0102] -从所述音频输入信号、所述奇异值和所述编码器模式矩阵秩确定阔值;
[0103] -将所述奇异值中的至少一个与所述阔值进行比较,并且确定对应的最终的编码 器模式矩阵秩;
[0104] -基于扬声器的方向值和解码器高保真立体声阶次,形成对应的用于位于与所述 方向值对应的方向上的特定扬声器的球谐右矢量W及对应的解码器模式矩阵;
[0105] -对所述解码器模式矩阵执行奇异值分解,其中,两个对应的解码器酉矩阵W及对 应的包含奇异值的解码器对角矩阵被输出,并且所述解码器模式矩阵的对应的最终的秩被 确定;
[0106] -从所述最终的编码器模式矩阵秩和所述最终的解码器模式矩阵秩确定最终的模 式矩阵秩;
[0107] -从所述编码器酉矩阵、所述编码器对角矩阵和所述最终的模式矩阵秩计算所述 编码器模式矩阵的伴随伪逆,得到高保真立体声右矢量,
[0108] 并且根据所述最终的模式矩阵秩减少所述高保真立体声右矢量的分量的数量,W 便提供改动的高保真立体声右矢量;
[0109] -从所述改动的高保真右矢量、所述解码器酉矩阵、所述解码器对角矩阵和所述最 终的模式矩阵秩计算伴随解码器模式矩阵,得到所有扬声器的输出信号的右矢量。
[0110] 原则上,本发明设备适于使用奇异值分解的高阶高保真立体声编码和解码,所述 设备包括适于执行W下操作的部件:
[0111] -接收音频输入信号;
[0112] -基于声源的方向值和所述音频输入信号的高保真立体声阶次,形成对应的球谐 右矢量和对应的编码器模式矩阵;
[0113] -对所述编码器模式矩阵执行奇异值分解,其中,两个对应的编码器酉矩阵、对应 的包含奇异值的编码器对角矩阵W及相关的编码器模式矩阵秩被输出;
[0114] -从所述音频输入信号、所述奇异值和所述编码器模式矩阵秩确定阔值;
[0115] -将所述奇异值中的至少一个与所述阔值进行比较,并且确定对应的最终的编码 器模式矩阵秩;
[0116] -基于扬声器的方向值和解码器高保真立体声阶次,形成对应的用于位于与所述 方向值对应的方向上的特定扬声器的球谐右矢量W及对应的解码器模式矩阵;
[0117] -对所述解码器模式矩阵执行奇异值分解,其中,两个对应的解码器酉矩阵W及对 应的包含奇异值的解码器对角矩阵被输出,并且所述解码器模式矩阵的对应的最终的秩被 确定;
[0118] -从所述最终的编码器模式矩阵秩和所述最终的解码器模式矩阵秩确定最终的模 式矩阵秩;
[0119] -从所述编码器酉矩阵、所述编码器对角矩阵和所述最终的模式矩阵秩计算所述 编码器模式矩阵的伴随伪逆,得到高保真立体声右矢量,
[0120] 并且根据所述最终的模式矩阵秩减少所述高保真立体声右矢量的分量的数量,W 便提供改动的高保真立体声右矢量;
[0121] -从所述改动的高保真右矢量、所述解码器酉矩阵、所述解码器对角矩阵和所述最 终的模式矩阵秩计算伴随解码器模式矩阵,得到所有扬声器的输出信号的右矢量。
[0122] 本发明的有利的附加的实施例在各个从属权利要求中被公开。
【附图说明】
[0123] 参照附图描述本发明的示例性实施例,在附图中示出了:
[0124] 图1基于SVD的HOA编码器和解码器的框图;
[0125] 图2包括线性泛函平移的HOA编码器和解码器的框图;
[01%]图3包括矩阵平移的HOA编码器和解码器的框图;
[0127]图4用于确定阔值Oe的流程图;
[012引图5在降低的模式矩阵秩'吁心。的情况下对奇异值的重新计算W及ks〉的计算;
[0129] 图6在有平移或没有平移时,在降低的模式矩阵秩所n。和巧的情况下对奇异值 的重新计算W及|y(Qi)>的计算。
【具体实施方式】
[0130] 图1中描绘了关于本发明的基于SVD的HOA处理的、具有编码器部分和解码器部分 的框图。两个部分都在使用SVD,W便产生互逆基矢量。相对于已知的模式匹配解有所改变, 例如,与方程(27)相关的改变。
[0131] HOA编码器
[0132] 为了用互逆基矢量工作,基于右矢量的描述被变到左矢量空间,在左矢量空间中, 每个矢量是右矢量的化rmitean共辆或伴随。它通过使用模式矩阵的伪逆来实现。然后,根 据方程(8),基于(对偶)左矢量的高保真立体声矢量也可W重新用(对偶)模式矩阵表示:
[0133] 司:<as| =<x|^i = <x|S+ (29)
[0134] 所得到的编码器侧的高保真立体声矢量<as I现在为左矢量语义。然而,统一的描 述是期望的,即,返回到右矢量语义。代替曰的伪逆,使用Sd*'或这一的化rmitean共辆:
[013 引 (30)
[0136]
[0137] m
[0138] 其中,所有奇异值都是实数,并且取i的复数共辆可W被忽视。
[0139] 巧骨敌高保直而化声A量的U下描述:
[0140] (32)
[0141] 用于源端的基于矢量的描述掲示了 las〉取决于逆a*。如果对于编码器侧运样做, 则它将变到解码器侧的对应的对偶基矢量。
[0142] HOA解码器
[0145]旨P,扬声器信号为:
[0143] #瓶屈毀爲加其平伪逆的情况下,为了导出扬声器信号I y>得到: W 443 巧巧
[0146] (34)
[0147]
[醒] (35)
[0149] 因此,不是构建伪逆,而是在方程(35)中只保留伴随运算(用表示)。运意味着 在解码器中需要更少的算术运算,因为只需要切换虚部的符号,并且转置仅仅是修正的存 储器访问:
[0150] (36)
[0151] 如果假定编码器和解码器的高保真立体声表示是几乎相同的,即,las〉= |曰1〉,贝。 通过方程(32 ),整个编码器解码器链得到W下相关性:
[0152] (37)
[0153] (38)
[0154] 在真实的情景下,来自方程(11)的平移矩阵G和有限的高保真立体声阶次要被考 虑。后者导致被用于描述声场的基矢量的有限数量的线性组合。此外,基矢量的线性独立性 受到附加的误差源(比如数值舍入误差或测量误差)的影响。从实践角度来看,运可W通过 数值秩来绕开(参见W上提及的化nsen的书的第3.1章),运确保所有的基矢量在某些容限 内都是线性独立的。
[0155] 为了对噪声更鲁棒,考虑输入信号的SNR,其中输入信号的SNR影响编码器右矢量 W及所计算的输入的高保真立体声表示。所W,如果必要的话,即,对于将被求逆的病态模 式矩阵,根据编码器中的输入信号的SNR来对Oi值进行正则化。
[0156] 编码器中的正则化
[0157] 正则化可W通过不同的方式来执行,例如,通过使用经由截断的SVD的阔值。SVD提 供降序的〇1,其中,具有最低水平或最高索引的〇1(被表示为Or)包含非常频繁地切换的并且 导致噪声效应和SNR的分量(参看方程(20)和(21) W及W上提及的化nsen教科书)。因此,截 断SVD(TSVD)将所有的Oi值与阔值进行比较,并且忽视超出阔值Oe的噪声分量。阔值Oe可W 是固定的或者可W根据输入信号的SNR被最佳地修正。
[0158] 矩阵的迹(trace)是指所有对角矩阵元素的和。
[0159] TSVD方框(图1至3中的10、20、30)具有W下任务:
[0160] ?计算模式矩阵秩。
[0161] ?移除低于阔值的噪声分量,并且设置最终的模式矩阵秩rfin。
[0162] 所述处理对复矩阵S和W进行处理。然而,为了对实数值Oi进行正则化,运些矩阵 不能被直接使用。适当的值来自曰与其伴随E+之间的乘积。所得到的矩阵是具有实数对角 本征值的二次矩阵,所述实数对角本征值等同于适当的奇异值的二次值。如果可W用矩阵 S2的迹(如下面的表达式39所示)描述的所有本征值之和保持固定,则系统的物理性质守 恒。运也巧巧干巧降W。
[0163]
(39)
[0164] 因此,编码器侧的方框ONBs (图1-3中的15、25、35)或解码器侧的方框ONBi (图1-3中 的19、29、39)修改奇异值,W使得正则化之前和之后的trace(X2)守恒(参见图5和图6):
[0165] ?修正其余的〇1(对于i = 1... mn),W使得原始矩阵和目标截断矩阵S t的迹保持
固定(
[0166 I A 曰;
[0167 (40)
[0168]如果正常数量的奇异值和减少数量的奇异值之间的對直被调用
则所得到的值如下:
[01691
(41)
[0170] ?对截断的矩阵Xt重新计算所有的新的奇异值〇i,t:
[0171] 〇i't = 〇i+A。 (42)
[0172] 另外,如果用于适当的|a>的基(参见方程(30)或(33))被改变为对应的SVD相关的
i }基,则可W实现编码器和解码器的简化,导致:
[0173] (側:
[0174] (备注:如果Oi和I a〉在没有附加的编码器或解码器索引的情况下被使用,则它们 是指编码器侧和/或解码器侧)。该基是正交的,W使得它保持I a〉的范数。即,代替I a〉,正则 化可W使用I a/〉,I a/〉需要矩阵I a/〉和V,但是不需要更大的矩阵U。
[0175] 在{从十}基中使用缩小的右矢量Ia'>,运具有秩真正被降低的优点。
[0176] 因此,在本发明中,SVD在两侧都被使用,不仅用于执行单个矩阵S和W的正交基和 奇异值,而且还用于得到它们的秩rfin。
[0177] 分量改动
[0178] 通过考虑S的源秩或者通过相对于阔值或最终的源秩忽视对应的Os中的一些,可 W减少分量的数量,并且可W提供更鲁棒的编码矩阵。因此,根据解码器侧的分量的对应数 量对所传输的高保真立体声分量的数量的改动被执行。通常,它取决于高保真立体声阶次 0。运里,从用于编码器矩阵曰的SVD方框得到的最终的模式矩阵秩化Ke和从用于解码器矩阵 W的SVD方框得到的最终的模式矩阵秩吁要被考虑。在改动#压缩步骤/级16中,如下改 动分量的数量:
[01巧]
.不改变一不压缩;
[0180] 玉缩,忽视解码器矩阵聲十中的巧化e -吁泌d个列=〉编码器和 解码器^
[0181] ^在传输之前取消高保真立体声状态矢量自^
的分 量,即,压缩。忽视编码器矩阵曰中的- y'/iRd个行=〉编码器和解码器操作减少。
[01剧结果是,将在编码器侧和解码器侧使用的最终的模式矩阵秩rfin是巧的郝晰Ie中 的较小的一个。
[0183] 因此,如果在编码器和解码器之间存在用于交换另一端的秩的双向信号,则可W 使用秩差异来改进可能的压缩并且减少编码器和解码器中的操作的数量。
[0184] 考虑平移函数
[0185] 由于关于为稀疏和不规则的扬声器设置得到的能量分布的问题,前面提及了平移 函数fs、fi或平移矩阵G的使用,参见方程(11)。运些问题必须对通常可W在高保真立体声中 使用的有限阶次进行处理(参见章节"对高保真立体声矩阵的影响"到"非正交基的问题")。
[0186] 关于对平移矩阵G的要求,在编码之后,假定一些声学源的声场处于由高保真立体 声状态矢量I as〉表示的良好状态。然而,在解码器侧,状态已经被准备得如何是完全未知 的。即,完全不知道系统的当前状态。因此,为了保持方程(9)和(8)之间的内积,采取互逆 基。
[0187] 使用已经在编码器侧的伪逆提供了 W下优点:
[0188] ?互逆基的使用满足了编码器基和解码器基之间的双正交巧
[0189] ?编码/解码链中的操作的数量减少;
[0190] ?在关于SNR行为的数值方面得到改善;
[0191] ?经修改的模式矩阵中的列是正交的,而不仅仅是线性独立的;
[0192] ?它简化了基的改变;
[0193] ?使用秩-1逼近导致更少的存储器工作和减少的操作数量,尤其在最终的秩较低 的时候。一般来说,对于M X N矩阵,只需要M+N个操作,而不是M*N个操作;
[0194] ?它简化了解码器侧的改动,因为解码器中的伪逆可W被避免;
[01M] ?具有数值不稳定的O的逆问题可W被绕开。
[0196] 在图1中,在编码器或解码器侧,声源的S = I,...,S不同的方向值Q S和高保真立 体声阶次Ns被输入到步骤或级11,步骤或级11从其形成球谐的对应右矢量I Y( Q S)〉和具有 维度0 X S的编码器模式矩阵SoxS。矩阵却XS是对应于输入信号矢量I x( Q S)〉而产生的,输入 信号矢量I x( Q S)〉包括关于不同方向Q S的S个源信号。因此,矩阵却XS是球谐右矢量I Y( Q S) 〉的集合。因为不仅信号X(Qs)还有位置随着时间而变化,所W计算矩阵曰Ox河W被动态地 执行。该矩阵具有用于源的非正交基NONBs。根据输入信号|x(Qs)>和秩值。,在步骤或级12 中确定特定的奇异阔值Oe。编码器模式矩阵却XS和阔值Oe被馈送到截断奇异值分解TSVD处理 1〇(参看W上的章节"奇异值分解"),该处理在步骤或级13中执行对模式矩阵曰OxS的奇异值 分解,W便得到其奇异值,由此,一方面,酉矩阵U和F+W及包含。个奇异值巧…£相的对角 矩阵E被输出,另一方面,相关的编码器模式矩阵秩。被确定(备注:〇1是来自SVD巧)=UEV +的矩阵S的第i奇异值)。
[0197]在步骤/级12中,根据章节"编码器中的正则化"来确定阔值Oe。阔值Oe可W将所使 用的0&值的数量限制为截断的或最终的编码器模式矩阵秩f/ble。阔值Oe可W被设置为预 定义的值,或者可W被改为输入信号的信噪比SNR:
由此全部S个源信号I X (Q S)〉的SNR在预定义数量的采样值上被测量。
[019引在比较器步骤或级14中,将来自矩阵E的奇异值Or与阔值Oe进行比较,并且根据该 比较,计算截断的或最终的编码器模式矩阵秩心e,该秩化n。根据章节"编码器中的正则 化"来修改其余的巧^1值。最终的编码器模式矩阵秩巧《。被馈送到步骤或级16。
[0199] 关于解码器侧,在步骤或级18中,对应于方框17中的相关信号I y( Q 1)〉的扬声器 位置,根据扬声器的1 = 1,...,L方向值Q 1和解码器高保真立体声阶次化,确定关于方向Q 1 上的特定扬声器的对应的球谐右矢量I Y( Q i)〉W及对应的具有维度QXL的解码器模式矩 阵W日止。类似于编码器矩阵却XS,解码器矩阵W日XL是用于所有方向Qi的球谐右矢量|Y( Qi)〉 的集合。W日XL的计算被动态地执行。
[0200] 在步骤或级19中,对解码器模式矩阵WoxL执行奇异值分解处理,并且将所得到的 酉矩阵U和ytW及对角矩阵E馈送到方框17。此外,最终的解码器模式矩阵秩被计算 并且被馈送到步骤/级16。
[0201] 在步骤或级16中,如上所述的那样,根据最终的编码器模式矩阵秩和最终的 解码器模式矩阵秩确定最终的矩阵秩rfin。将最终的模式矩阵秩Win馈送到步骤/级15 和步骤/级17。
[020^ 编码器侧矩阵Us、VfxEs、秩值最终的模式矩阵秩值化山及所有源信号的时 间相关的输入信号右矢量|x(Qs)>被馈送到步骤或级15,步骤或级15使用方程(32)从运些 与却、5相关的输入值计算编码器模式矩阵的伴随伪逆(5+^_^该矩阵具有维度所,1。乂5*和用
于源的正交基ONBs。当处理复矩阵及其伴随时,考虑: 步 0 骤/级15输出对应的时间相关的高保真立体声右矢量或状态矢量a's〉,参见上面的章节 "册A编码器"。
[0203] 在步骤或级16中,如上面的章节"分量改动"中所描述的,使用最终的模式矩阵秩 Win来减少Ia^ S〉的分量的数量,W便可能地减少所传输的信息量,在改动之后得到时间相 关的高保真立体声右矢量或状态矢量I a/1〉。
[0204] 根据保真立体声右矢量或状态矢量I a'1〉,根据从模式矩阵OxL导出的秩值r拟及 解码器侧矩阵U/、Vi、Ei, W及根据来自步骤/级16的最终的模式矩阵秩值rfin,计算具有维 度玉X 和用于扬声器的正交基ONBi的伴随解码器模式矩阵CF)t,得到所有扬声器的 时间相关的输出信号的右矢量|y( Q 1)〉,参见上面的章节"H0A解码器"。解码是利用平常的 模式矩阵的共辆转置执行的,所述共辆转置依赖于特定的扬声器位置。对于附加的擅染,应 使用特定的平移矩阵。
[0205] 解码器由步骤/级18、19和17表示。编码器由其他步骤/级表示。
[0206] 图1的步骤/级11至19原则上分别对应于图2中的步骤/级21至29 W及图3中的步 骤/级31至39。
[0207] 另外,在图2中,在步骤或级211中计算的用于编码器侧的平移函数fsW及在步骤 或级218中计算的用于解码器侧的平移函数f 1281被用于线性泛函平移。平移函数fs是用于 步骤/级21的附加输入信号,平移函数fi是用于步骤/级28的附加输入信号。在上面的章节 "考虑平移函数"中描述了使用运种平移函数的原因。
[0208] 与图1相比,在图3中,平移矩阵G控制对在步骤/级37的输出处的所有扬声器的时 间相关的输出信号的初步右矢量的平移处理371。运导致所有扬声器的时间相关的输出信 号的改动的右矢量|y(Qi)〉。
[0209] 图4更详细地示出了用于基于编码器模式矩阵却XS的奇异值分解SVD处理来确定阔 值Oe的处理。SVD处理传递矩阵E (在其递减对角中包含从〇1到巧'S的所有奇异值Oi,参见方 程(20)和(21)) W及矩阵E的秩。。在使用固定阔值的情况(方框41)下,在从i = l开始并且 可W-直到i =。的、由变量i控制的循环(方框42和43)内,检查(方框45)在运些Oi值之间是 否存在量值差距。运种差距被假定为当奇异值OW的量值明显小于其在前的奇异值Oi的量 值(例如,小于1/10)时发生。当检测到运种差距时,循环停止,并且阔值Oe被设置为当前奇 异值〇1。在i=。的情况(方框44)下,达到最低的奇异值Oi = Or,回路被退出,并且Oe被设定为 Or (方框 46)。
[0210] 在不使用固定阔值的情况(方框41)下,调查所有S个源信号的T个采样的块X=[ I X (Qs,t = 0)〉,. . .,|x( Qs,t = T)〉](=矩阵SXT)。计算X的信噪比SNR(方框48),并且将阔值 Oe设置巧
:方框49)。
[0211]图5示出了在步骤/级15、25、35内,在降低的模式矩阵秩rfin的情况下的奇异值的 重新计算W及I曰/S〉的计算。来自图1/2/3的方框10/20/30的编码器对角矩阵ES被馈送到步 骤或级51、步骤或级52、步骤或级54,其中步骤或级51使用值Ts来计算总能量
步骤或级52使用值所来计算减小的总能量
。 总能量值和减小的总能量值之间的差值A E、值化ace )和值所:".e被馈送到步骤或级 53,步骤或级53计
[0212] 为了确保由
?述的能量被保持为使得结果在物理上是有意 义的,值A O是需要的。如果在编码器或解码器侧,能量由于矩阵简化而减小,则运样的能量 损失被用值A O补偿,值A O被W相等的方式分布给所有剩余的矩阵元素,即,
[0213] 步骤或级54从Es、A O和斬n。计I
[0214]输入信号矢量I x( Q S)〉被乘W矩阵公。结果乘^為+。后一乘法的结果是右矢量 a's〉。
[0215]图6示出了在步骤/级17、27、37内,在有或没有平移时在降低的模式矩阵秩rfin的 情况下的奇异值的重新计算W及扬声器信号I y( Q 1)〉的计算。来自图1/2/3中的方框19/ 29/39的解码器对角矩阵Ei被馈送到步骤或级61、步骤或级62W及步骤或级64,其中步骤 或级61使用值n来计算总能量
,步骤或级62使用值吓来计算减小 的总能量心ace
設能量值和减小的总能量值之间的差值A E、值 化脱e 和值巧被馈送到步骤或级63,步骤或级63计算:
[0216]
[0217]
[0218] 右矢量Ia^ S〉被乘W矩阵Et。结果被乘W矩阵V。后一乘法的结果是所有扬声器的 时间相关的输出信号的右矢量Iy( Q1)〉。
[0219] 本发明处理可W由单个处理器或电子电路执行,或者由并行操作和/或对本发明 的处理的不同部分操作的几个处理器或电子电路执行。
【主权项】
1. 一种用于使用奇异值分解进行高阶高保真立体声化OA)编码和解码的方法,所述方 法包括W下步骤: -接收音频输入信号(|x(Qs)>); -基于声源的方向值(Qs)和所述音频输入信号(|χ(Ω S)〉)的高保真立体声阶次(Ns), 形成(11、31)对应的球谐右矢量(|¥(〇3)〉)和对应的编码器模式矩阵(动、5); -对所述编码器模式矩阵(却XS)执行(13、23、33)奇异值分解,其中,两个对应的编码器 酉矩阵化s、K+)、对应的包含奇异值的编码器对角矩阵(Es)W及相关的编码器模式矩阵秩 (。)被输出; -从所述音频输入信号(|x(Ωs)〉)、所述奇异值(Σs)和所述编码器模式矩阵秩(rs)确 定(12、22、32)阔值(οε); -将所述奇异值中的至少一个(Or)与所述阔值(σε)进行比较(14、24、34),并且确定对应 的最终的编码器模式矩阵秩(皆):; -基于扬声器的方向值(Ωι)和解码器高保真立体声阶次(Ni),形成(18、38)用于位于与 所述方向值(Ωι)对应的方向上的特定扬声器的对应的球谐右矢量(|¥(〇1)〉)^及对应的 解码器模式矩阵(Ψ日XL); -对所述解码器模式矩阵(Ψοχ?执行(19、29、39)奇异值分解,其中,两个对应的解码器 酉矩阵(U/、Vi)W及对应的包含奇异值的解码器对角矩阵(Σι)被输出,并且所述解码器模 式矩阵的对应的最终的秩? f巧;)被确定; -从所述最终的编码器模式矩阵秩(印'"e )和所述最终的解码器模式矩阵秩(吁化d ) 确定(16、26、36)最终的模式矩阵秩(打in); -从所述编码器酉矩阵(Us、f/)、所述编码器对角矩阵(Es)和所述最终的模式矩阵秩 (mn)计算(15、25、35)所述编码器模式矩阵间XS)的伴随伪逆(Ξ+)*,得到高保真立体声右 矢量(|a' S〉), 并且根据所述最终的模式矩阵秩(rfin)减少(16、26、36)所述高保真立体声右矢量(la^s 〉)的分量的数量,W便提供改动的高保真立体声右矢量(la^i〉); -从所述改动的高保真右矢量(I a/1〉)、所述解码器酉矩阵(yf >Vi)、所述解码器对角矩 阵(Σι)和所述最终的模式矩阵秩计算(17、27、37)伴随解码器模式矩阵(Ψ + ),得到所有扬 声器的输出信号的右矢量(|y(Qi)〉)。2. -种用于使用奇异值分解进行高阶高保真立体声化0A)编码和解码的装置,所述装 置包括适于执行W下操作的部件: -接收音频输入信号(IX( Ω S)〉); -基于声源的方向值(Qs)和所述音频输入信号(|χ(Ω S)〉)的高保真立体声阶次(Ns), 形成(11、31)对应的球谐右矢量(|Υ( Qs)>)和对应的编码器模式矩阵(Soxs); -对所述编码器模式矩阵(却xs)执行(13、23、33)奇异值分解,其中,两个对应的编码器 酉矩阵化s、^t)、对应的包含奇异值的编码器对角矩阵(Es)W及相关的编码器模式矩阵秩 (。)被输出; -从所述音频输入信号(|x(Ωs)〉)、所述奇异值(Σs)和所述编码器模式矩阵秩(rs)确 定(12、22、32)阔值(οε); -将所述奇异值中的至少一个(Or)与所述阔值(σε)进行比较(14、24、34),并且确定对应 的最终的编码器模式矩阵秩(); -基于扬声器的方向值(Ωι)和解码器高保真立体声阶次(Ni),形成(18、38)用于位于与 所述方向值(Ωι)对应的方向上的特定扬声器的对应的球谐右矢量(|¥(〇1)〉)^及对应的 解码器模式矩阵(Ψ日XL); -对所述解码器模式矩阵(Ψοχ?执行(19、29、39)奇异值分解,其中,两个对应的解码器 酉矩阵(Uf、Vi)W及对应的包含奇异值的解码器对角矩阵(Σι)被输出,并且所述解码器模 式矩阵的对应的最终的秩? r巧巧皮确定; -从所述最终的编码器模式矩阵秩(所"e )和所述最终的解码器模式矩阵秩(吁;"rf ) 确定(16、26、36)最终的模式矩阵秩(打in); -从所述编码器酉矩阵(Us、皆)、所述编码器对角矩阵(Es)和所述最终的模式矩阵秩 (mn)计算(15、25、35)所述编码器模式矩阵间XS)的伴随伪逆巧+)十,得到高保真立体声右 矢量(|a' S〉), 并且根据所述最终的模式矩阵秩(rfin)减少(16、26、36)所述高保真立体声右矢量(la^s 〉)的分量的数量,W便提供改动的高保真立体声右矢量(la^i〉); -从所述改动的高保真右矢量(I曰/1〉)、所述解码器酉矩阵(巧t >Vi)、所述解码器对角矩 阵(Σι)和所述最终的模式矩阵秩计算(17、27、37)伴随解码器模式矩阵(Ψ + ),得到所有扬 声器的输出信号的右矢量(|y(Qi)〉)。3. 根据权利要求1所述的方法或根据权利要求2所述的装置,其中,当形成(21)所述球 谐右矢量(|Y(Qs)>)和所述编码器模式矩阵间XS)时,使用平移函数(211,fs),所述平移函 数(211,fs)执行线性运算并且将所述音频输入信号(|x( Qs)>)中的源位置映射到扬声器输 出信号的所述右矢量(|y(Q 1)〉)中的扬声器的位置, 并且当形成(28)用于特定扬声器的所述球谐右矢量(|Υ(Ω 1)〉)和所述解码器模式矩阵 (Ψοχ?时,使用对应的平移函数(281,fi),所述平移函数(281,fi)执行线性运算并且将所述 音频输入信号(|x( Qs)>)中的源位置映射到扬声器输出信号的所述右矢量(|y( Ω 1)〉)中的 扬声器的位置。4. 根据权利要求1所述的方法或根据权利要求2所述的装置,其中,在计算(17、27、37) 所述伴随解码器模式矩阵(Ψ + )和所有扬声器的时间相关的输出信号的初步改动的右矢量 之后,使用平移矩阵(G)来执行所有扬声器的时间相关的输出信号的运些初步改动的右矢 量的平移(371),得到所有扬声器的输出信号的所述右矢量(|y(Qi)〉)。5. 根据权利要求1-4之一所述的方法或根据权利要求1-4之一所述的装置,其中,为了 在所述奇异值(〇1)的集合内确定(12、22、32)所述阔值(οε),从第一个奇异值(01)开始检测 量值差距,并且如果后一奇异值(〇1+1)的量值比当前奇异值(〇1)的量值小预定因子,则该当 前奇异值的量值被取作所述阔值(Οε)。6. 根据权利要求1-4之一所述的方法或根据权利要求1-4之一所述的装置,其中,为了 确定(12、22、32)所述阔值(Oε),计算所有源信号的采样块的信噪比SNR,并且将所述阔值 (〇6)设置为^^,=;?^。7.-种计算机程序产品,所述计算机程序产品包括当在计算机上被执行时执行根据权 利要求1所述的方法的指令。
【文档编号】H04S3/00GK105981410SQ201480074092
【公开日】2016年9月28日
【申请日】2014年11月18日
【发明人】H·克罗普, S·埃伯林格
【申请人】杜比国际公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1