确定要应用于多声道音频信号的校正、相关编码和解码的制作方法

文档序号:30101925发布日期:2022-05-18 13:02阅读:446来源:国知局

1.本发明涉及空间化声音数据的编码/解码,具体地在立体混响背景下(下文也表示为“高保真立体声(ambisonic)”)。


背景技术:

2.目前在移动电话中使用的编码器/解码器(下文称为“编解码器”)是单声道的(要呈现在单个扬声器上的单个信号声道)。3gpp evs(“增强型语音服务”)编解码器使得能够提供“超hd”音质(也称为“高清加”或hd+语音),其中,为以32khz或48khz采样的信号提供超宽带(swb)音频带或者为以48khz采样的信号提供全带(fb)音频带;音频带宽在swb模式(9.6千比特/秒到128千比特/秒)下为14.4khz到16khz并且在fb模式(16.4千比特/秒到128千比特/秒)下为20khz。
3.由运营商提供的会话服务中下一质量演变应该由沉浸式服务组成,该沉浸式服务使用如配备有多个麦克风的智能手机、或者远程呈现或360
°
视频空间化音频会议或视频会议设备、或者甚至具有比简单的2d立体声呈现更加沉浸式的空间化3d声音呈现的“实时”音频内容共享设备等终端。随着用音频头戴式耳机在移动电话上进行收听的运用日益广泛以及先进的音频设备(如3d麦克风、具有声学天线的语音助手、虚拟现实头戴式耳机等附件)的出现,捕获并呈现空间化声音场景以提供沉浸式通信体验如今已经足够普遍。
4.为此,未来的3gpp标准“ivas”(“沉浸式语音和音频服务”)计划通过接受至少以下所列的空间化声音格式(及其组合)作为编解码器输入格式来扩展evs编解码器以实现沉浸:
5.立体声或5.1多声道(基于声道的)格式,其中,每个声道馈入一个扬声器(例如立体声中的l和r或5.1中的l、r、ls、rs和c);
6.对象(基于对象的)格式,其中,声音对象被描述为与描述该对象的属性(空间中的位置、源空间宽度等)的元数据相关联的音频信号(通常是单声道的),
7.高保真立体声(基于场景的)格式,该格式描述了给定点的声场,该声场通常由球形麦克风捕获或在球谐函数域中合成。
8.以下典型地关注的是通过示例性实施例以高保真立体声格式对声音进行编码(以下结合本发明呈现的至少一些方面还能够应用于除了高保真立体声以外的格式)。
9.高保真立体声是用于记录(声学意义上的“编码”)空间化声音的方法和用于再现(声学意义上的“解码”)的系统。(1阶)高保真立体声麦克风包括布置在球面网格(例如正四面体的顶点)上的至少四个振膜舱(典型地为心型或亚心型)。与这些振膜舱相关联的音频声道被称为“a格式”。该格式被转换成“b格式”,其中,声场分解为以w、x、y、z表示的四个分量(球谐函数),这四个分量与四个重合的虚拟麦克风相对应。分量w与声场的全向捕获相对应,而更具方向性的分量x、y和z类似于沿着三个正交空间轴定向的压力梯度麦克风。高保真立体声系统在录音和呈现分开并且分离的意义上是一种灵活的系统。其允许对任何配置的扬声器(例如双耳、5.1或7.1.4全向声道(具有仰角)“环绕”声)进行(声学意义上的)解
码。高保真立体声方法可以一般化为b格式的四个以上声道,并且这种一般化表示通常被称为“hoa”(“高阶高保真立体声”)。将声音分解成更多的球谐函数改善了在扬声器上呈现时的空间呈现精准度。
10.m阶高保真立体声信号包括k=(m+1)2个分量,并且1阶(如果m=1)中有通常被称为foa(一阶高保真立体声)的四个分量w、x、y和z。还有所谓的“平面”高保真立体声变体(w、x、y),该“平面”高保真立体声变体分解在通常是水平面的平面上定义的声音。在这种情况下,分量的数量是k=2m+1个声道。1阶高保真立体声(4个声道:w、x、y、z)、平面1阶高保真立体声(3个声道:w、x、y)和更高阶高保真立体声在下文中均不加区分地被称为“高保真立体声”以便于阅读,所呈现的处理操作可独立于平面或非平面类型以及高保真立体声分量的数量而应用。
11.在下文中,“高保真立体声信号”将是赋予具有一定数量的高保真立体声分量的b格式的预定阶信号的名称。这也包括混合情况,其中,例如在2阶中只有8个声道(而非9个)——更准确地说,在2阶中有4个1阶声道(w、x、y、z)加通常5个声道(通常表示为r、s、t、u、v),并且可能例如忽略高阶声道之一(例如r)。
12.要由编码器/解码器处理的信号采用连续的声音样本块的形式,以下称为“帧”或“子帧”。
13.此外,在下文中,数学符号遵循以下惯例:
14.标量:s或n(小写字母用于变量或大写字母用于常量)
15.运算符re(.)表示复数的实部
16.向量:u(小写字母,粗体)
17.矩阵:a(大写字母,粗体)
18.符号a
t
和ah分别指示a的转置和埃尔米特转置(转置和共轭)。
19.在长度为l的时间间隔i=0,

,l-1内定义的一维离散时间信号s(i)用以下行向量表示
20.s=[s(0),...,s(l-1)]。
[0021]
还可以写为:s=[s0,

,s
l-1
]以避免使用圆括号。
[0022]
在长度为l的时间间隔i=0,...,l-1内定义并具有k个维度的多维离散时间信号b(i)用以下大小为l
×
k的矩阵表示:
[0023][0024]
还可以表示为:b=[b
ij
],i=0,

k-1,j=0

l-1以避免使用圆括号。
[0025]
具有笛卡尔坐标(x,y,z)的3d点可以转换成球面坐标其中,r是距原点的距离,θ是方位角并且是仰角。在不失一般性的情况下,此处使用了仰角相对于水平面(0xy)定义的数学惯例;本发明可以容易地被适配成其他定义,包括在物理学中使用的方位角相对于轴线oz定义的惯例。
[0026]
此外,此处没有提示从现有高保真立体声技术中已知的关于高保真立体声分量(包括acn高保真立体声声道数量、sid单一指数命名、fuma弗斯-马哈姆(furse-malham))的
阶数以及高保真立体声分量(sn3d、n3d、maxn)的归一化的惯例。更多细节可以见于例如可在线获得的资源:https://en.wikipedia.org/wiki/ambisonic_data_exchange_formats
[0027]
按照惯例,高保真立体声信号的第一分量通常对应于全向分量w。
[0028]
用于编码高保真立体声信号的最简单的方法在于使用单声道编码器并且将其并行应用于所有声道,其中根据声道的不同,可能会有不同的比特分配。此处该方法被称为“多单声道”。多单声道方法可以扩展到多立体声编码(其中声道对由立体声编解码器单独编码)或者更一般地扩展到使用相同核心编解码器的多个相似实例。
[0029]
图1中示出了这种实施例。输入信号由框100划分为声道(一个单声道或多个声道)。这些声道由框120到122基于预定分布和比特分配单独编码。声道的比特流被多路复用(框130)并且在传输和/或存储之后,比特流被解复用(框140)以应用解码来重建经解码声道(框150到152),这些经解码声道被重组(框160)。
[0030]
相关质量根据所使用的核心编码和解码(框120到122和150到152)而变化,并且通常只有在非常高的比特率下才会令人满意。例如,在多单声道的情况下,evs编码在比特率为至少每声道(单声道)48千比特/秒时可能被认为是准透明的(从感知的角度来看);因此,对于1阶高保真立体声信号,获得了4
×
48=192千比特/秒的最小比特率。由于多单声道编码方法没有考虑到声道间关联,因此该方法产生了空间变形和各种伪像,如幽灵声源、漫射噪声或声源轨迹移位的出现。因此,使用该方法编码高保真立体声信号导致了空间化的退化。
[0031]
对于立体声或多声道信号,给出了一种通过参数编码对所有声道进行单独编码的替代方法。对于这种类型的编码,输入多声道信号被减少到更少声道数,在称为“下混”的处理操作之后,对这些声道进行编码并传输,并且还对附加空间化信息进行编码。参数化解码在于在对传输声道进行解码之后使用称为“上混”的处理操作(典型地通过去相关来实施)和基于经解码附加空间化信息的空间合成来增加声道数量。3gpp e-aac
+
编解码器给出了立体声参数化编码的一个示例。应当注意,下混操作也导致空间化的退化;在这种情况下,对空间图像进行修改。


技术实现要素:

[0032]
本发明旨在改进现有技术。
[0033]
为此,本发明提出了用于确定要对多声道声音信号进行的一组校正的方法,其中,该组校正是根据表示原始多声道信号的空间图像的信息和表示原始的经编码并且然后经解码的多声道信号的空间图像的信息来确定的。
[0034]
因此,要应用于经解码多声道信号的所确定的该组校正使得能够限制由于编码和可能的信道减少/增加操而作造成的空间退化。因此,实施校正使得能够恢复最接近于原始多声道信号的空间图像的经解码多声道信号的空间图像。
[0035]
在一个具体实施例中,该组校正在全带时域(一个频带)中确定。在一些变体中,该组校正在时域中由频率子带执行。这使得能够根据频带适配校正。
[0036]
在其他变体中,该组校正在短时离散傅里叶变换(stft)、改进离散余弦变换(mdct)类型等的实数或复数变换域(典型地频域)中执行。
[0037]
本发明还涉及用于对多声道声音信号进行解码的方法,该方法包括以下步骤:
[0038]
接收包括来自原始多声道信号的经编码音频信号和表示原始多声道信号的空间图像的信息的比特流;
[0039]
对该接收到的经编码音频信号进行解码并获得经解码多声道信号;
[0040]
对表示原始多声道信号的空间图像的信息进行解码;
[0041]
确定表示经解码多声道信号的空间图像的信息;
[0042]
使用上述确定方法来确定要对经解码信号进行的一组校正;
[0043]
使用所确定的该组校正来校正经解码多声道信号。
[0044]
因此,在该实施例中,解码器能够根据从编码器接收到的表示原始多声道信号的空间图像的信息来确定要对经解码多声道信号进行的校正。从编码器接收到的信息因此被限制。解码器负责确定和应用校正。
[0045]
本发明还涉及用于对多声道声音信号进行编码的方法,该方法包括以下步骤:
[0046]
对来自原始多声道信号的音频信号进行编码;
[0047]
确定表示原始多声道信号的空间图像的信息;
[0048]
对经编码音频信号进行本地解码并获得经解码多声道信号;
[0049]
确定表示经解码多声道信号的空间图像的信息;
[0050]
使用上述确定方法来确定要对经解码多声道信号进行的一组校正;
[0051]
对所确定的该组校正进行编码。
[0052]
在该实施例中,编码器确定要对经解码多声道信号进行的一组校正并且将该组校正传输给解码器。
[0053]
因此,编码器启动该校正确定。
[0054]
在如上所述的解码方法或如上所述的编码方法的第一具体实施例中,表示空间图像的信息是协方差矩阵,并且确定该组校正还包括以下步骤:
[0055]
获得包括与一组虚拟扬声器相关联的加权向量的加权矩阵;
[0056]
根据获得的加权矩阵和接收到的原始多声道信号的协方差矩阵来确定原始多声道信号的空间图像;
[0057]
根据该获得的加权矩阵和所确定的经解码多声道信号的协方差矩阵来确定该经解码多声道信号的空间图像;
[0058]
计算该原始多声道信号的空间图像与该经解码多声道信号的空间图像之间在该组虚拟扬声器中的扬声器的方向上的比率,以获得一组增益。
[0059]
根据该实施例,这种使用在扬声器上呈现的方法使得能够将仅有限数量的数据从编码器传输到解码器。事实上,对于给定阶数m,要传输的k=(m+1)2个系数(与相同数量的虚拟扬声器相关联)可能是足够的,但是为了更稳定的校正,可能建议使用更多的虚拟扬声器并且因此传输更多点。此外,校正能够从与虚拟扬声器相关联的增益的角度容易地理解。
[0060]
在另一个变体实施例中,如果编码器直接确定了不同方向的信号的能量并且将原始多声道信号的该空间图像传输到解码器,则针对解码方法确定该组校正还包括以下步骤:
[0061]
获得包括与一组虚拟扬声器相关联的加权向量的加权矩阵;
[0062]
根据该获得的加权矩阵和表示所确定的经解码多声道信号的空间图像的信息来确定该经解码多声道信号的空间图像;
[0063]
计算该原始多声道信号的空间图像与该经解码多声道信号的空间图像之间在该组虚拟扬声器中的扬声器的方向上的比率,以获得一组增益。
[0064]
为了保证校正值不会太极端,解码方法或编码方法包括限制根据至少一个阈值获得的增益值的步骤。
[0065]
该组增益构成了该组校正,并且可以例如采用包括因此确定的该组增益的校正矩阵的形式。
[0066]
在解码方法或编码方法的第二具体实施例中,表示空间图像的信息是协方差矩阵,并且确定该组校正包括通过两个协方差矩阵的矩阵分解来确定变换矩阵的步骤,变换矩阵构成该组校正。
[0067]
该实施例具有在高保真立体声多声道信号的情况下在高保真立体声域中直接做出校正的优点。因此避免了将扬声器上呈现的信号变换成高保真立体声域的步骤。该实施例另外使得能够优化校正以使得校正在数学意义上是最优化,即使该实施例与在扬声器上呈现的方法相比需要传输更多数量的系数。事实上,对于阶数m以及因此许多分量k=(m+1)2,要传输的系数的数量是k
×
(k+1)/2。
[0068]
为了避免超出某些频率范围的过度扩增,确定了归一化因数并且将其应用于变换矩阵。
[0069]
如果该组校正由如上所述的变换矩阵或校正矩阵表示,则经解码多声道信号借由所确定的该组校正通过将该组校正应用于经解码多声道信号来校正,也就是说在高保真立体声信号的情况下直接在高保真立体声域中校正。
[0070]
在由解码器实施的在扬声器上呈现的实施例中,在以下步骤中使用所确定的该组校正来校正经解码多声道信号:
[0071]
在定义的一组虚拟扬声器上对该经解码多声道信号进行声学解码;
[0072]
将获得的该组增益应用于由该声学解码产生的信号;
[0073]
对由该声学解码产生的校正信号进行声学编码以获得多声道信号的分量;
[0074]
将因此获得的该多声道信号的分量进行求和以获得经校正的多声道信号。
[0075]
在一个变体实施例中,以上解码、应用增益和编码/求和步骤一起组合成使用校正矩阵的直接校正操作。该校正矩阵可以直接应用于经解码多声道信号,如上所述这具有在高保真立体声域中直接做出校正的优点。
[0076]
在编码方法实施该方法以确定该组校正的第二实施例中,解码方法包括以下步骤:
[0077]
接收包括来自原始多声道信号的经编码音频信号和要对经解码多声道信号进行的经编码的一组校正的比特流,该组校正已经使用上述编码方法进行了编码;
[0078]
对该接收到的经编码音频信号进行解码并获得经解码多声道信号;
[0079]
对经编码的该组校正进行解码;
[0080]
通过将经解码的该组校正应用于该经解码多声道信号来校正该经解码多声道信号。
[0081]
在该实施例中,编码器直接在高保真立体声域中确定要对经解码多声道信号进行的校正,并且解码器直接在高保真立体声域中将这些校正应用于经解码多声道信号。
[0082]
在这种情况下,该组校正可以是变换矩阵或者包括一组增益的校正矩阵。
[0083]
在呈现在扬声器上的解码方法的一个变体实施例中,解码方法包括以下步骤:
[0084]
接收包括来自原始多声道信号的经编码音频信号和要对经解码多声道信号进行的经编码的一组校正的比特流,该组校正已经使用如上所述的编码方法进行了编码;
[0085]
对该接收到的经编码音频信号进行解码并获得经解码多声道信号;
[0086]
对经编码的该组校正进行解码;
[0087]
在以下步骤中使用经解码的该组校正来校正该经解码多声道信号:
[0088]
在定义的一组虚拟扬声器上对经解码多声道信号进行声学解码;
[0089]
将获得的该组增益应用于由声学解码产生的信号;
[0090]
对由声学解码产生的校正信号进行声学编码以获得多声道信号的分量;
[0091]
将因此获得的该多声道信号的分量进行求和以获得经校正的多声道信号。
[0092]
在该实施例中,编码器确定要对由一组虚拟扬声器上的声学解码产生的信号进行的校正,并且解码器将这些校正应用于由声学解码产生的信号并且然后变换这些信号以在高保真立体声多声道信号的情况下回到高保真立体声域。
[0093]
在一个变体实施例中,以上解码、应用增益和编码/求和步骤一起组合成使用校正矩阵的直接校正操作。然后通过将校正矩阵应用于经解码多声道信号(例如高保真立体声信号)来直接执行校正。如上所述,该实施例具有直接在高保真立体声域中做出校正的优点。
[0094]
本发明还涉及一种解码设备,该解码设备包括用于实施如上所述的解码方法的处理电路。
[0095]
本发明还涉及一种解码设备,该解码设备包括用于实施如上所述的编码方法的处理电路。
[0096]
本发明涉及一种计算机程序,该计算机程序包括当由处理器执行时用于实施如上所述的解码方法或编码方法的指令。
[0097]
本发明最后涉及一种存储介质,该存储介质能够被处理器读取并且存储包括用于执行如上所述的解码方法或编码方法的指令的计算机程序。
附图说明
[0098]
在阅读了通过简单的说明性和非限制性示例的方式提供的以下对特定实施例的说明以及对附图的说明之后,本发明的其他特征和优点将变得更加清楚明显,在附图中:
[0099]
图1展示了根据现有技术并且如上所述的多单声道编码;
[0100]
图2以流程图的形式展示了根据本发明的一个实施例的用于确定一组校正的方法的步骤;
[0101]
图3展示了根据本发明的编码器和解码器的第一实施例、编码方法和解码方法;
[0102]
图4展示了用于确定该组校正的框的第一详细实施例;
[0103]
图5展示了用于确定该组校正的框的第二详细实施例;
[0104]
图6展示了根据本发明的编码器和解码器的第二实施例、编码方法和解码方法;以及
[0105]
图7展示了根据本发明的一个实施例的编码器和解码器的结构性实施例的示例。
具体实施方式
[0106]
以下描述的方法基于校正空间退化,具体地为了确保经解码信号的空间图像尽可能接近原始信号。与对感知线索进行编码的用于立体声或多声道信号的已知参数化编码方法不同,本发明并非基于对空间图像信息的感知解释,因为高保真立体声域不是直接“可听见的”。
[0107]
图2示出了被实施为确定要应用于经编码并且然后经解码的多声道信号的一组校正的主要步骤。
[0108]
尺寸为k
×
l(也就是说l个时间或者频率样本的k个分量)的原始多声道信号b处于确定方法的输入处。在步骤s1中,提取表示原始多声道信号的空间图像的信息。
[0109]
如上所述,此处关注的是具有高保真立体声表示的多声道信号的情况。本发明还可以应用于其他类型的多声道信号,如具有修改的b格式信号,这些修改例如是抑制某些分量(例如抑制2阶r分量以保持仅8个声道)或者对b格式进行矩阵化以传到等效域(称为“等效空间域”),如3gpp ts 26.260说明书中描述的——矩阵化的另一个示例由ietf opus编解码器的“声道映射3”给出并且在3gpp ts 26.918说明书(条款6.1.6.3)中给出。
[0110]
此处给出的名称“空间图像”是指高保真立体声声音场景的声能在空间中各个方向上的分布;在一些变体中,描述声音场景的该空间图像通常对应于在空间中各个预定方向上评估的正值,例如以在这些方向上采样的music(多重信号分类)伪谱或到达方向的直方图(其中到达方向根据预定方向给出的离散化来计数)的形式评估;这些正值可以被解释为能量并且如同下文所示以简化本发明的描述。
[0111]
因此,与高保真立体声声音场景相关联的空间图像表示作为空间中各个方向的函数的相关声能(或者更一般地正值)。在本发明中,表示空间图像的信息可以是例如在多声道信号的声道之间计算的协方差矩阵或者与声音起源的方向相关联(与单位球面上分布的虚拟扬声器的方向相关联)的能量信息。
[0112]
要应用于多声道信号的该组校正是可以由与声音起源的方向相关联的一组增益所定义的信息,该信息可以采用包括该组增益或变换矩阵的校正矩阵的形式。
[0113]
多声道信号b的协方差矩阵例如是在步骤s1中获得的。如后期参考图3和图6所描述的,该矩阵例如如下计算:
[0114]
c=b.b
t
以在归一化因数内(在实数情况下)
[0115]
或者
[0116]
c=re(b.bh)以在归一化因数内(在复数情况下)。
[0117]
在一些变体中,可以使用使协方差矩阵短暂平滑的操作。在时域中多声道信号的情况下,协方差可以按以下形式递归(逐个样本)预估:
[0118]
cij(n)=n/(n+1)cij(n 1)+1/(n+1)bi(n)bj(n)。
[0119]
在一个变体实施例中,获得了各个方向的能量信息(与单位球面上分布的虚拟扬声器的方向相关联)。为此,可以例如应用后期参考图3和图4描述的srp(“转向响应功率”)方法。在一些变体中,可以使用其他空间图像计算方法(music伪谱、到达方向的直方图)。
[0120]
可以想到用于对原始多声道信号进行编码的多个实施例并在此处对其进行描述。
[0121]
在第一实施例中,对b的各种声道bk、k=0、...、k-1进行编码,在步骤s2中,使用多单声道编码,每个声道bk单独进行编码。在一些变体实施例中,在单独的对中对声道bk进行
编码的多立体声编码也是可能的。5.1输入信号的一个常规示例在于使用l/r和ls/rs两个单独立体声编码操作以及c和lfe(仅低频)单声道编码操作;对于高保真立体声的情况,多立体声编码可以应用于高保真立体声分量(b格式)或应用于在以b格式对声道进行矩阵化之后获得的等效多声道信号——例如,在1阶中,声道w、x、y、z可以转换成四个变换的声道,并且两对声道单独编码并且在解码时转换回b格式。在最新版本的opus编解码器(“声道映射3”)和在3gpp tr 26.918说明书(条款6.1.6.3)中给出了一个示例。
[0122]
在其他变体中,在步骤s2中还可以使用联合多声道编码,例如高保真立体声(基于场景)格式的mpeg-h 3d音频编解码器;在这种情况下,编解码器对输入声道进行联合编码。在mpeg-h示例中,对于高保真立体声信号,该联合编码被分解成多个步骤,如提取主要单声道声源并对其进行编码、提取背景音(典型地减少到1阶高保真立体声信号)、对所有提取的声道(称为“运输声道”)和描述声学波束成形向量的元数据进行编码以提取主要声道。联合多声道编码使得能够开发所有声道之间的关系以例如提取主要音频源和背景音或者执行考虑到所有音频内容的整体比特分配。
[0123]
在优选实施例中,步骤s2的示例性实施例是使用如上所述的3gpp evs编解码器执行的多单声道编码。然而,根据本发明的方法可以因此独立于用于表示要编码的声道的核心编解码器(多单声道、多立体声、联合编码)而使用。
[0124]
因此以比特流的形式编码的信号可以在步骤s3中通过编码器的本地解码器进行解码或者在传输之后通过解码器进行解码。对该信号进行解码以(例如通过使用多单声道解码的多个evs解码器)恢复多声道信号的声道。
[0125]
步骤s2a、s2b、s3a、s3b表示多声道信号b的编码和解码的一个变体实施例。与上述步骤s2的编码的差异在于使用附加处理操作以减少步骤s2a中的声道数量(“下混”)并增加步骤s3b中的声道数量(“上混”)。这些编码和解码步骤(s2b和s3a)类似于步骤s2和s3,除了在步骤s2b和s3a中相应的输入和输出声道的数量更低。
[0126]
1阶高保真立体声输入信号的下混的一个示例在于仅保持w个声道;对于阶数》1的高保真立体声输入信号,前4个分量w、x、y、z可以作为下混(因此截短信号到1阶)。在一些变体中,高保真立体声分量的子集(例如没有分量r的8个2阶声道)可以作为下混,并且还可以考虑矩阵化的情况,例如按以下形式获得的立体声下混:l=w y+0.3*x,r=w+y+0.3*x(仅使用foa声道)。
[0127]
上混单声道信号的一个示例在于在时域或频域中应用各种空间房间脉冲响应(srir)或各种去相关滤波器(全通型)。频域中去相关的一个示例性实施例在例如关于杜比vrstream音频配置文件候选项(条款x.6.2.3.5)的文档3gpp s4-180975,pcr到26.118中给出。
[0128]
由该“下混”处理操作产生的信号b'在步骤s2b中用核心编解码器(多单声道、多立体声、联合编码)进行编码,例如使用具有3gpp evs编解码器的单声道或多单声道方法。来自编码步骤s2b的输入音频信号和来自解码步骤s3a的输出音频信号的声道数量比原始多声道音频信号的声道数量少。在这种情况下,由核心编解码器表示的空间图像即使在编码前就已经被基本上降质。在极端情况下,通过仅对w个声道进行编码,声道数量减少到单个单声道;然后输入信号被限制为单个音频声道,并且因此空间图像丢失。根据本发明的方法使得能够描述该空间图像并尽可能接近原始多声道信号的空间图像重建该空间图像。
[0129]
在该变体实施例的s3b中的上混步骤的输出处,经解码多声道信号恢复。
[0130]
在步骤s4中,根据这两个变体(s2-s3或s2a-s2b-s3a-s3b)从经解码多声道信号中提取表示经解码多声道信号的空间图像的信息。以与原始图像相同的方式,该信息可以是在经解码多声道信号上计算的协方差矩阵或者与声音起源的方向相关联(或者,等效地,与单位球面上虚点相关联)的能量信息。
[0131]
在步骤s5中使用表示原始多声道信号和经解码多声道信号的信息来确定要对经解码多声道信号进行的一组校正,以限制空间退化。
[0132]
以下将参考图4和图5描述两个实施例以展示该步骤。
[0133]
图2中描述的方法可以在时域中、在频率全带(具有单个频带)中实施或者由频率子带实施(具有多个频带),并且这不改变方法的操作,然后单独处理每个子带。如果该方法由子带执行,则该组校正根据子带确定,与单个频带的情况相比,这引起计算和传输到解码器的数据方面的额外花费。子带的划分可以是均匀的或者不均匀的。例如,以32khz采样的信号频谱可以根据各种变体划分:
[0134]
4个频带,各自宽度为1khz、3khz、4khz和8khz或甚至2khz、2khz、4khz和8khz
[0135]
24个bark频带(从低频的100hz宽度到最后一个子带的3.5-4khz)
[0136]
这24个bark频带可以一起组合成4个或6个连续频带的框以各自形成一组6个或4个“聚集”频带。
[0137]
其他划分是可能的(例如erb频带——“等效矩形带宽”——或倍频程的1/3),包括不同采样频率的情况(例如16khz或48khz)。
[0138]
在一些变体中,本发明还可以在变换域中实施,例如在短时离散傅里叶变换(stft)的域或改进离散余弦变换(mdct)的域中实施。
[0139]
现在描述了用于实施该组校正的确定和用于将该组校正应用于经解码信号的多个实施例。
[0140]
此处提示了用于对高保真立体声格式的声源进行编码的已知技术。单声道声源可以通过将其信号乘以与其起源方向相关联的球谐函数的值(假定此信号由平面波携带)来人为地空间化,以获得相同数量的高保真立体声分量。这涉及计算以方位角θ和期望阶数的仰角确定的位置的每个球谐函数的系数:
[0141]
b=y(θ,φ).s
[0142]
其中,s是要空间化的单声道信号并且是定义与第m阶的方向相关联的球谐函数系数的编码向量。对于具有sn3d惯例的第1阶以及sid或fuma声道的阶数,以下给出了编码向量的一个示例:
[0143][0144]
在一些变体中,可以使用其他归一化惯例(例如:maxn、n3d)和声道阶数(例如:acn),并且然后根据用于高保真立体声分量(foa或hoa)的一个或多个归一化的阶数的惯例来适配各个实施例。这相当于修改行来适配各个实施例。这相当于修改行的阶数或者将这些行与预定义常量相乘。
[0145]
对于更高阶数,球谐函数的系数可以在以下书籍中找到:b.rafaely,fundamentals of spherical array processing[球面阵列处理基础],斯普林格出版社(springer),2015。通常,对于阶数m,存在k=(m+1)2个高保真立体声信号。
[0146]
同样地,此处还将提示与扬声器呈现的高保真立体声相关的几个概念。高保真立体声并不意味着如此收听;为了在扬声器或头戴式耳机上进行沉浸式收听,必须实施声学场景中的“解码”步骤,也称为呈现(“渲染器”)。考虑到了分布在球面(典型地具有单位半径,并且其方向径,并且其方向在方位角和仰角方面是已知的)上的n个(虚拟或有形)扬声器的情况。如此处所考虑的,解码是在于将矩阵d应用于高保真立体声信号b以获得扬声器的信号sn的线性操作,这些信号可以组合成矩阵s=[s0,
…sn-1
],s=d.b,其中,
[0147][0148]
矩阵d可以分解成单行矩阵dn,也就是说
[0149][0150]dn
可以被视为第n个扬声器的加权向量,用于重组高保真立体声信号的分量并计算第n个扬声器上播放的信号:sn=dn.b。
[0151]
用于在声学场景中“解码”的方法有多种。所谓的“基本解码”方法(也称为“模式匹配”)基于与虚拟扬声器的所有方向相关联的编码矩阵e:
[0152][0153]
根据该方法,矩阵d典型地定义为e的伪逆矩阵:d=pinv(e)=d
t
(d.d
t
)-1
[0154]
作为替代方案,可以称为“投影”方法的方法针对某些规则的方向分布给出了类似的结果,并且用以下等式描述:
[0155][0156]
在后一种情况下,可以看出,对于指数n的每个方向,
[0157][0158]
在本发明的上下文中,这种矩阵将用作描述如何获得空间中方向的信号特性以执行分析和/或空间转变的方向性波束成形矩阵。
[0159]
在本发明的上下文中,描述从扬声器域传递到高保真立体声域的倒数转换是有用的。如果在扬声器域中没有应用任何中间修改,则这两个转换的连续应用应当精确复制原始高保真立体声信号。因此倒数转换被定义为启用d的伪逆:
[0160]
pinv(d).s=d
t
(d.d
t
)-1
.s
[0161]
当k=(m+1)2时,大小为k
×
k的矩阵d能够在某些情况下逆转,并且在这种情况下:b=d-1
.s
[0162]
在“模式匹配”方法的情况下,似乎是pinv(d)=e。在一些变体中,可以使用用于使
用d进行解码的其他方法,以及对应的逆转换e;要满足的唯一条件是使用d的解码和使用e的逆转换的组合应该给予完美的重建(在声学解码与声学编码之间没有执行中间处理操作时)。
[0163]
这种变体例如通过以下方法给出:
[0164]
‑“
模式匹配”解码,具有以下形式的调节项:
[0165]
其中,ε是低值(例如0.01),
[0166]
‑“
同相”或“max-re”解码,从现有技术已知
[0167]
或球面上扬声器方向的分布不规律的变体。
[0168]
图3示出了编码设备和解码设备的第一实施例,该编码设备和解码设备用于实施包括用于确定如参考图2所述的一组校正的方法的编码和解码方法。
[0169]
在该实施例中,编码器计算表示原始多声道信号的空间图像的信息并且将该信息传输到解码器以使其校正由编码引起的空间退化。这使得能够在解码期间减弱经解码高保真立体声信号中的空间伪像。
[0170]
因此,编码器接收多声道输入信号,例如高保真立体声表示foa或hoa或者具有高达给定部分高保真立体声阶数的高保真立体声分量的子集的混合表示的多声道输入信号——后一种情况事实上以等效的方式包括在foa或hoa情况下,其中缺少的高保真立体声分量为零并且高保真立体声阶数由包括所有定义的分量所需的最小阶数给出。因此,在不失一般性的情况下,以下考虑了对foa或hoa情况的描述。
[0171]
在因此描述的实施例中,输入信号以32khz采样。编码器以优选地20ms长的帧操作,也就是说在32khz下每帧l=640个样本。在一些变体中,其他帧长和采样频率是可能的(例如在48khz下10ms每帧l=480个样本)。
[0172]
在一个优选实施例中,编码在时域(一个或多个频带上)执行,但是在一些变体中,本发明可以在变换域中实施,例如在短时离散傅里叶变换(stft)或改进离散余弦变换(mdct)之后实施。
[0173]
根据所使用的编码实施例,如参考图2解释的,可以实施用于减少声道(dmx)数量的框310;当实施下混时框311的输入是框310的输出处的信号b',如若不然则是信号b。在一个实施例中,如果应用了下混,则对于例如1阶高保真立体声输入信号,这在于保持仅w声道,并且对于阶数》1的高保真立体声输入信号,这在于仅保持前4个高保真立体声分量w、x、y、z(因此将信号截短到1阶)。可以实施其他类型的下混(如以上所述的选择声道子集和/或矩阵化的下混)而不修改根据本发明的方法。
[0174]
如果执行了下混步骤,则框311在框310的输出处对b'的音频信号b'k进行编码,或者对原始多声道信号b的音频信号bk进行编码。如果没有应用减少声道数量的处理操作,则该信号与原始多声道信号的高保真立体声分量相对应。
[0175]
在一个优选实施例中,框311使用具有固定或可变的分配的多单声道编码(cod),其中核心编解码器是标准3gpp evs编解码器。在该多单声道方法中,每个声道bk或b'k通过编解码器的一个实例进行单独编码;然而,在一些变体中,其他编码方法是可能的,例如多立体声编码或联合多声道编码。因此,在该编码框311的输出处,以发送到多路复用器340的比特流的形式给出了由原始多声道信号产生的经编码音频信号。
[0176]
可选地,框320执行子带的划分。在一些变体中,该子带的划分可以重复利用在框
441页。
[0186]
根据该离散化,可以确定多声道信号的空间图像。一种可能的方法是例如srp(“转向响应功率”)方法。事实上,该方法在于计算来自在方位角和仰角方面定义的各个方向的短期能量。为此,如以上所解释的,与在n个扬声器上呈现类似,计算了高保真立体声分量的加权矩阵,并且然后将该矩阵应用于多声道信号以将分量的贡献进行求和并产生一组n个声束(或“波束成形器”)。
[0187]
来自第n个扬声器方向的声束的信号由以下给出:sn=dn.b
[0188]
其中,dn是给出给定方向的声学波束成形系数的权重(行)向量,并且b是表示在长度为l的时间间隔内具有k个分量的高保真立体声信号(b格式)的大小为k
×
l的矩阵。
[0189]
来自n个声束的一组信号得出等式:s=d.b
[0190]
其中
[0191][0192]
并且s是表示n个虚拟扬声器在长度为l的时间间隔内的信号的大小为n
×
l的矩阵。
[0193]
在长度为l的时间片段内各个方向的短期能量是:
[0194][0195]
其中,c=b.b
t
(实数情况)或re(b.bh)(复数情况)是b的协方差矩阵。
[0196]
每个项可以针对与虚拟扬声器的3d球面的离散化相对应的所有方向以这种方式计算。
[0197]
然后由以下给出空间图像∑:
[0198]
∑=[σ
02
,...,σ
n-12
]
[0199]
可以使用除了srp方法之外的用于计算空间图像∑的变体。
[0200]
值dn可以根据所使用的声学波束成形的类型(延迟求和、mvdr、lcmv等)而变化。本发明还应用于计算矩阵d和空间图像的那些变体
[0201]
∑=[σ
02
,...,σ
n-12
]
[0202]
music(多重信号分类)方法还提供了以子空间方式计算空间图像的另一种方法。
[0203]
本发明还应用于计算空间图像的这种变体
[0204]
∑=[σ
02
,...,σ
n-12
]
[0205]
该变体对应于通过对角化协方差矩阵计算的和针对方向评估的music伪谱。
[0206]
空间图像可以根据强度向量(1阶)的直方图计算,例如在s.tervo,direction estimation based on sound intensity vectors[基于声音强度向量的方向估计],proc.eusipco[欧洲信号处理国际会议记录],2009的文章中,或者其对伪强度向量的一般化。在这种情况下,直方图(值为预定方向中到达方向值的出现次数)被解释为预
定方向中的一组能量。
[0207]
然后框330量化因此确定的空间图像,例如以每系数16比特上的标量量化(通过直接使用16比特上截短的浮点表示)。在一些变体中,其他标量或向量量化方法是可能的。
[0208]
在另一个实施例中,表示原始多声道信号的空间图像的信息是输入声道b的(子带的)协方差矩阵。该矩阵如下计算:
[0209]
c=b.b
t
以在归一化因数内(在实数情况下)。
[0210]
如果本发明在复值变换域中实施,则该协方差如下计算:
[0211]
c=re(b.bh)
[0212]
以在归一化因数内。
[0213]
在一些变体中,可以使用使协方差矩阵短暂平滑的操作。在时域中多声道信号的情况下,协方差可以递归(逐个样本地)预估。
[0214]
按照定义,(大小为k
×
k的)协方差矩阵c是对称的,下三角或上三角中仅一者传输到量化框330,其对k(k+1)/2系数进行编码(q),k是高保真立体声分量的数量。
[0215]
该框330量化这些系数,例如以每系数16比特上的标量量化(通过直接使用16比特上截短的浮点表示)。在一些变体中,可以实施用于协方差矩阵的标量或向量量化的其他方法。例如,可以计算协方差矩阵的最大值(最大方差)并且然后使用标量量化和对数步长在较小数量的比特(例如8比特)上对通过最大值归一化的协方差矩阵的上(或下)三角的值进行编码。
[0216]
在一些变体中,协方差矩阵c可以规整化然后以c+εi形式量化。
[0217]
量化的值发送到多路复用器340。
[0218]
在该实施例中,在多路复用器框350中,解码器接收包括由原始多声道信号产生的经编码音频信号和表示原始多声道信号的空间图像的信息的比特流。
[0219]
框360对协方差矩阵或表示原始信号的空间图像的其他信息进行解码(q-1
)。框370对由比特流表示的音频信号进行解码(dec)。
[0220]
在不实施下混和上混步骤的编码和解码的一个实施例中,在解码框370的输出处获得经解码多频道信号
[0221]
在使用下混步骤进行编码的实施例中,在框370中实施的解码使得能够获得发送到上混框371的输入的经解码音频信号
[0222]
因此框371实施增加声道数量的可选的步骤(上混)。在该步骤的一个实施例中,对于单声道信号的声道,在于使用各种空间房间脉冲响应(srir)来卷曲信号这些srir以b的原始高保真立体声阶数定义。其他去相关方法是可能的,例如将全通型去相关滤波器应用于信号的各种声道。
[0223]
框372实施子带划分的可选的步骤(sb)以获得时域或变换域中的子带。在框391中,逆转步骤将子带组合起来以恢复输出处的多声道信号。
[0224]
框375以与针对框321所描述的(对于原始多声道信号)类似的方式确定表示经解码多声道信号的空间图像的(inf)信息,这次应用于根据在解码实施例上的框371或框370的输出处获得的经解码多频道信号
[0225]
以与针对框321所描述的相同的方式,在一个实施例中,该信息是与声音起源的方向相关联(与单位球面上分布的虚拟扬声器的方向相关联)的能量信息。如以上所解释的,srp方法(等等)可以用于确定经解码多声道信号的空间图像。
[0226]
在另一个实施例中,该信息是经解码多声道信号的声道的协方差矩阵。
[0227]
然后该协方差矩阵如下获得:
[0228]
(实数情况)或
[0229]
(复数情况)以在归一化因数内。
[0230]
在一些变体中,可以使用使协方差矩阵短暂平滑的操作。在时域中多声道信号的情况下,协方差可以递归(逐个样本地)预估。
[0231]
根据分别表示原始多声道信号的空间图像的信息(inf.b)和表示经解码多声道信号的信息(inf.),例如,协方差矩阵c和框380实施用于确定(det.corr)如参考图2描述的一组校正的方法。
[0232]
参考图4和图5描述该确定的两个具体实施例。
[0233]
在图4的实施例中,使用了使用(明确或不明确的)在虚拟扬声器上呈现的方法,并且在图5的实施例中,使用了基于丘拉斯基分解(cholesky factorization)实施的方法。
[0234]
图3的框390使用由框380确定的该组校正来实施对经解码多声道信号的校正(corr)以获得经校正的经解码多声道信号。
[0235]
因此,图4示出了确定一组校正的步骤的一个实施例。该实施例使用在虚拟扬声器上的呈现来执行。
[0236]
在该实施例中,最初认为表示原始多声道信号的空间图像的信息和经解码多声道信号的空间图像的信息是相应的协方差矩阵c和
[0237]
在这种情况下,框420和421分别确定了原始多声道信号和经解码多声道信号的空间图像。
[0238]
为此,如上所述,具有单位半径的虚拟3d球面由n个点(“点”虚拟扬声器)离散,其方向在球面坐标中由第n个扬声器的方向定义。
[0239]
已经如上定义了多个离散化方法。
[0240]
根据该离散化,可以确定多声道信号的空间图像。如上所述,一个可能的方法是srp方法(等等),该srp方法在于计算来自在方位角和仰角方面定义的各个方向的短期能量。
[0241]
如上所列的该方法或其他类型的方法可以用于分别确定420(img b)处的原始多声道信号和421(img)处的解码多声道信号的空间图像∑和(is b和is)。
[0242]
如果由解码器在360处接收并且解码的表示原始信号的空间图像的信号(inf b)是空间图像本身,也就是说与声音起源的方向相关联(与单位球面上分布的虚拟扬声器的方向相关联)的能量信息(或正值),则不再需要在420处计算该信息。然后通过如下所述的框430直接使用该空间图像。
[0243]
同样地,如果在375处表示经解码多声道信号的空间图像的信号(inf)是经解码多声道信号的空间图像本身,则不再需要在421处计算该信息。然后通过如下所述的框430
直接使用该空间图像。
[0244]
根据空间图像∑和框430针对由给定的每个点来计算(比率)原始信号的能量σ
n2
=∑n与经解码信号的能量之间的能量比率。因此使用以下等式获得一组增益gn:
[0245][0246]
根据方向和频带,能量比率可以很大。框440使得能够可选地限制(限制gn)增益gn能够采取的最大值。将在此回顾,表示为σ
n2
和的正值更一般地可以对应于从music伪谱产生的值或从离散化方向中的到达方向直方图产生的值。
[0247]
在一个可能的实施例中,阈值应用于gn值。大于该阈值的任何值被迫等于该阈值的值。阈值可以例如设为6db,使得在间隔
±
6db以外的增益值饱和于
±
6db。
[0248]
因此,该组增益gn构成要对经解码多声道信号进行的该组校正。
[0249]
在图3的校正框390的输入处接收到该组增益。
[0250]
可以定义能够直接应用于经解码多声道信号的校正矩阵,例如以g=e.diag([g0...g
n-1
]).d的形式,其中,d和e是如上定义的声学解码和编码矩阵。该矩阵g应用于经解码多声道信号以获得经校正的输出高保真立体声信号(corr)。
[0251]
现在描述了针对校正实施的步骤的分解。对于每个虚拟扬声器,框390应用了对应的先前确定的增益gn。应用该增益使得能够在该扬声器上获得与原始信号相同的能量。
[0252]
经解码信号在每个扬声器上的呈现因此被校正。
[0253]
然后实施声学编码步骤,例如使用矩阵e的高保真立体声编码,以获得多声道信号的分量,例如高保真立体声分量。最终将这些高保真立体声分量进行求和以获得经校正的输出多声道信号(corr)。因此,能够准确计算与虚拟扬声器相关联的声道,对其施加增益,并且然后重组经处理的声道,或者以等效的方式将矩阵g应用于要校正的信号。
[0254]
在一些变体中,可以根据经编码并且然后经解码的多声道信号的协方差矩阵和校正矩阵g将框390中的校正信号的协方差矩阵计算为:
[0255][0256]
仅对应于全向分量(w声道)的矩阵r的第一系数r
00
的值被保留,以作为归一化因数应用于r并且避免由于校正矩阵g的整体增益的增长:
[0257][0258]gnorm
=g
norm
.g
[0259]
其中
[0260][0261]
其中,对应于经解码多声道信号的协方差矩阵的第一系数。
[0262]
在一些变体中,可以确定归一化因数g
norm
而无需计算整体矩阵r,因为仅计算矩阵元素的子集就足以确定r
00
(以及因此g
norm
)。
[0263]
因此获得的矩阵g或g
norm
对应于要对经解码多声道信号进行的该组校正。
[0264]
现在图5示出了用于确定在图3的框380中实施的一组校正的方法的另一个实施例。
[0265]
在该实施例中,认为表示原始多声道信号的空间图像的信息和经解码多声道信号的空间图像的信息是相应的协方差矩阵c和
[0266]
在该实施例中,不试图在虚拟扬声器上执行的呈现以校正多声道信号的空间图像。具体地,对于高保真立体声信号,试图在高保真立体声结构域中直接计算空间图像的校正。
[0267]
为此,确定了要应用于经解码信号的变换矩阵t,使得在将变换矩阵t应用于经解码信号之后修改的空间图像与原始信号b的空间图像相同。
[0268]
因此寻求满足以下等式的矩阵t:
[0269]
其中,c=b.b
t
是b的协方差矩阵并且是当前帧中的协方差矩阵。
[0270]
在该实施例中,被称为丘拉斯基分解的分解用于求解该等式。
[0271]
给定大小为n
×
n的矩阵a,丘拉斯基分解在于确定(上或下)三角矩阵l,使得a=ll
t
(实数情况)和a=llh(复数情况)。对于可能的分解,矩阵a可以是正定对称矩阵(实数情况)或正定埃尔米特矩阵(hermitian matrix)(复数情况);在实数情况下,l的对角系数严格为正。
[0272]
在实数情况下,如果是对称(m
t
=m)和正定(对于x∈rn\{0}的任何值,x
t
mx》0),则大小为n
×
n的矩阵m被认为是正定对称的。
[0273]
对于对称矩阵m,可以证实如果所有特征值严格为正(λi>0)则矩阵是正定的。如果特征值为正(λi≥0),则矩阵被认为是半正定的。
[0274]
如果是埃尔米特(mh=m)和正定(对于z∈cn\{0}的任何值,zhmz是》0的实数),则大小为n
×
n的矩阵m被称为正定对称埃尔米特。
[0275]
例如使用丘拉斯基分解来得到ax=b类型的线性等式系统的解。例如,在复数情况下,能够使用丘拉斯基分解将a变换成llh以求解ly=b并且然后求解lhx=y。
[0276]
以等效的方式,丘拉斯基分解可以写作a=u
t
u(实数情况)和a=uhu(复数情况),其中,u是上三角矩阵。
[0277]
在此处描述的实施例中,在不失一般性的情况下,只处理了具有三角矩阵l的丘拉斯基分解。
[0278]
因此,丘拉斯基分解使得能够在矩阵c是正定对称的条件下将矩阵c=l.l
t
分解成两个三角矩阵。这给出了以下等式:
[0279][0280]
使用鉴定是为了得到:
[0281][0282]
也就是说:
[0283][0284]
因为协方差矩阵c和通常是半正定矩阵,因此不能照此使用丘拉斯基分解。
[0285]
此处要注意的是,当矩阵l和为下(相应地上)三角时,变换矩阵t也是下(相应地上)三角。
[0286]
因此框510迫使协方差矩阵c为正定的。为此,将值ε添加(fact.c表示c的因式分解)到矩阵的对角系数以保证矩阵实际上是正定的:c=c+εi,其中,ε是例如设定为10-9
的低值并且i是单位矩阵。
[0287]
类似地,框520通过以形式修改协方差矩阵来迫使该矩阵为正定的,其中,ε是例如设定为10-9
的低值并且i是单位矩阵。
[0288]
一旦两个协方差矩阵c和被调整为正定的,框530就计算相关联的丘拉斯基分解并得到(det.t)以下形式的最优变换矩阵t:
[0289][0290]
在一些变体中,可以通过特征值的分解来执行替代性解决方案。
[0291]
特征值的分解(“特征分解”)在于按以下形式对大小为n
×
n的实数或复数矩阵a进行因式分解:
[0292]
a=qλq-1
[0293]
其中,λ是含有特征值λi的对角矩阵并且q是特征向量的矩阵。
[0294]
如果矩阵是实数,则:
[0295]
a=qλq
t
[0296]
在复数的情况下,分解写为:a=qλqh[0297]
在当前情况下,所寻找的是矩阵t,使得:
[0298]
其中,c=qλq
t
并且
[0299][0300]
也就是说:
[0301][0302]
使用鉴定是为了得到:
[0303][0304]
也就是说:
[0305][0306]
从一帧到另一帧的解的稳定性典型地不如丘拉斯基分解方法好。在特征值的分解期间可能较大的更重要的计算近似加剧了这种不稳定性。
[0307]
在一些变体中,对角矩阵
[0308][0309]
其中
[0310]
λ=(λ0,...,λ
k-1
)
[0311]
可以按格式逐个元素地计算
[0312]
其中,sgn(.)是符号函数(如果为正则为+1,否则为-1)并且ε是正则项(例如ε=10-9
)以避免除以零。
[0313]
在该实施例中,经解码高保真立体声信号与校正的高保真立体声信号之间能量的相对差异可能很大,尤其是就高频率而言,这可能由如多单声道evs编码的编码器强烈恶化。为了避免极度加大某些频率区域,可以添加正则项。框640可选地负责对该校正进行归一化(norm.t)。
[0314]
在优选实施例中,因此计算归一化因数以不放大频率区域。
[0315]
根据经编码并且然后经解码的多声道信号的协方差矩阵和变换矩阵t中,可以将校正信号的协方差矩阵计算为:
[0316][0317]
仅对应于全向分量(w声道)的矩阵r的第一系数r
00
的值被保留,以作为归一化因数应用于t并且避免由于校正矩阵t的整体增益的增长:
[0318][0319]
t
norm
=g
norm
.t
[0320]
其中
[0321][0322]
其中,对应于经解码多声道信号的协方差矩阵的第一系数。
[0323]
在一些变体中,可以确定归一化因数g
norm
而无需计算整体矩阵r,因为仅计算矩阵元素的子集就足以确定r
00
(以及因此g
norm
)。
[0324]
因此获得的矩阵t或t
norm
对应于要对经解码多声道信号进行的该组校正。
[0325]
通过该实施例,图3的框390通过在高保真立体声域中将变换矩阵t或t
norm
直接应用于经解码多声道信号来执行校正经解码多声道信号的步骤,以获得经校正的输出高保真立体声信号(corr)。
[0326]
现在将描述根据本发明的编码器/解码器的第二实施例,其中用于校正组的方法实施在编码器中。图6描述了该实施例。因此,该图示出了编码设备和解码设备的第二实施例,该编码设备和解码设备用于实施包括用于确定如参考图2所述的一组校正的方法的编码和解码方法。
[0327]
在该实施例中,在编码器上执行用于确定一组校正(例如与方向相关联的增益)的方法,该编码器然后将该组校正传输到解码器。解码器对该组校正进行解码以将其应用于经解码多声道信号。因此,该实施例涉及在编码器处实施本地解码,并且该本地解码由框612到613表示。
[0328]
框610、611、620和621分别等同于参考图3所描述的框310、311、320和321。
[0329]
表示原始多声道信号的空间图像的信息(inf.b)因此在框621的输出处获得。
[0330]
框612实施与框611执行的编码一致的本地解码(dec_loc)。
[0331]
该本地解码可以由来自框611的比特流的完整解码构成,或者优选地,可以整合成框611。
[0332]
在不实施下混和上混步骤的编码和解码的一个实施例中,在本地解码框612的输出处获得经解码多频道信号
[0333]
在610处使用下混步骤进行编码的实施例中,在框612中实施的本地解码使得能够获得发送到上混框613的输入的经解码音频信号
[0334]
因此框613实施增加声道数量的可选的步骤(上混)。在该步骤的一个实施例中,对于单声道信号的声道,在于使用各种空间房间脉冲响应(srir)来卷曲信号这些srir以b的原始高保真立体声阶数定义。其他去相关方法是可能的,例如将全通型去相关滤波器应用于信号的各种声道。
[0335]
框614实施子带划分的可选的步骤(sb)以获得时域或变换域中的子带。
[0336]
框615以与针对框621和321所描述的(对于原始的多声道信号)类似的方式确定表示经解码多声道信号的空间图像的(inf)信息,这次应用于根据在本地解码的实施例上的框612或框613的输出处获得的经解码多频道信号该框615等效于图3中的框375。
[0337]
以与针对框621和321相同的方式,在一个实施例中,该信息是与声音起源的方向相关联(与单位球面上分布的虚拟扬声器的方向相关联)的能量信息。如以上所解释的,srp方法等等(像如上所述的变体)可以用于确定经解码多声道信号的空间图像。
[0338]
在另一个实施例中,该信息是经解码多声道信号的声道的协方差矩阵。
[0339]
然后该协方差矩阵如下获得:
[0340]
以在归一化因数内(在实数情况下)
[0341]
或者
[0342][0343]
以在归一化因数内(在复数情况下)
[0344]
分别根据表示原始多声道信号的空间图像的信息(inf.b)和表示经解码多声道信号的空间图像的信息(inf.),例如,协方差矩阵c和框680实施用于确定(det.corr)如参考图2描述的一组校正的方法。
[0345]
该确定的两个具体实施例是可能的并且已经参考图4和图5进行描述。
[0346]
在图4的实施例中,使用了使用在扬声器上呈现的方法,并且在图5的实施例中,使用了直接在高保真立体声域中实施的基于丘拉斯基分解或通过特征值的分解实施的方法。
[0347]
因此,如果在630处应用图4的实施例,则所确定的该组校正是由一组虚拟扬声器定义的一组方向的一组增益gn。该组增益可以按校正矩阵g的形式确定,如参考图4中所描述的。
[0348]
然后在640处对该组增益(corr.)进行编码。对该组增益进行编码可以在于对校正
矩阵g或g
norm
进行编码。
[0349]
应当注意,大小为k
×
k的矩阵g是对称的,因此,根据本发明,可以仅对g或g
norm
的下三角或上三角(也就是k
×
(k+1)/2值)进行编码。通常,对角上的值为正。在一个实施例中,根据值是否非对角,使用标量量化(具有或不具有符号位)对矩阵g或g
norm
进行编码。在使用g
norm
的变体中,可以省略对g
norm
的对角(对应于全向分量)的第一值的编码和传输,因为该值始终为1;例如,在具有k=4个声道的1阶高保真立体声的情况下,这相当于仅传输9个值而非k
×
(k+1)/2=10个值。在一些变体中,可以使用其他标量或向量量化方法(具有或不具有预测)。
[0350]
如果在630处应用图5的实施例,则所确定的该组校正是变换矩阵t或t
norm
,该变换矩阵然后在640处进行编码。
[0351]
应当注意,大小为k
×
k的矩阵t在使用丘拉斯基分解的变体中是三角形的并且在使用特征值分解的变体中是对称的;因此,根据本发明,可以仅对t或t
norm
的下三角或上三角(即k
×
(k+1)/2值)进行编码。
[0352]
通常,对角上的值为正。在一个实施例中,根据值是否非对角,使用标量量化(具有或不具有符号位)对矩阵t或t
norm
进行编码。在一些变体中,可以使用其他标量或向量量化方法(具有或不具有预测)。在使用t
norm
的变体中,可以省略对t
norm
对角(对应于全向分量)的第一值的编码和传输,因为该值始终为1;例如,在具有k=4个声道的1阶高保真立体声的情况下,这相当于仅传输9个值而非k
×
(k+1)/2=10个值。
[0353]
因此,框640对所确定的该组校正进行编码并将经编码的该组校正发送到多路复用器650。
[0354]
在多路复用器框660中,解码器接收包括由原始多声道信号产生的经编码音频信号和要应用于经解码多声道信号的经编码的该组校正的比特流。
[0355]
框670对经编码的该组校正进行解码(q-1
)。框680对流中的经编码音频信号进行解码(dec)。
[0356]
在不实施下混和上混步骤的编码和解码的一个实施例中,在解码框680的输出处获得经解码多频道信号
[0357]
在使用下混步骤进行编码的实施例中,在框680中实施的解码使得能够获得发送到上混框681的输入的经解码音频信号
[0358]
因此,框681实施增加声道数量的可选的步骤(上混)。在该步骤的一个实施例中,对于单声道信号的声道,其在于使用各种空间房间脉冲响应(srir)来卷曲信号这些srir以b的原始高保真立体声阶数定义。其他去相关方法是可能的,例如将全通型去相关滤波器应用于信号的各种声道。
[0359]
框682实施子带划分的可选的步骤(sb)以获得时域或变换域中的子带,并且框691将子带集合在一起以恢复输出多声道信号。
[0360]
框690使用在框670处解码的一组校正来实施对经解码多声道信号的校正(corr),以获得经校正的经解码多声道信号(corr)。
[0361]
在该组校正是参考图4描述的一组增益的一个实施例中,该组增益在校正框690的输入处接收。
[0362]
如果该组增益采用能够直接应用于经解码多声道信号的校正矩阵的形式,该校正矩阵例如按以下形式定义:
[0363]
g=e.diag([g0...g
n-1
]).d或g
norm
=g
norm
.g,则该矩阵g或g
norm
应用于经解码多声道信号以获得经校正的输出高保真立体声信号(corr)。
[0364]
如果框690接收一组增益gn,则框690对每个虚拟扬声器应用对应的增益gn。应用该增益使得能够在该扬声器上获得与原始信号相同的能量。
[0365]
经解码信号在每个扬声器上的呈现因此被校正。
[0366]
然后实施声学编码步骤,例如高保真立体声编码,以获得多声道信号的分量,例如高保真立体声分量。然后将这些高保真立体声分量进行求和以获得经校正的多声道输出信号(corr)。
[0367]
在该校正是参考图5描述的变换矩阵的一个实施例中,在670处解码的变换矩阵t在校正框690的输入处接收。
[0368]
通过该实施例,框690在高保真立体声域中将变换矩阵t或t
norm
直接应用于经解码多声道信号以执行校正经解码多声道信号的步骤,以获得经校正的输出高保真立体声信号(corr)。
[0369]
即使本发明应用于高保真立体声实例中,在一些变体中,可以将其他格式(多声道、对象等)转换成高保真立体声以根据所描述的各个实施例实施方法。从多声道或对象格式转换成高保真立体声格式的一个示例性实施例描述于3gpp ts 26.259说明书的图2(v15.0.0)。
[0370]
图7展示了编码设备dcod和解码设备ddec,在本发明的意义上,这些设备彼此成对(在“可逆”的意义上)并且通过通信网络res彼此连接。
[0371]
编码设备dcod包括处理电路,该处理电路典型地包括:
[0372]
存储器mem1,用于在本发明的意义上存储计算机程序的指令数据(这些指令可能分布在编码器dcod与解码器ddec之间);
[0373]
界面int1,用于接收原始多声道信号b,例如分布在各个声道(例如四个1阶声道w、y、z、x)上的高保真立体声信号,以在本发明的意义上对其进行压缩编码;
[0374]
处理器proc1,用于接收该信号并且通过执行存储在存储器mem1的计算机程序指令对其进行处理,以对该信号进行编码;以及
[0375]
通信接口com 1,用于经由网络传输经编码信号。
[0376]
解码设备ddec包括其自身的处理电路,该处理电路典型地包括:
[0377]
存储器mem2,用于在本发明的意义上存储计算机程序的指令数据(这些指令可能分布在如上所述的编码器dcod与解码器ddec之间);
[0378]
界面com2,用于接收来自网络res的经编码信号以在本发明的意义上对其进行压缩解码;
[0379]
处理器proc2,用于通过执行存储在存储器mem2的计算机程序指令来处理这些信号,以对这些信号进行解码;以及
[0380]
输出接口int2,用于递送经校正的解码信号(corr),例如以高保真立体声声道w...x的形式,以呈现这些信号。
[0381]
当然,该图7展示了本发明的意义上的编解码器(编码器或解码器)的结构性实施例的一个示例。如上所评,图3到图6详细描述了这些编解码器的更多功能性实施例。
当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1