相对于球面谐波系数执行空间掩蔽的制作方法_2

文档序号:9493769阅读:来源:国知局
码器的输入任选地是三种可能格式中的一者:(i)传统的基于声道 的音频,其意图经由预先指定的位置处的扩音器进行播放;(ii)基于对象的音频,其涉及 具有含有其位置坐标(以及其它信息)的相关联元数据的用于单个音频对象的离散脉码调 制(PCM)数据;和(iii)基于场景的音频,其涉及使用球面谐波基底函数的系数(也称为 "球面谐波系数"或SHC)来表示声场。
[0043] 市场中存在各种'环绕声'格式。它们的范围(例如)是从5. 1家庭影院系统(其 在使起居室享有立体声方面已获得最大成功)到NHK(日本广播协会或日本广播公司)所 开发的22. 2系统。内容创建者(例如,好莱坞工作室)将希望产生电影的音轨一次,而不 花费精力来针对每一扬声器配置对其进行重混(remix)。最近,标准委员会已经考虑将编码 提供到标准化位流中及在再现器的位置处的扬声器几何结构及声学条件可调适及不可知 的后续解码的方式。
[0044] 为向内容创建者提供此种灵活性,可使用分层要素集合来表示声场。所述分层要 素集合可指其中元素经排序以使得较低阶元素的基础集合提供模型化声音场的完整表示 的一组元素。当所述组扩展到包含较高阶要素时,所述表示变得更详细。
[0045] 分层要素集合的一个实例是SHC集合。以下表达式示范使用SHC对声场的描述或 表不:
[0046]
[0047] 此表达式显示,声场的任一点{rr,0r,pr}处的压力?1可由SHC<〇)唯一地表示。
c为音速(~343m/s),{r;.,0,.,为参考点(或观察点),jn ( ·)为阶η的球 贝塞尔函数,且#汛,%)为阶η和子阶m的球面谐波基础函数。可认识到,方括号中的术 语是信号的频域表示(即,其可通过各种时频变换来近似表示,例如离散 傅立叶变换(DFT)、离散余弦变换(DCT),或小波变换。分层组的其它实例包含数组小波变 换系数和其它数组多分辨率基函数系数。
[0048] 图1是说明零阶球面谐波基底函数(第一行)一阶球面谐波基底函数(第二行) 和二阶球面谐波基底函数(第三行)的图。阶(η)由表格的行识别,其中第一行指代零阶, 第二行指代第一阶,且第三行指代第二阶。子阶(m)由表格的列识别,其在图3中更详细地 示出。对应于零阶球面谐波基底函数的SHC可被认为是指定声场的能量,而对应于其余高 阶球面谐波基底函数的SHC可指定能量的方向。
[0049] 图2为说明从零阶(η= 0)到第四阶(η= 4)的球面谐波基底函数的图。如可看 出,对于每一阶,存在子阶m的扩展,出于易于说明的目的,在图2的实例中展示所述子阶但 未明确注释。
[0050] 图3为说明从零阶(η= 0)到第四阶(η= 4)的球面谐波基底函数的另一图。在 图3中,在三维坐标空间中展示了球面谐波基底函数,其中展示了阶与子阶两者。
[0051] 在任何情况下,SHC可由各种麦克风阵列配置以物理方式获取(例如,记 录),或者其可从声场的基于声道或基于对象的描述导出。前者表示到编码器的基于场景的 音频输入。举例来说,可使用涉及1+24个(25,且因此为第四阶)系数的四阶表示。
[0052] 为说明可如何从基于对象的描述导出这些SHC,考虑以下等式。对应于个别音频对 象的声场的系数可表达为
[0053]
[0054]
/^2)(〇为阶η的球汉克函数(第二类),且{rs,0s,<ps}为对象的位 置。已知源能量g(c〇)为频率的函数(例如,使用时频分析技术,例如对PCM流执行快速傅 立叶变换)允许我们将每一PCM对象及其位置转换成SHC/巧(7〇。另外,可显示(由于上文 是线性且正交分解)每一对象的系数是加性的。以此方式,大量PCM对象可由 系数表示(例如,表示为个别对象的系数向量的总和)。基本上,这些系数含有关于声场的 信息(压力作为3D坐标的函数),且以上表示从个别对象到观察点以r,各,附近的整个声 场的表示的变换。下文在基于对象和基于SHC的音频译码的上下文中描述其余各图。
[0055] 图4A和4B各自为说明可执行本发明中描述的技术的各个方面以译码描述二维或 三维声场的球面谐波系数的实例音频编码装置10的框图。在图4A的实例中,音频编码装 置10通常表示能够编码音频数据的任何装置,例如桌上型计算机、膝上型电脑、工作站、平 板或板状计算机、专用音频记录装置、蜂窝式电话(包含所谓的"智能电话")、个人媒体播 放器装置、个人游戏装置,或能够编码音频数据的任何其它类型的装置。
[0056] 当示出为单个装置时,即图4A的实例中的装置10,下文称为包含在装置10内的各 种组件或单元可实际上形成在装置10外部的单独裝置。换句话说,虽然本发明中描述为由 单个装置(即,在图4A的实例中的装置10)执行,但所述技术可由包括多个装置的系统实 施或另外执行,其中这些装置中的每一者可各自包含以下更详细地描述的各种组件或单元 中的一或多者。因此,所述技术不应限于图4A的实例。
[0057] 如图4A的实例中示出,音频编码装置10包括时频分析单元12、音频渲染单元14、 音频编码单元16和空间分析单元18。时频分析单元12可表示经配置以执行球面谐波系数 (SHC) 20A的时频分析以便将SHC20A从时域变换到频域的单元。时频分析单元12可输出 端SHC20B,其可将SHC20A表示为在频域中表达。尽管相对于时频分析单元12来描述,但 所述技术可相对于留在时域中的SHC20A来执行,而不是相对于如变换到频域的SHC20B 执行。
[0058] SHC20A可指与一或多个球面谐波相关联的系数。这些球面谐波可类似于傅立叶 级数的三角基底函数。也就是说,球面谐波可表示麦克风周围的球面的基本振动模式,类似 于傅立叶级数的三角函数可如何表示链带的基本振动模式。这些系数可通过解涉及这些球 面谐波的使用的球面坐标中的波动方程来导出。在此意义上SHC20A可将麦克风周围的3D 声场表示为具有表示对应球面谐波的体积乘数的系数的一系列球面谐波。
[0059] 低阶立体混响(其也可被称作一阶立体混响)可将声音信息编码到表示为W、X、Y和Z的四个声道中。此编码格式常称作"B格式"。W声道指代对应于全向麦克风的输出的 所捕获的声音信号的非定向单声道分量。X、Y和Z声道是三个维度中的定向分量。X、Y和 Z声道通常分别对应于三个八字麦克风的输出,所述麦克风中的一者面向前,其中的另一者 面向左,且其中的第三者面向上。这些B格式信号通常是基于声场的球面谐波分解,且对应 于空间中的点处的压力(W)和三个分量压力梯度(X、Y和Z)。这四个B格式信号(S卩,W、 X、Y和Z) -起近似表不麦克风周围的声场。形式上这些B格式信号可表达多极扩展的一 阶截断。
[0060] 高阶立体混响是指与原始一阶B格式相比,表示使用较多声道的声场,表示较精 细的模态分量的形式。因此,高阶立体混响可捕获显著较多的空间信息。术语"高阶立体混 响"中的"高阶"是指球面上关于球面谐波的函数的多模态扩展的进一步术语。借助于高阶 立体混响来增加空间信息可将所捕获的声音较好地表达为球面上的压力。使用高阶立体混 响来产生SHC20A可实现存在于音频解码器处的扬声器对所捕获的声音的较好再现。
[0061] 音频渲染单元14表示经配置以将SHC20B渲染到一或多个声道22A到22N( "声 道22",其也可被称作"扬声器馈送22A到22N")的单元。或者,当不将SHC20A变换到SHC 20B时,音频渲染单元14可表示经配置以从SHC20A渲染一或多个声道22A到22N的单元。 在一些情况下,音频渲染单元14可将SHC20B渲染到对应于布置成密集T设计几何结构的 32个扬声器的32个声道(在图4的实例中示出为声道22)。音频渲染单元14可将SHC20B 渲染到对应于布置成密集T设计的32个扬声器的32个声道,以促进SHC20B在解码器处 的恢复。就是说,将SHC20B渲染到对应于布置成此密集T设计的32个扬声器的这32个 声道涉及到的数学包含矩阵,其为可逆的,使得此矩阵(其可由变量R表示)乘以倒置矩阵 (其可表示为R4等于单位矩阵(表示为I,其中整个数学表达式为RRiiI)。上述数学 表达式暗示当在音频解码器处恢复SHC32B时,不存在损失(或换句话说,引入极少到无错 误)。
[0062] 音频编码单元16可表示经配置以执行某一形式的音频编码以将声道22压缩到 位流24中的单元。在一些实例中,音频编码单元16可包含符合已知空间音频编码标准 的音频编码器的经修改版本,所述标准例如为国际标准化组织(ISO)/国际电工委员会 (IEC) 23003-1或MPEG-D部分1 (其也可被称作"空间音频译码"或"SAC")中所定义的移动 图片专家组(MPEG)环绕声,或MPEG-2标准的部分7 (其也被称作IS0/IEC13818-7:1997) 和MPEG-4标准的部分3中的子部分4(其也被称作IS0/IEC14496-3:1999)两者中所定义 的MPEG高级音频编码(AAC)。
[0063] 空间分析单元18可表示经配置以执行SHC20A的空间分析的单元。空间分析单 元18可执行此空间分析,以识别声场中相对较高和较低压力密度(常表达为方位角、角度、 仰角和半径(或等效的笛卡尔坐标)中的一或多者的函数)的区域,从而分析SHC20A以 识别空间特性26。这些空间特性26可指定SHC20A的具有某些特性的各种部分的方位角、 角度、仰角和半径中的一或多者。空间分析单元18可识别空间特性26,以促进音频编码单 元16的音频编码。就是说,空间分析单元18可将空间特性26提供给音频编码单元16,其 可经修改以利用心理声学空间或位置掩蔽以及由SHC20A表示的声场的其它空间特性。
[0064] 空间掩蔽可利用人类听觉系统的趋势来在声场中存在高能声波能量时,掩蔽声场 的邻近空间部分(或3D片段)。就是说,声场的高能部分可淹没人类听觉系统,使得能量的 若干部分(通常,低能的邻近区域)不能够被人类听觉系统检测到(或辨别)。因此,音频 编码单元18可允许降低位数(或等效地较高量化噪声)来表示空间的这些所谓的"掩蔽" 片段中的声场,其中当在SHC20A所定义的声场的邻近区域中检测到高能部分时,人类听 觉系统可能不能够检测(或辨别)声音。这类似于以较低精确度(意味着可能较高噪声) 来表示那些"掩蔽"空间区中的声场。
[0065] 在操作中,音频编码装置10可通过首先调用空间分析单元18来相对于描述三维 声场的SHC20A执行空间分析,以识别所述声场的空间特性26,来实施本发明中描述的技 术的各个方面。音频编码装置10可接着调用音频渲染单元14来从SHC20A(当如上所述 不执行时频分析时)或SHC20B(当执行时频分析时)渲染声道22 (其也可被称作"多声道 音频数据22")。在渲染此多声道音频数据22之后或与之同时,音频编码装置10可调用音 频编码单元16来基于所识别的空间特性26编码多声道音频数据22,以产生位流24。如上 所述音频编码单元16可以各种方式执行已经修改的音频编码的标准顺应形式,以利用空 间特性26 (例如,以执行上述空间掩蔽)。
[0066] 以此方式,技术可有效地编码SHC20A,使得如下文更详细地描述,音频解码装置, 例如图5的实例中所示的音频解码装置30,可恢复SHC20A。通过选择将SHC20A或SHC 20B(取决于是否执行时频分析)渲染到布置成密集T设计的32个扬声器,数学表达式是可 逆的,这意味着存在极少到无归因于所述渲染的准确性损失。通过选择包含比通常存在于 解码器处的扬声器多的扬声器的密集扬声器几何结构,所述技术提供所述声场的良好再合 成。换句话说,通过在假定密集扬声器几何结构的情况下渲染多声道音频数据,所述多声道 音频数据包含足够量的描述所述声场的数据,使得在音频解码装置30处重构SHC20A后, 音频解码装置30可即刻使用配置成次理想扬声器几何结构的解码器局部扬声器来再合成 具有充分保真度的声场。短语"理想扬声器几何结构"可指那些由标准指定的结构,例如那 些由各种风行环绕声标准定义的结构,和/或粘附到某些几何结构的扬声器几何结构,例 如密集T设计几何结构或理想的实心几何结构。
[0067] 在一些情况下,可结合其它类型的掩蔽,例如同时掩蔽,来执行此空间掩蔽。同时 掩蔽,很像空间掩蔽,涉及人类听觉系统的现象,其中与其它声音同时(且常常至少部分地 同步)产生的声音掩蔽所述其它声音。通常,以比其它声音高的音量产生掩蔽声音。所述 掩蔽声音也可类似于在频率上接近于被掩蔽的声音。因此,虽然在本发明中描述为独立执 行,但可结合其它形式的掩蔽(例如上文所述的同时掩蔽)或与其它形式的掩蔽同时执行 空间掩蔽技术。
[0068] 图4B是说明图4A的实例中所示的音频编码装置10的变化的框图。在图4B的实
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1