经旋转高阶立体混响的双耳化的制作方法

文档序号:9568882阅读:229来源:国知局
经旋转高阶立体混响的双耳化的制作方法
【专利说明】
[0001] 优先权丰张
[0002] 本申请案主张2013年5月29日申请的第61/828, 313号美国临时申请案的权益。
技术领域
[0003] 本发明设及音频擅染,且更具体地说,设及音频数据的双耳擅染。

【发明内容】

[0004] 一般来说,描述用于经旋转高阶立体混响(HOA)的双耳音频擅染的技术。
[0005] 作为一个实例,一种双耳音频擅染方法包括:获得变换信息,所述变换信息描述如 何变换声场来将若干多个层级元素减少到减少的多个层级元素;W及基于所述变换信息, 相对于所述减少的多个层级元素来执行双耳音频擅染。
[0006] 在另一个实例中,一种装置包括一或多个处理器,其经配置W:获得变换信息,所 述变换信息描述如何变换声场W来将若干多个层级元素减少到减少的多个层级元素;W及 基于所述变换信息,相对于所述减少的多个层级元素来执行双耳音频擅染。
[0007] 在另一个实例中,一种设备包括:用于获得变换信息的装置,所述变换信息描述如 何变换声场来将若干多个层级元素减少到减少的多个层级元素;W及用于基于所述变换信 息,相对于所述减少的多个层级元素来执行双耳音频擅染的装置。
[0008] 在另一个实例中,一种上面存储有指令的非暂时性计算机可读存储媒体,所述指 令在被执行时在被执行时,配置一或多个处理器W:获得变换信息,所述变换信息描述如何 变换声场来讲若干多个层级元素减少到减少的多个层级元素;W及基于所述变换信息,相 对于所述减少的多个层级元素执行双耳音频擅染。
[0009] 在附图和W下描述中阐述所述技术的一或多个方面的细节。运些技术的其它特 征、目标及优点将从所述描述及图式W及权利要求书而显而易见。
【附图说明】
[0010] 图1和2是说明具有各种阶数和子阶数的球谐基底函数的图。
[0011] 图3是说明可实施本发明中描述的技术的各个方面的系统的图。
[0012] 图4是说明可实施本发明中描述的技术的各个方面的系统的图。
[0013] 图5A和5B是说明可实施本发明中描述的技术的各种方面的音频编码裝置的框 图。
[0014] 图6A和6B各自是说明可执行本发明中描述的双耳音频擅染技术的各个方面的音 频重放装置的实例的框图。
[0015] 图7是说明由根据本发明中描述的技术的各个方面的音频编码装置执行的实例 操作模式的流程图。
[0016] 图8是说明由根据本发明中描述的技术的各个方面的音频重放装置执行的实例 操作模式的流程图。
[0017] 图9是说明可执行本发明中所描述的技术的各种方面的音频编码装置的另一实 例的框图。
[0018] 图10是更详细地说明图9的实例中所示的音频编码装置的实例实施方案的框图。
[0019]图IlA和IlB是说明执行本发明中所描述的技术的各种方面化旋转声场的实例的 图。
[0020] 图12是说明根据第一参考系捕获的实例声场的图,所述第一参考系接着根据本 发明中所描述的技术旋转W依据第二参考系表达声场。
[0021] 图13A到13E各自为说明根据本发明中所描述的技术形成的位流的图。
[0022] 图14是说明图9的实例中所示的音频编码装置在实施本发明中所描述的技术的 旋转方面时的实例操作的流程图。
[0023] 图15是说明图9的实例中所示的音频编码装置在执行本发明中所描述的技术的 变换方面时的实例操作的流程图。
[0024] 贯穿各图和文本,相同参考字符表示相同元件。
【具体实施方式】
[0025] 环绕声音的演进现今已使得许多输出格式可用于娱乐。此等消费型环绕声格式的 实例大部分为"声道"式的,运是因为其W某些几何坐标隐含地指定到扩音器的馈入。运些 包含流行的5.1格式(其包含W下六个声道:左前(FL)、右前(FR)、中央或前方中央、左后 或环绕左边、右后或环绕右边W及低频效果(LFE)),发展的7. 1格式、包含例如7. 1. 4格式 和22. 2格式(例如,用于与超高清电视标准一起使用)等高度扬声器的各种格式。非消费 型格式可涵括任何数目的扬声器(成对称和非对称几何形状),其常常称为"环绕阵列"。此 类阵列的一个实例包含定位在截二十面体(truncated icosohe化on)的拐角上的坐标处的 32个扩音器。
[0026] 到未来MPEG编码器的输入视情况为S个可能格式中的一者:(i)传统的基于声 道的音频(如上文所论述),其意图由处于预先指定的位置处的扩音器播放;(ii)基于对 象的音频,其设及用于单个音频对象的具有含有其位置坐标(W及其它信息)的相关联元 数据的离散脉码调制(PCM)数据;及(iii)基于场景的音频,其设及使用球面谐波基底函 数的系数(也称为"球面谐波系数"或甜C、"高阶立体混响"或HOA及"H0A系数")来表 示声场。此未来MPEG编码器更详细地描述于国际标准化组织/国际电工委员会(ISO)/ (IEC) JTC1/SC29/WG11/N13411 的标题为"要求对于 3D 音频的提议(Call for Proposals 化r 3D Audio)"的文献中,该文献于2013年I月在瑞±日内瓦发布,且可在ht化://mpeg. chiariRlione. orR/sites/default/files/files/standards/parts/docs/wl3411. zip^ 得。
[0027] 在市场中存在各种"环绕声"基于声道的格式。它们的范围(例如)是从5. I家 庭影院系统(其在使起居室享有立体声方面已获得最大成功)到NHK(日本广播协会或日 本广播公司)所开发的22. 2系统。内容创建者(例如,好莱巧工作室)将希望产生电影的 音轨一次,而不花费精力来针对每一扬声器配置对其进行重混(remix)。近来,标准开发组 织(Standards Developing化ganizations) -直在考虑如下方式:提供到标准化位流中的 编码,W及后续解码,其可调适且不知晓重放位置(设及擅染器)处的扬声器几何形状(和 数目)W及声学条件。
[0028] 为向内容创建者提供此种灵活性,可使用分层要素集合来表示声场。所述分层要 素集合可指其中元素经排序W使得较低阶元素的基础集合提供模型化声场的完整表示的 一组元素。在所述集合扩展W包含高阶元素时,所述表示变得更详细,从而增加分辨率。
[0029] 分层要素集合的一个实例为一组球面谐波系数(S肥)。W下表达式示范使用甜C 对声场的描述或表示:
[0031] 此表达式显示在时间t,声场的任一点{哼,0r,巧r}处的压力Pi可由甜C,4置从) 唯一地表示。此处,k f,C为音速(~343m/s),,P,;!为参考点(或观察点), 1(,)为阶数n的球面贝塞尔函数,且(却,机为阶数n和子阶数m的球面谐波基础函 数。可认识到,方括号中的术语为信号的频域表示(即S(w,r;.,如,机)),其可由各种时 频变换近似表示,例如离散傅里叶变换值FT)、离散余弦变换值CT)或小波变换。分层集合 的其它实例包含小波变换系数集合及多分辨率基函数的系数的其它集合。
[003引图1是说明从零阶(n = 0)到四阶(n = 4)的球面谐波基底函数的图。如可看出, 对于每一阶,存在子阶m的扩展,出于易于说明的目的,在图2的实例中展示所述子阶但未 明确注释。
[003引图2是说明从零阶(n = 0)到四阶(n = 4)的球面谐波基底函数的另一图。在图 2中,在=维坐标空间中展示了球面谐波基底函数,其中展示了阶与子阶两者。
[0034] S肥/皆脚可由各种麦克风阵列配置物理获取(例如,记录),或者,其可从声场的 基于声道或基于对象的描述导出。甜C表示基于场景的音频,其中甜C可输入到音频编码 器W获得经编码甜C,所述经编码甜C可促成更有效的发射或存储。举例来说,可使用设及 (1+4) 2个(25,且因此为第四阶)系数的四阶表示。
[0035] 如上文所指出,可使用麦克风从麦克风记录导出甜C。可如何从麦克风阵列导 出甜C的各种实例描述于波莱蒂? M任oletti,M)的"基于球面谐波的S维环绕声系统 (Three-Dimensional Surround Sound Systems Based on Spherical Harmonics) "(听觉 工程学协会会刊(J. Audio化g. Soc.),第53卷,第11期,2005年11月,第1004-1025页) 中。
[0036] 为了说明可如何从基于对象的描述导出运些甜C,考虑W下等式。对应于个别音频 对象的声场的系数成巧系)可表达为:
[0037]
[003引其中i为为阶数n的球面汉克尔函数(第二种),且权,喪,龄1为对 象的位置。已知对象源能量g(?)为频率的函数(例如,使用时频分析技术,例如对PCM流 执行快速傅立叶变换)允许将每一 PCM对象及其位置转换成甜C 4开作)..另外,可显示(由 于W上是线性和正交分解),每一对象的系数是加性的。W此方式,大量PCM对象可 由非r'(w系数表示(例如,表示为个别对象的系数向量的总和)。基本上,运些系数含有关 于声场的信息(压力作为3D坐标的函数),且W上表示从个别对象到观察点托,0,..秘.} 附近的整个声场的表示的变换。下文在基于对象和基于甜C的音频译码的上下文中描述其 余各图。
[0039]图3是说明可执行本发明中所描述的技术的各个方面的系统10的图。如图3的 实例中所示,系统10包含内容创建者12和内容消费者14。尽管在内容创建者12和内容 消费者14的上下文中描述,但可在其中声场的甜C(其也可称为HOA系数)或任何其它阶 层表示经编码W形成表示音频数据的位流的任何上下文中实施所述技术。此外,内容创建 者12可表示能够实施本发明中所描述的技术的任何形式的计算装置,包含手机(或蜂窝电 话)、平板计算机、智能电话或台式计算机(提供几个实例)。同样,内容消费者14可表示 能够实施本发明中所描述的技术的任何形式的计算装置,包含手持机(或蜂窝式电话)、平 板计算机、智能电话、机顶盒,或台式计算机(提供几个实例)。
[0040]内容创建者12可表示电影演播室或可产生多信道音频内容W供由例如内容消费 者14等内容消费者消费的其它实体。在一些实例中,内容创建者12可表示将希望压缩HOA 系数11的个别用户。常常,此内容创建者产生音频内容连同视频内容。内容消费者14表 示拥有或具有对音频重放系统的存取权的个体,所述音频重放系统可指能够擅染S肥W作 为多声道音频内容重放的任何形式的音频重放系统。在图3的实例中,内容消费者14包含 音频重放系统16。
[0041]内容创建者12包含音频编辑系统18。内容创建者12获得各种格式(包含直接作 为HOA系数)的实况记录7和音频对象9,内容创建者12可使用音频编辑系统18对其进行 编辑。内容创建者可在编辑过程期间擅染来自音频对象9的HOA系数11,从而收听所擅染 的扬声器馈送W试图识别需要进一步编辑的声场的各个方面。内容创建者12可接着编辑 HOA系数11 (可能经由操纵可W上文所描述的方式从中导出源HOA系数的音频对象9中的 不同者而间接地编辑)。内容创建者12可采用音频编辑系统18来产生HOA系数11。音频 编辑系统18表示能够编辑音频数据且输出此音频数据作为一或多个源球面谐波系数的任 何系统。
[0042] 当编辑过程完成时,内容创建者12可基于HOA系数11产生位流3。也就是说,内 容创建者12包含音频编码装置2,其表示经配置W根据本发明中描述的技术的各个方面编 码或W其它方式压缩HOA系数11W产生位流3的装置。音频编码装置2可产生位流3W 供(作为一个实例)跨越发射信道发射,所述发射信道可为有线或无线通道、数据存储装置 等。位流3可表示HOA系数11的经编码版本,且可包含主要位流和另一旁侧位流(其可称 为旁侧信道信息)。
[0043] 尽管下文更详细地加W描述,但音频编码装置2可经配置W基于基于向量的合成 或基于方向的合成来编码HOA系数11。为了确定是执行基于向量的合成方法还是基于方 向的合成方法,音频编码装置2可至少部分基于HOA系数11来确定HOA系数11经由声场 的自然记录(例如,实况记录7)还是从(作为一个实例)例如PCM对象等音频对象9人工 地(即,合成地)产生。当HOA系数11从音频对象9产生时,音频编码装置2可使用基于 方向的合成方法来编码HOA系数11。当使用(例如)本征麦克风(eigenndke)实况地捕获 HOA系数11时,音频编码装置2可基于基于向量的合成方法来编码HOA系数11。上述区别 表示其中可部署基于向量或基于方向的合成方法的一个实例。可能存在其它状况:其中所 述合成方法中的任一者或两者可用于自然记录、人工产生的内容或两种内容的混合(混合 内容)。此外,也有可能同时使用两种方法用于对HOA系数的单一时间帖译码。
[0044] 出于说明的目的,假定音频编码装置2确定实况地俘获HOA系数11或HOA系数11 W其它方式表示实况记录(例如,实况记录7),音频编码装置20可经配置W使用设及线性 可逆变换化IT)的应用的基于向量的合成方法来编码HOA系数11。线性可逆变换的一个实 例被称作"奇异值分解"(或"SVD")。在此实例中,音频编码装置2可将SVD应用于HOA系 数11 W确定HOA系数11的经分解版本。音频编码装置2可接着分析HOA系数11的经分 解版本,W识别可促进HOA系数11的经分解版本的重新排序的各种参数。音频编码装置2 可接着基于所识别的参数将HOA系数11的经分解版本重新排序,其中如下文进一步详细描 述,在给定W下情形的情况下,此重新排序可改进译码效率:变换可将HOA系数跨越HOA系 数的帖重新排序(其中一帖通常包含HOA系数11的M个样本,且在一些实例中,将M设定 为1024)。在将HOA系数11的经分解版本重新排序之后,音频编码装置2可选择表示声场 的前景(或,换句话说,相异的、占优势的或突出的)分量的HOA系数11的经分解版本。音 频编码装置2可将HOA系数11的表示前景分量的经分解版本指定为音频对象和相关联方 向fs息。
[0045]音频编码装置2还可相对于HOA系数11执行声场分析,W便至少部分地识别HOA系数11中表示声场的一或多个背景(或,换句话说,环境)分量的那些HOA系数。假定在 一些实例中,背景分量可仅包含HOA系数11的任何给定样本的子集(例如,对应于零阶和 一阶球面基底函数的那些样本,而不是对应于二阶或更高阶球面基底函数的那些样本),那 么音频编码装置2可相对于背景分量执行能量补偿。当执行阶还原时,换句话说,音频编码 装置2可扩增HOA系数11的其余背景HOA系数(例如向/从其添加/减去能量),W补偿 因执行阶还原而导致的总能量的变化。
[0046] 音频编码装置2接下来可相对于表示背景分量的HOA系数11中的每一者和 前景音频对象中的每一者执行一种形式的屯、理声学编码(例如,MPEG环绕、MPEG-AAC、 MPEG-USAC或其它已知形式的屯、理声学编码)。音频编码装置2可相对于前景方向信息执 行一种形式的内插,且接着相对于经内插的前景方向信息执行阶还原,W产生经阶还原的 前景方向信息。在一些实例中,音频编码装置2可进一步关于经阶还原的前景方向信息执 行量化,从而输出经译码前景方向信息。在一些情况下,此量化可包括标量/赌量化。音频 编码装置2可接着形成位流3 W包含经编码背景分量、经编码前景音频对象和经量化的方 向信息。音频编码装置2可接着传输或W其它方式将位流3输出到内容消费者14。
[0047] 虽然图3中展示为直接发射到内容消费者14,但内容创建者12可将位流3输出到 位于内容创建者12与内容消费者14之间的中间装置。此中间装置可存储位流3 W供稍后 递送到可请求此位流的内容消费者14。所述中间装置可包括文件服务器、网络服务器、台式 计算机、膝上型计算机、平板计算机、移动电话、智能电话,或能够存储位流3 W供音频解码 器稍后检索的任何其它装置。此中间装置可驻留在能够将位流3 (且可能结合发射对应视 频数据位流)流式传输到请求位流3的订户(例如内容消费者14)的内容递送网络中。[004引或者,内容创建者12可将位流3存储到存储媒体,例如压缩光盘、数字视频光盘、 高清视频光盘或其它存储媒体,其中大多数能够由计算机读取,且因此可称为计算机可读 存储媒体或非暂时性计算机可读存储媒体。在此上下文中,传输信道可指代借W发射存储 到运些媒体的内容的那些信道(且可包含零售商店和其它基于商店的递送机制)。在任何 情况下,本发明的技术因此就此而言不应限于图3的实例。
[0049] 如图3的实例中进一步展示,内容消费者14包含音频重放系统16。音频重放系统 16可表示能够重放多信道音频数据的任何音频重放系统。音频重放系统16可包含若干不 同擅染器5。擅染器5可各自提供不同形式的擅染,其中所述不同形式的擅染可包含执行基 于向量的振幅平移(VBA巧的各种方式中的一或多者,和/或执行声场合成的各种方式中的 一或多者。如本文所使用,"A和/或B"意味着"A或B",或"A和B"两者。
[0050] 音频重放系统16可进一步包含音频解码装置4。音频解码装置4可表示经配置W 解码来自位流3的册A系数11'的装置,其中册A系数11'可类似于册A系数11,但归因 于有损操作(例如,量化)和/或经由发射信道的发射而不同。也就是说,音频解码装置4 可对位流3中指定的前景方向信息进行解量化,同时还相对于位流3中指定的前景音频对 象和表示背景分量的经编码HOA系数执行屯、理声学解码。音频解码装置4可进一步相对于 经解码前景方向信息执行内插,且接着基于经解码前景音频对象和经内插前景方向信息来 确定表示前景分量的HOA系数。音频解码装置4可接着基于表示前景分量的所确定的HOA 系数和表示背景分量的经解码HOA系数来确定HOA系数11'。
[0051] 音频重放系统16可解码位流3之后获得HOA系数11',且擅染HOA系数11'W输 出扩音器馈送6。扩音器馈送6可驱动一或多个扩音器(其为便于说明的目的在图3的实 例中未图示)。
[0052] 为了选择适当擅染器或在一些情况下产生适当擅染器,音频重放系统16可获得 指示扩音器的数目和/或扩音器的空间几何布置的扩音器信息13。在一些情况下,音频重 放系统16可使用参考麦克风获得扩音器信息13且W动态地确定扩音器信息13的方式驱 动所述扩音器。在其它情况下或结合动态确定扩音器信息13,音频重放系统16可提示用户 与音频重放系统16介接并输入扩音器信息16。
[0053] 音频重放系统16可随后基于扩音器信息13选择音频擅染器5中的一者。在一些 情况下,音频重放系统16可在无音频擅染器5在与扩音器信息13中指定的音频擅染器的 某一临限值相似性量度(按扩音器几何布置)时,音频重放系统16可基于扩音器信息13 产生音频擅染器5中的所述一者。音频重放系统16可在一些情况下基于扩音器信息13产 生音频擅染器5中的所述一者,而不首先尝试选择音频擅染器5中的现有一者。
[0054] 图4是说明可执行本发明中描述的技术W潜在地更高效地表示音频数据的位流 中的音频信号信息的系统20的图。如图3的实例中所展示,系统20包含内容创建者22和 内容消费者24。虽然在内容创建者22和内容消费者24的上下文中描述,所述技术可在任 何环境下实施,其中编码声场的SHC或任何其它层级表示,W形成表示音频数据的位流。分 量22、24、30、28、36、31、32、38、34和35可表示图3的类似命名的分量的实例例子。此外, S肥27和27'可分别表示HOA系数11和11'的实例例子。
[0055] 内容创建者22可表示电影演播室或可产生多信道音频内容W供由例如内容消费 者24等内容消费者消费的其它实体。常常,此内容创建者产生音频内容连同视频内容。内 容消费者24表示拥有或具有对音频重放系统的存取权的个体,所述音频重放系统可指代 能够重放多信道音频内容的任何形式的音频重放系统。在图4的实例中,内容消费者24包 含音频重放系统32。
[0056] 内容创建者22包含音频擅染器28和音频编辑系统30。音频擅染器26可表示音 频处理单元,其擅染或W其它方式产生扬声器馈送(其也可被称作"扩音器馈送"、"扬声器 信号"或"扩音器信号")。每一扬声器馈送可对应于再现针对多信道音频系统的特定信道 的声音的扬声器馈送。在图4的实例中,擅染器38可擅染针对常规5. 1、7. 1或22. 2环绕 声格式的扬声器馈送,从而产生针对5. 1、7. 1或22. 2环绕声扬声器系统中5、7或22个扬 声器中的每一者的扬声器馈送。或者,擅染器28可经配置W在给定上文所论述的源球面谐 波系数的性质的情况下针对具有任何数目的扬声器的任何扬声器配置擅染来自源球面谐 波系数的扬声器馈送。擅染器28可W此方式产生若干扬声器馈送,其在图4中表示为扬声 器馈送29。
[0057] 内容创建者可在编辑过程期间擅染球面谐波系数27 ( "S肥27"),从而收听所擅 染的扬声器馈送,W试图识别并不具有高保真度或并不提供有说服力的环绕声体验的声场 的方面。内容创建者22可随后编辑源球面谐波系数(常常经由操纵可W上文所描述的方 式从其导出源球面谐波系数的不同对象而间接地进行)。内容创建者22可采用音频编辑系 统30来编辑球面谐波系数27。音频编辑系统30表示能够编辑音频数据且输出此音频数据 作为一或多个源球面谐波系数的任何系统。
[0058] 当编辑过程完成时,内容创建者22可基于球面谐波系数27产生位流31。也就是 说,内容创建者22包含位流产生装置36,其可表示能够产生位流31的任何装置。在一些 情况下,位流产生装置36可表示编码器,其对球面谐波系数27进行带宽压缩(作为一个实 例,经由赌编码)且其W所接受格式布置球面谐波系数27的经赌编码版本从而形成位流 31。在其它情况下,位流产生装置36可表示音频编码器(可能利用例如MPEG环绕或其衍 生物等已知音频译码标准编译的音频编码器)
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1