经旋转高阶立体混响的双耳化的制作方法

文档序号：9568882阅读：229来源：国知局

经旋转高阶立体混响的双耳化的制作方法
【专利说明】
[0001] 优先权丰张
[0002] 本申请案主张2013年5月29日申请的第61/828, 313号美国临时申请案的权益。
技术领域
[0003] 本发明设及音频擅染，且更具体地说，设及音频数据的双耳擅染。

【发明内容】

[0004] 一般来说，描述用于经旋转高阶立体混响（HOA)的双耳音频擅染的技术。
[0005] 作为一个实例，一种双耳音频擅染方法包括：获得变换信息，所述变换信息描述如何变换声场来将若干多个层级元素减少到减少的多个层级元素；W及基于所述变换信息，相对于所述减少的多个层级元素来执行双耳音频擅染。
[0006] 在另一个实例中，一种装置包括一或多个处理器，其经配置W:获得变换信息，所述变换信息描述如何变换声场W来将若干多个层级元素减少到减少的多个层级元素；W及基于所述变换信息，相对于所述减少的多个层级元素来执行双耳音频擅染。
[0007] 在另一个实例中，一种设备包括：用于获得变换信息的装置，所述变换信息描述如何变换声场来将若干多个层级元素减少到减少的多个层级元素；W及用于基于所述变换信息，相对于所述减少的多个层级元素来执行双耳音频擅染的装置。
[0008] 在另一个实例中，一种上面存储有指令的非暂时性计算机可读存储媒体，所述指令在被执行时在被执行时，配置一或多个处理器W:获得变换信息，所述变换信息描述如何变换声场来讲若干多个层级元素减少到减少的多个层级元素；W及基于所述变换信息，相对于所述减少的多个层级元素执行双耳音频擅染。
[0009] 在附图和W下描述中阐述所述技术的一或多个方面的细节。运些技术的其它特征、目标及优点将从所述描述及图式W及权利要求书而显而易见。
【附图说明】
[0010] 图1和2是说明具有各种阶数和子阶数的球谐基底函数的图。
[0011] 图3是说明可实施本发明中描述的技术的各个方面的系统的图。
[0012] 图4是说明可实施本发明中描述的技术的各个方面的系统的图。
[0013] 图5A和5B是说明可实施本发明中描述的技术的各种方面的音频编码裝置的框图。
[0014] 图6A和6B各自是说明可执行本发明中描述的双耳音频擅染技术的各个方面的音频重放装置的实例的框图。
[0015] 图7是说明由根据本发明中描述的技术的各个方面的音频编码装置执行的实例操作模式的流程图。
[0016] 图8是说明由根据本发明中描述的技术的各个方面的音频重放装置执行的实例操作模式的流程图。
[0017] 图9是说明可执行本发明中所描述的技术的各种方面的音频编码装置的另一实例的框图。
[0018] 图10是更详细地说明图9的实例中所示的音频编码装置的实例实施方案的框图。
[0019]图IlA和IlB是说明执行本发明中所描述的技术的各种方面化旋转声场的实例的图。
[0020] 图12是说明根据第一参考系捕获的实例声场的图，所述第一参考系接着根据本发明中所描述的技术旋转W依据第二参考系表达声场。
[0021] 图13A到13E各自为说明根据本发明中所描述的技术形成的位流的图。
[0022] 图14是说明图9的实例中所示的音频编码装置在实施本发明中所描述的技术的旋转方面时的实例操作的流程图。
[0023] 图15是说明图9的实例中所示的音频编码装置在执行本发明中所描述的技术的变换方面时的实例操作的流程图。
[0024] 贯穿各图和文本，相同参考字符表示相同元件。
【具体实施方式】
[0025] 环绕声音的演进现今已使得许多输出格式可用于娱乐。此等消费型环绕声格式的实例大部分为"声道"式的，运是因为其W某些几何坐标隐含地指定到扩音器的馈入。运些包含流行的5.1格式（其包含W下六个声道：左前（FL)、右前（FR)、中央或前方中央、左后或环绕左边、右后或环绕右边W及低频效果（LFE))，发展的7. 1格式、包含例如7. 1. 4格式和22. 2格式（例如，用于与超高清电视标准一起使用）等高度扬声器的各种格式。非消费型格式可涵括任何数目的扬声器（成对称和非对称几何形状），其常常称为"环绕阵列"。此类阵列的一个实例包含定位在截二十面体（truncated icosohe化on)的拐角上的坐标处的 32个扩音器。
[0026] 到未来MPEG编码器的输入视情况为S个可能格式中的一者：（i)传统的基于声道的音频（如上文所论述），其意图由处于预先指定的位置处的扩音器播放；（ii)基于对象的音频，其设及用于单个音频对象的具有含有其位置坐标（W及其它信息）的相关联元数据的离散脉码调制（PCM)数据；及（iii)基于场景的音频，其设及使用球面谐波基底函数的系数（也称为"球面谐波系数"或甜C、"高阶立体混响"或HOA及"H0A系数"）来表示声场。此未来MPEG编码器更详细地描述于国际标准化组织/国际电工委员会（ISO)/ (IEC) JTC1/SC29/WG11/N13411 的标题为"要求对于 3D 音频的提议（Call for Proposals 化r 3D Audio)"的文献中，该文献于2013年I月在瑞±日内瓦发布，且可在ht化：//mpeg. chiariRlione. orR/sites/default/files/files/standards/parts/docs/wl3411. zip^ 得。
[0027] 在市场中存在各种"环绕声"基于声道的格式。它们的范围（例如）是从5. I家庭影院系统（其在使起居室享有立体声方面已获得最大成功）到NHK(日本广播协会或日本广播公司）所开发的22. 2系统。内容创建者（例如，好莱巧工作室）将希望产生电影的音轨一次，而不花费精力来针对每一扬声器配置对其进行重混（remix)。近来，标准开发组织（Standards Developing化ganizations) -直在考虑如下方式：提供到标准化位流中的编码，W及后续解码，其可调适且不知晓重放位置（设及擅染器）处的扬声器几何形状（和数目）W及声学条件。
[0028] 为向内容创建者提供此种灵活性，可使用分层要素集合来表示声场。所述分层要素集合可指其中元素经排序W使得较低阶元素的基础集合提供模型化声场的完整表示的一组元素。在所述集合扩展W包含高阶元素时，所述表示变得更详细，从而增加分辨率。
[0029] 分层要素集合的一个实例为一组球面谐波系数（S肥）。W下表达式示范使用甜C 对声场的描述或表示：
[0031] 此表达式显示在时间t，声场的任一点{哼，0r，巧r}处的压力Pi可由甜C，4置从）唯一地表示。此处，k f，C为音速（~343m/s)，，P,;!为参考点（或观察点）， 1(，）为阶数n的球面贝塞尔函数，且(却，机为阶数n和子阶数m的球面谐波基础函数。可认识到，方括号中的术语为信号的频域表示（即S(w，r;.，如，机）），其可由各种时频变换近似表示，例如离散傅里叶变换值FT)、离散余弦变换值CT)或小波变换。分层集合的其它实例包含小波变换系数集合及多分辨率基函数的系数的其它集合。
[003引图1是说明从零阶（n = 0)到四阶（n = 4)的球面谐波基底函数的图。如可看出，对于每一阶，存在子阶m的扩展，出于易于说明的目的，在图2的实例中展示所述子阶但未明确注释。
[003引图2是说明从零阶（n = 0)到四阶（n = 4)的球面谐波基底函数的另一图。在图 2中，在=维坐标空间中展示了球面谐波基底函数，其中展示了阶与子阶两者。
[0034] S肥/皆脚可由各种麦克风阵列配置物理获取（例如，记录），或者，其可从声场的基于声道或基于对象的描述导出。甜C表示基于场景的音频，其中甜C可输入到音频编码器W获得经编码甜C，所述经编码甜C可促成更有效的发射或存储。举例来说，可使用设及 (1+4) 2个（25,且因此为第四阶）系数的四阶表示。
[0035] 如上文所指出，可使用麦克风从麦克风记录导出甜C。可如何从麦克风阵列导出甜C的各种实例描述于波莱蒂? M任oletti，M)的"基于球面谐波的S维环绕声系统 (Three-Dimensional Surround Sound Systems Based on Spherical Harmonics) "（听觉工程学协会会刊（J. Audio化g. Soc.)，第53卷，第11期，2005年11月，第1004-1025页）中。
[0036] 为了说明可如何从基于对象的描述导出运些甜C，考虑W下等式。对应于个别音频对象的声场的系数成巧系)可表达为：
[0037]
[003引其中i为为阶数n的球面汉克尔函数（第二种），且权，喪，龄1为对象的位置。已知对象源能量g(?)为频率的函数（例如，使用时频分析技术，例如对PCM流执行快速傅立叶变换）允许将每一 PCM对象及其位置转换成甜C 4开作)..另外，可显示（由于W上是线性和正交分解），每一对象的系数是加性的。W此方式，大量PCM对象可由非r'(w系数表示（例如，表示为个别对象的系数向量的总和）。基本上，运些系数含有关于声场的信息（压力作为3D坐标的函数），且W上表示从个别对象到观察点托，0,..秘.} 附近的整个声场的表示的变换。下文在基于对象和基于甜C的音频译码的上下文中描述其余各图。
[0039]图3是说明可执行本发明中所描述的技术的各个方面的系统10的图。如图3的实例中所示，系统10包含内容创建者12和内容消费者14。尽管在内容创建者12和内容消费者14的上下文中描述，但可在其中声场的甜C(其也可称为HOA系数）或任何其它阶层表示经编码W形成表示音频数据的位流的任何上下文中实施所述技术。此外，内容创建者12可表示能够实施本发明中所描述的技术的任何形式的计算装置，包含手机（或蜂窝电话）、平板计算机、智能电话或台式计算机（提供几个实例）。同样，内容消费者14可表示能够实施本发明中所描述的技术的任何形式的计算装置，包含手持机（或蜂窝式电话）、平板计算机、智能电话、机顶盒，或台式计算机（提供几个实例）。
[0040]内容创建者12可表示电影演播室或可产生多信道音频内容W供由例如内容消费者14等内容消费者消费的其它实体。在一些实例中，内容创建者12可表示将希望压缩HOA 系数11的个别用户。常常，此内容创建者产生音频内容连同视频内容。内容消费者14表示拥有或具有对音频重放系统的存取权的个体，所述音频重放系统可指能够擅染S肥W作为多声道音频内容重放的任何形式的音频重放系统。在图3的实例中，内容消费者14包含音频重放系统16。
[0041]内容创建者12包含音频编辑系统18。内容创建者12获得各种格式（包含直接作为HOA系数）的实况记录7和音频对象9,内容创建者12可使用音频编辑系统18对其进行编辑。内容创建者可在编辑过程期间擅染来自音频对象9的HOA系数11，从而收听所擅染的扬声器馈送W试图识别需要进一步编辑的声场的各个方面。内容创建者12可接着编辑 HOA系数11 (可能经由操纵可W上文所描述的方式从中导出源HOA系数的音频对象9中的不同者而间接地编辑）。内容创建者12可采用音频编辑系统18来产生HOA系数11。音频编辑系统18表示能够编辑音频数据且输出此音频数据作为一或多个源球面谐波系数的任何系统。
[0042] 当编辑过程完成时，内容创建者12可基于HOA系数11产生位流3。也就是说，内容创建者12包含音频编码装置2,其表示经配置W根据本发明中描述的技术的各个方面编码或W其它方式压缩HOA系数11W产生位流3的装置。音频编码装置2可产生位流3W 供（作为一个实例）跨越发射信道发射，所述发射信道可为有线或无线通道、数据存储装置等。位流3可表示HOA系数11的经编码版本，且可包含主要位流和另一旁侧位流（其可称为旁侧信道信息）。
[0043] 尽管下文更详细地加W描述，但音频编码装置2可经配置W基于基于向量的合成或基于方向的合成来编码HOA系数11。为了确定是执行基于向量的合成方法还是基于方向的合成方法，音频编码装置2可至少部分基于HOA系数11来确定HOA系数11经由声场的自然记录（例如，实况记录7)还是从（作为一个实例）例如PCM对象等音频对象9人工地（即，合成地）产生。当HOA系数11从音频对象9产生时，音频编码装置2可使用基于方向的合成方法来编码HOA系数11。当使用（例如）本征麦克风（eigenndke)实况地捕获 HOA系数11时，音频编码装置2可基于基于向量的合成方法来编码HOA系数11。上述区别表示其中可部署基于向量或基于方向的合成方法的一个实例。可能存在其它状况：其中所述合成方法中的任一者或两者可用于自然记录、人工产生的内容或两种内容的混合（混合内容）。此外，也有可能同时使用两种方法用于对HOA系数的单一时间帖译码。
[0044] 出于说明的目的，假定音频编码装置2确定实况地俘获HOA系数11或HOA系数11 W其它方式表示实况记录（例如，实况记录7)，音频编码装置20可经配置W使用设及线性可逆变换化IT)的应用的基于向量的合成方法来编码HOA系数11。线性可逆变换的一个实例被称作"奇异值分解"（或"SVD")。在此实例中，音频编码装置2可将SVD应用于HOA系数11 W确定HOA系数11的经分解版本。音频编码装置2可接着分析HOA系数11的经分解版本，W识别可促进HOA系数11的经分解版本的重新排序的各种参数。音频编码装置2 可接着基于所识别的参数将HOA系数11的经分解版本重新排序，其中如下文进一步详细描述，在给定W下情形的情况下，此重新排序可改进译码效率：变换可将HOA系数跨越HOA系数的帖重新排序（其中一帖通常包含HOA系数11的M个样本，且在一些实例中，将M设定为1024)。在将HOA系数11的经分解版本重新排序之后，音频编码装置2可选择表示声场的前景（或，换句话说，相异的、占优势的或突出的）分量的HOA系数11的经分解版本。音频编码装置2可将HOA系数11的表示前景分量的经分解版本指定为音频对象和相关联方向fs息。
[0045]音频编码装置2还可相对于HOA系数11执行声场分析，W便至少部分地识别HOA系数11中表示声场的一或多个背景（或，换句话说，环境）分量的那些HOA系数。假定在一些实例中，背景分量可仅包含HOA系数11的任何给定样本的子集（例如，对应于零阶和一阶球面基底函数的那些样本，而不是对应于二阶或更高阶球面基底函数的那些样本），那么音频编码装置2可相对于背景分量执行能量补偿。当执行阶还原时，换句话说，音频编码装置2可扩增HOA系数11的其余背景HOA系数（例如向/从其添加/减去能量），W补偿因执行阶还原而导致的总能量的变化。
[0046] 音频编码装置2接下来可相对于表示背景分量的HOA系数11中的每一者和前景音频对象中的每一者执行一种形式的屯、理声学编码（例如，MPEG环绕、MPEG-AAC、 MPEG-USAC或其它已知形式的屯、理声学编码）。音频编码装置2可相对于前景方向信息执行一种形式的内插，且接着相对于经内插的前景方向信息执行阶还原，W产生经阶还原的前景方向信息。在一些实例中，音频编码装置2可进一步关于经阶还原的前景方向信息执行量化，从而输出经译码前景方向信息。在一些情况下，此量化可包括标量/赌量化。音频编码装置2可接着形成位流3 W包含经编码背景分量、经编码前景音频对象和经量化的方向信息。音频编码装置2可接着传输或W其它方式将位流3输出到内容消费者14。
[0047] 虽然图3中展示为直接发射到内容消费者14,但内容创建者12可将位流3输出到位于内容创建者12与内容消费者14之间的中间装置。此中间装置可存储位流3 W供稍后递送到可请求此位流的内容消费者14。所述中间装置可包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话，或能够存储位流3 W供音频解码器稍后检索的任何其它装置。此中间装置可驻留在能够将位流3 (且可能结合发射对应视频数据位流）流式传输到请求位流3的订户（例如内容消费者14)的内容递送网络中。[004引或者，内容创建者12可将位流3存储到存储媒体，例如压缩光盘、数字视频光盘、高清视频光盘或其它存储媒体，其中大多数能够由计算机读取，且因此可称为计算机可读存储媒体或非暂时性计算机可读存储媒体。在此上下文中，传输信道可指代借W发射存储到运些媒体的内容的那些信道（且可包含零售商店和其它基于商店的递送机制）。在任何情况下，本发明的技术因此就此而言不应限于图3的实例。
[0049] 如图3的实例中进一步展示，内容消费者14包含音频重放系统16。音频重放系统 16可表示能够重放多信道音频数据的任何音频重放系统。音频重放系统16可包含若干不同擅染器5。擅染器5可各自提供不同形式的擅染，其中所述不同形式的擅染可包含执行基于向量的振幅平移（VBA巧的各种方式中的一或多者，和/或执行声场合成的各种方式中的一或多者。如本文所使用，"A和/或B"意味着"A或B"，或"A和B"两者。
[0050] 音频重放系统16可进一步包含音频解码装置4。音频解码装置4可表示经配置W 解码来自位流3的册A系数11'的装置，其中册A系数11'可类似于册A系数11，但归因于有损操作（例如，量化）和/或经由发射信道的发射而不同。也就是说，音频解码装置4 可对位流3中指定的前景方向信息进行解量化，同时还相对于位流3中指定的前景音频对象和表示背景分量的经编码HOA系数执行屯、理声学解码。音频解码装置4可进一步相对于经解码前景方向信息执行内插，且接着基于经解码前景音频对象和经内插前景方向信息来确定表示前景分量的HOA系数。音频解码装置4可接着基于表示前景分量的所确定的HOA 系数和表示背景分量的经解码HOA系数来确定HOA系数11'。
[0051] 音频重放系统16可解码位流3之后获得HOA系数11'，且擅染HOA系数11'W输出扩音器馈送6。扩音器馈送6可驱动一或多个扩音器（其为便于说明的目的在图3的实例中未图示）。
[0052] 为了选择适当擅染器或在一些情况下产生适当擅染器，音频重放系统16可获得指示扩音器的数目和/或扩音器的空间几何布置的扩音器信息13。在一些情况下，音频重放系统16可使用参考麦克风获得扩音器信息13且W动态地确定扩音器信息13的方式驱动所述扩音器。在其它情况下或结合动态确定扩音器信息13,音频重放系统16可提示用户与音频重放系统16介接并输入扩音器信息16。
[0053] 音频重放系统16可随后基于扩音器信息13选择音频擅染器5中的一者。在一些情况下，音频重放系统16可在无音频擅染器5在与扩音器信息13中指定的音频擅染器的某一临限值相似性量度（按扩音器几何布置）时，音频重放系统16可基于扩音器信息13 产生音频擅染器5中的所述一者。音频重放系统16可在一些情况下基于扩音器信息13产生音频擅染器5中的所述一者，而不首先尝试选择音频擅染器5中的现有一者。
[0054] 图4是说明可执行本发明中描述的技术W潜在地更高效地表示音频数据的位流中的音频信号信息的系统20的图。如图3的实例中所展示，系统20包含内容创建者22和内容消费者24。虽然在内容创建者22和内容消费者24的上下文中描述，所述技术可在任何环境下实施，其中编码声场的SHC或任何其它层级表示，W形成表示音频数据的位流。分量22、24、30、28、36、31、32、38、34和35可表示图3的类似命名的分量的实例例子。此外， S肥27和27'可分别表示HOA系数11和11'的实例例子。
[0055] 内容创建者22可表示电影演播室或可产生多信道音频内容W供由例如内容消费者24等内容消费者消费的其它实体。常常，此内容创建者产生音频内容连同视频内容。内容消费者24表示拥有或具有对音频重放系统的存取权的个体，所述音频重放系统可指代能够重放多信道音频内容的任何形式的音频重放系统。在图4的实例中，内容消费者24包含音频重放系统32。
[0056] 内容创建者22包含音频擅染器28和音频编辑系统30。音频擅染器26可表示音频处理单元，其擅染或W其它方式产生扬声器馈送（其也可被称作"扩音器馈送"、"扬声器信号"或"扩音器信号"）。每一扬声器馈送可对应于再现针对多信道音频系统的特定信道的声音的扬声器馈送。在图4的实例中，擅染器38可擅染针对常规5. 1、7. 1或22. 2环绕声格式的扬声器馈送，从而产生针对5. 1、7. 1或22. 2环绕声扬声器系统中5、7或22个扬声器中的每一者的扬声器馈送。或者，擅染器28可经配置W在给定上文所论述的源球面谐波系数的性质的情况下针对具有任何数目的扬声器的任何扬声器配置擅染来自源球面谐波系数的扬声器馈送。擅染器28可W此方式产生若干扬声器馈送，其在图4中表示为扬声器馈送29。
[0057] 内容创建者可在编辑过程期间擅染球面谐波系数27 ( "S肥27")，从而收听所擅染的扬声器馈送，W试图识别并不具有高保真度或并不提供有说服力的环绕声体验的声场的方面。内容创建者22可随后编辑源球面谐波系数（常常经由操纵可W上文所描述的方式从其导出源球面谐波系数的不同对象而间接地进行）。内容创建者22可采用音频编辑系统30来编辑球面谐波系数27。音频编辑系统30表示能够编辑音频数据且输出此音频数据作为一或多个源球面谐波系数的任何系统。
[0058] 当编辑过程完成时，内容创建者22可基于球面谐波系数27产生位流31。也就是说，内容创建者22包含位流产生装置36,其可表示能够产生位流31的任何装置。在一些情况下，位流产生装置36可表示编码器，其对球面谐波系数27进行带宽压缩（作为一个实例，经由赌编码）且其W所接受格式布置球面谐波系数27的经赌编码版本从而形成位流 31。在其它情况下，位流产生装置36可表示音频编码器（可能利用例如MPEG环绕或其衍生物等已知音频译码标准编译的音频编码器）

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马丁·詹姆斯·莫雷尔;迪潘让·森;尼尔斯·京特·彼得斯;
技术所有人：高通股份有限公司;
我是此专利的发明人

上一篇：机器类型通信虚拟共享移动设备和方法
上一篇：基于用户跟踪的声场调节的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。