用于高声道计数的多声道音频的基于多元组的矩阵混合的制作方法

文档序号:10618751阅读:273来源:国知局
用于高声道计数的多声道音频的基于多元组的矩阵混合的制作方法
【专利摘要】提供了基于多元组的空间矩阵化编解码器和方法,其用于减少高声道计数(七个或更多个声道)的多声道音频的声道数(以及因此减小位速率),通过启用空间准确性与基本音频质量之间的折中来优化音频质量,并且将音频信号格式转换成回放环境配置。最初的N声道计数通过利用多元组平移法则空间矩阵混合到较低数量的声道而被减少到M个声道。多元组平移法则包括二元组、三元组和四元组平移法则。例如,利用四元组平移法则,N个声道中的一个可以被下混到M个声道中的四个,以创建四元组声道。空间信息以及音频内容被包含在多元组声道中。在上混期间,利用对应的多元组平移法则从多元组声道中提取出下混的声道。然后,提取出的声道在回放环境中的任意位置被呈现。
【专利说明】用于高声道计数的多声道音频的基于多元组的矩阵混合
[0001] 对相关申请的交叉引用
[0002] 本申请要求于2014年11月26日提交的标题为"MULTIPLET-BA沈D MATRIX MIXING FOR HIGH-CHAN肥L COUNT MULTICHAN肥L AUDI炉的美国专利申请14/555,324的权益,该申 请是于2013年11月27日提交的标题为"MULTI化ET-BAS抓MATRIX MIXING FOR HIGH- CHAN肥L COUNT MULTICHAN肥L AUDI炉的美国临时专利申请序列No.61/909,841和于2014 年7月30 日提交的标题为"MATRIX DECODER WUH C0NSTANT-P0肥R PAIRWISE PANNIN护的 美国专利申请序列No . 14/447,516的非临时申请,所有运些的全部内容都通过引用被结合 于此。
【背景技术】
[0003] 许多音频再现系统能够记录、发送和回放同步的多声道音频,有时被称为"环绕 声"。虽然娱乐音频W简单的单声道系统开始,但是它很快就发展成双声道(立体声)和高声 道计数的格式(环绕声),W努力捕捉收听者沉浸的令人信服的空间形象和感觉。环绕声是 用于通过使用多于两个音频声道增强音频信号的再现的技术。内容在多个离散的音频声道 上被输送,并利用卿趴(或扬声器)的阵列再现。附加的音频声道或者"环绕声道"为收听者 提供身临其境的听觉体验。
[0004] 环绕声系统通常具有定位在收听者周围的扬声器,W便给收听者W声音定位和包 络感。仅具有少数声道的许多环绕声系统(诸如5.1格式)具有定位在围绕收听者的360度弧 的特定位置的扬声器。运些扬声器也被布置成使得所有扬声器都在彼此和收听者的耳朵相 同的平面内。许多更高声道计数的环绕声系统(诸如7.等等)还包括被定位在收听 者耳朵的平面上方的高度或高程(elevation)扬声器,W给予音频内容高度感。运些环绕声 配置常常包括提供附加的低频低音音频的离散的低频效果化FE)声道,W补充其它主音频 声道中的低音音频。因为运个LFE声道仅需要其它音频声道的带宽的一部分,所W它被指定 为r声道,其中X是包括零的任何正整数(诸如在5.1或7.1环绕声中)。
[0005] 在理想的情况下,环绕声音频被混合到离散的声道中并且那些声道通过向收听者 回放而保持离散。但是,在现实中,存储和传输限制决定了环绕声音频的文件大小被减小W 最小化存储空间和传输带宽。而且,与具有多于两个声道的音频内容相比,双声道音频内容 通常与更多种的广播和再现系统兼容。
[0006] 矩阵化被开发W解决运些需求。矩阵化设及将具有多于两个离散音频声道的原始 信号"下混"成双声道音频信号。超过两个声道的附加声道根据预先确定的处理被下混W生 成包括来自所有音频声道的信息的双声道下混。附加的音频声道可W稍后利用"上混"处理 从双声道下混中提取并合成,使得原始声道混合可W恢复到某种程度的近似。上混接收双 声道音频信号作为输入并生成更大数量的声道W用于回放。运种回放是原始信号的音频声 道的可接受的近似。
[0007] 几种上混技术使用恒定功率平移(panning)。"平移"的概念得自运动画面并且具 体而言是单词"全景图(panorama)"。全景图是指在每个方向上都具有给定区域的完整视觉 视图。在音频领域中,音频可在立体声场中平移W使得音频被感知为定位在物理空间中,使 得表演中的所有声音都在其合适的位置和维度被收听者听到。对于音乐录音,通常的做法 是将乐器放在它们在真实舞台上将被物理放置的地方。例如,舞台左侧的乐器向左平移并 且舞台右侧的乐器向右平移。运个想法设法在回放过程中为收听者复制现实生活中的表 演。
[000引因为输入音频信号分布在音频声道中,所W恒定功率平移跨音频声道维持恒定的 信号功率。虽然恒定功率平移很普遍,但是目前的下混和上混技术努力保留和恢复在原始 混音中存在的精确平移行为和定位。此外,一些技术容易产生伪像,并且全都具有有限的能 力来分开在时间和频率上重叠但是源自不同空间方向的独立信号。
[0009] 例如,一些流行的上混技术使用压控放大器来将两个输入声道规格化到大致相同 的水平。然后,运两个信号W特设方式被组合W产生输出声道。但是,由于运种特设的办法, 最终的输出难W实现期望的平移行为并且包括串扰问题并且最多近似离散的环绕声音频。
[0010] 其它类型的上混技术只在几个平移位置精确,而在远离那些位置的地方不精确。 作为示例,一些上混技术定义有限数量的平移位置,在运些位置,上混导致精确和可预测的 行为。显性矢量分析被用来在处于精确平移位置点的有限数量的反矩阵化系数的预定义集 合之间进行插值。落在运些点之间的任何平移位置都使用插值来找到反矩阵化系数值。由 于运种插值,落在精确点之间的平移位置会是不精确的并且不利地影响音频质量。

【发明内容】

[0011] 本
【发明内容】
的提供是为了 W简化的形式介绍下面在【具体实施方式】中进一步描述 的概念的选择。本
【发明内容】
并不意在识别要求保护的主题的关键特征或必要特征,也不意 在被用来限制要求保护的主题的范围。
[0012] 基于多元组(multiplet)的空间矩阵化编解码器和方法的实施例减少了高声道计 数(屯个或更多个声道)的多声道音频的声道计数(W及因此减小位速率)。此外,编解码器 和方法的实施例通过启用空间准确性与基本音频质量之间的折中来优化音频质量,并将音 频信号格式转换成回放环境配置。运部分地是通过确定目标位速率和该位速率将支持的声 道(或存留声道(surviving channel))的数量来实现的。其余的声道(非存留声道)被下混 到存留声道的多元组上。运可W是一对声道(或二元组(doublet))、声道的S元组 (triplet)、声道的四元组(qua化uplet)或声道的任何更高阶多元组。
[0013] 例如,第五非存留声道可被下混到四个其它存留声道上。在上混期间,第五声道从 四个其它声道中被提取出来并在回放环境中被呈现(render)。那编码的四个声道W各种方 式被进一步配置和组合,用于与现有解码器的向后兼容,然后利用有损或无损位速率压缩 进行压缩。解码器具有编码的四个编码音频声道W及相关的元数据,从而使得能够正确地 解码回原始的源扬声器布局(诸如11.X布局)。
[0014] 为了让解码器正确地解码声道减少的信号,解码器必须被告知在编码过程中使用 的布局、参数和系数。例如,如果编码器将11.2声道基本混合编码成7.1声道减少的信号,贝U 描述原始布局、声道减少的布局、有贡献的下混声道W及下混系数的信息将被发送到解码 器,W便使得能够正确解码回原始的11.2声道计数布局。运种类型的信息是在位流的数据 结构中提供的。当运种性质的信息被提供并用来重构原始信号时,编解码器在元数据模式 下工作。
[0015] 编解码器和方法也可W被用作用于传统内容的盲上混合器,W便创建匹配回放环 境的收听布局的输出声道布局。盲上混用例中的区别在于,编解码器基于布局和信号假设 而不是已知的编码处理来配置信号处理模块。因此,当它不具有或不使用明确的元数据信 息时,编解码器在盲模式下工作。
[0016] 本文描述的基于多元组的空间矩阵化编解码器和方法是尝试W运样一种方式解 决当混合、输送和再现具有多个声道的多声道音频时发生的多个相关问题,该方式使得对 于混合或呈现技术的向后兼容性和灵活性给予适当考虑。本领域技术人员将认识到,众多 空间布置对于声音源、麦克风或扬声器是可能的;并且最终消费者拥有的扬声器是艺术家、 工程师或娱乐影音的分销商无法完全可预见的。编解码器和方法的实施例还解决了要实现 在数据带宽、声道计数和质量之间的对大声道计数更可行的功能和实用的折中的需求。
[0017] 基于多元组的空间矩阵化编解码器和方法被设计为减少声道计数(W及因此减小 位速率),通过启用空间准确性与基本音频质量之间的折中来优化音频质量,并且将音频信 号格式转换到回放环境配置。相应地,编解码器和方法的实施例使用矩阵化和离散声道压 缩的组合来创建并回放来自具有M个声道(和LFE声道)的基本混合的具有N个声道的多声道 混合,其中N大于M并且其中N和M都大于二。当N大时,例如在10至50的范围内并且包括高度 声道W及环绕声道;W及当期望提供诸如5.1或7.1环绕混合的向后兼容的基本混合时,运 种技术特别有利。
[0018] 给定包括基本声道(诸如5.1或7.1)和附加声道的声音混合,本发明使用基于按 对、=元组W及四元组的矩阵规则的组合,W便W运样一种方式将附加声道混合到基本声 道中,该方式将允许互补的上混,所述上混能够清晰明确地恢复附加声道,连同用于每个附 加声道的空间既定声音源的令人信服的错觉。使传统解码器能够解码基本混合,而通过编 解码器和方法的实施例使较新的解码器能够执行分离附加声道(诸如高度声道)的上混。
[0019] 应当注意,依赖于特定的实施例,备选实施例是可能的,并且本文所讨论的步骤和 元素可W改变、添加或消除。在不背离本发明的范围的情况下,运些备选实施例包括可W被 使用的备选步骤和备选元素,W及可W做出的结构变化。
【附图说明】
[0020] 现在参考附图,在附图中相同的附图标记在全文表示对应的部分:
[0021 ]图1是示出术语"源"、"波形"与"音频对象"之间的差别的图。
[0022] 图2是术语"声床混合"、"对象"和"基本混合"之间的差别的图示。
[0023] 图3是在与收听者耳朵同一平面内具有L个扬声器并且在比收听者耳朵高的高度 环周围设置了 P个扬声器的内容创建环境扬声器布局的概念的图示。
[0024] 图4是示出基于多元组的空间矩阵化编解码器和方法的实施例的一般概述的框 图。
[0025] 图5是示出图4中所示的基于多元组的空间矩阵化编码器的非传统实施例的细节 的框图。
[0026] 图6是示出图4中所示的基于多元组的空间矩阵化解码器的非传统实施例的细节 的框图。
[0027] 图7是示出图4中所示的基于多元组的空间矩阵化编码器的向后兼容实施例的细 节的框图。
[0028] 图8是示出图4中所示的基于多元组的空间矩阵化解码器的向后兼容实施例的细 节的框图。
[0029] 图9是示出图5和图7中所示的基于多元组的矩阵下混系统的示例性实施例的细节 的框图。
[0030] 图10是示出图6和图8中所示的基于多元组的矩阵上混系统的示例性实施例的细 节的框图。
[0031] 图11是示出图4中所示的基于多元组的空间矩阵化编解码器和方法的实施例的一 般操作的流程图。
[0032] 图12示出了对于正弦/余弦平移法则作为平移角度(0)的函数的平移权重。
[0033] 图13示出了对应于中屯、输出声道的同相曲线图的平移行为。
[0034] 图14示出了对应于中屯、输出声道的异相曲线图的平移行为。
[0035] 图15示出了对应于左环绕输出声道的同相曲线图的平移行为。
[0036] 图16示出了对应于下混方程的两个特定角度,其中左环绕和右环绕声道被离散地 编码和解码。
[0037] 图17示出了对应于修改的左输出声道的同相曲线图的平移行为。
[0038] 图18示出了对应于修改的左输出声道的异相曲线图的平移行为。
[0039] 图19是示出信号源S到声道S元组上的平移的图。
[0040] 图20是示出已被平移到S元组上的非存留第四声道的提取的图。
[0041] 图21是示出信号源S到声道四元组上的平移的图。
[0042] 图22是示出已被平移到四元组上的非存留第四声道的提取的图。
[0043] 图23是回放环境和扩展的呈现技术的图示。
[0044] 图24示出了利用扩展的呈现技术在单位球体上和在单位球体中的音频源的呈现。
[0045] 图25-图28是规定用于输入布局中在存留布局中不存在的任何扬声器的矩阵多元 组的映射的查找表。
【具体实施方式】
[0046] 在W下基于多元组的空间矩阵化编解码器和方法的实施例的描述中,对附图进行 了参考。运些附图W说明的方式示出了基于多元组的空间矩阵化编解码器和方法的实施例 可W被如何实践的具体示例。应当理解,在不背离要求保护的主题的范围的情况下,可W使 用其它实施例并且可W进行结构改变。
[0047] I.术语
[0048] W下是本文档中使用的一些基本术语和概念。应当注意,运些术语和概念中的一 些可能具有与在它们和其它音频技术一起使用时所具有的含义稍微不同的含义。
[0049] 本文档讨论基于声道的音频和基于对象的音频二者。音乐或音轨传统上是通过W 下操作来创建:在录音棚中将多个不同的声音混合到一起,决定那些声音应当在哪里被听 到,W及创建要在扬声器系统中的每个单独扬声器上播放的输出声道。在运种基于声道的 音频中,声道意味着既定的、标准的扬声器配置。如果使用不同的扬声器配置,则声音不能 在它们预期去往的地方或者W正确的再现水平结束。
[0050]在基于对象的音频中,所有不同的声音与描述声音应当怎样被再现(包括其在= 维(3D)空间中的位置)的信息或元数据组合。然后轮到回放系统来为给定的扬声器系统呈 现对象W使得对象如预期的那样被再现并放在正确的位置。对于基于对象的音频,音乐或 音轨在具有不同数量的扬声器或具有相对于收听者处于不同位置的扬声器的系统上应当 听起来是基本相同的。运种方法有助于保留艺术家的真正意图。
[0051 ]图1是示出术语"源"、"波形"和"音频对象"之间的差别的图。如图1中所示,术语 "源"被用来指表示声床混合的一个声道或一个音频对象的声音的单个声波。当源被分配= 维空间中的特定位置时,那个声音及其在3D空间中的位置的组合被称为"波形"。当波形与 其它元数据(诸如声道集合、音频展现层次结构等等)组合并存储在增强的位流的数据结构 中时创建"音频对象"(或"对象。"增强的位流"不仅包含音频数据而且包含空间数据和其 它类型的元数据。"音频展现"是最终从基于多元组的空间矩阵化解码器的实施例出来的音 频。
[0052] 短语"增益系数"是音频信号的水平被调整W增加或减小其音量的量。术语"呈现" 指示将给定的音频分发格式转换为正被使用的特定回放扬声器配置的处理。给定回放系统 和环境的参数和限制,呈现尝试尽可能接近原始空间声学空间地重建回放空间声学空间。
[0053] 当环绕或升高的扬声器从回放环境中的扬声器布置中缺失时,则意在用于运些缺 失的扬声器的音频对象可W被重映射到回放环境中物理存在的其它扬声器。为了启用运个 功能,可W定义在回放环境中使用但不与输出声道直接关联的"虚拟扬声器"。相反,它们的 信号通过使用下混映射被重新路由到物理扬声器声道。
[0054] 图2是术语"声床混合"、"对象"和"基本混合"之间的差别的图示。"声床混合"和 "基本混合"都是指基于声道的音频混合(诸如5.1、7.1、11.1,等等),其可^或者作为声道 或者作为基于声道的对象被包含在增强的位流中。运两个术语之间的差别在于声床混合不 包含任何包含在位流中的音频对象。基本混合包含W基于声道的形式为标准扬声器布局 (诸如5.1、7.1,等等)展现的完整音频展现。在基本混合中,所展现的任何对象都被混入声 道混合。运在图2中示出,该图示出了基本混合包括声床混合和任何音频对象二者。
[0055] 如本文档中所使用的,术语"多元组"是指具有平移到其上的信号的多个声道的分 组。例如,一种类型的多元组是"二元组",由此信号被平移到两个声道上。类似地,另一种类 型的多元组是元组",由此信号被平移到=个声道上。当信号被平移到四个声道上时,结 果所得的多元组被称为"四元组"。多元组可W包括信号被平移到其上的两个或更多个(包 括五个声道、六个声道、屯个声道,等等)声道的分组。为了教学目的,本文档只讨论二元组、 =元组和四元组的情况。但是,应当注意的是,本文所教导的原理可W被扩展到包含五个或 更多个声道的多元组。
[0056] 基于多元组的空间矩阵化编解码器和方法的实施例或其各方面被用在用于输送 和记录多声道音频的系统中,尤其是当大量的声道要被发送或记录时。如本文档中所使用 的,"高声道计数的"多声道音频意味着存在屯个或更多个音频声道。例如,在一个运样的系 统中,大量声道被记录并假设被配置在已知的回放几何形状中,该回放几何形状具有设置 在收听者周围耳朵水平的L个声道,设置在高度环(设置得比耳朵水平高)周围的P个声道, W及可选地位于收听者之上的顶点(zenith)处或顶点附近的中屯、声道(其中L和P是大于1 的正整数)。
[0057]图3是内容创建环境扬声器(或声道)布局300的概念的图示,该布局300在与收听 者的耳朵同一平面内具有L个扬声器并且在比收听者的耳朵高的高度环周围设置有P个扬 声器。如图3中所示,收听者100在收听混合到内容创建环境扬声器布局300上的内容。内容 创建环境扬声器布局300是11.1布局,具有可选的头顶扬声器305。包含与收听者的耳朵同 一平面内的L个扬声器的L平面310包括左扬声器315、中屯、扬声器320、右扬声器325、左环绕 扬声器330和右环绕扬声器335。所示的11.1布局还包括低频效果化FE或"低音炮")扬声器 340"L平面310还包括环绕后左扬声器345和环绕后右扬声器350。收听者的耳朵355中的每 个也位于L平面310中。
[005引P(或高度)平面360包含左前高度扬声器365和右前高度扬声器370dP平面360还包 括左环绕高度扬声器375和右环绕高度扬声器380。可选的头顶扬声器305被示为位于P平面 360中。作为替代,可选的头顶扬声器305可W位于P平面360上方在内容创建环境的顶点处。 L平面310和P平面360隔开距离d。
[0059] 虽然在图3中示出了 11.1内容创建环境扬声器布局300(连同可选的头顶扬声器 305-起),但是基于多元组的空间矩阵化编解码器和方法的实施例可W被一般化W使得内 容可W在包含屯个或更多个音频声道的高声道计数环境中被混合。而且,应当注意的是,在 图3中,内容创建环境扬声器布局300中的扬声器W及收听者的头部和耳朵不相互成比例。 特别地,收听者的头部和耳朵W更大的比例示出W说明每个扬声器和收听者的耳朵在与L 平面310同一水平面中的概念。
[0060] P平面360中的扬声器可W根据各种常规的几何形状布置,并且假设的几何形状对 于混合工程师或唱片艺术家/工程师是已知的。根据基于多元组的空间矩阵化编解码器和 方法的实施例,(L+P)声道计数通过新颖的矩阵混合方法减少到较低的声道数(例如,(L+P) 个声道被映射到仅L个声道上)。然后,减少计数的声道通过保留减少计数的声道的离散性 质的已知方法被编码和压缩。
[0061] 关于解码,编解码器和方法的实施例的操作依赖于解码器的能力。在传统的解码 器中,其中混合有P个声道的减少计数化)的声道被再现。在更先进的解码器中,(L+P)个声 道的完全协同可W通过上混并将每个路由到(L+P)个扬声器中对应的一个来恢复。
[0062] 根据本发明,上混和下混操作(矩阵化/反矩阵化)二者包括多元组平移法则(诸如 按对、=元组和四元组平移法则)的组合W便在再现时将感知到的声音源放成接近地对应 于唱片艺术家或工程师预期的假设位置。矩阵化操作(声道布局减少)可W在W下方面应用 到声床混合声道:(a)增强的位流的声床混合加对象组成;(b)增强的位流的仅基于声道的 组成。此外,矩阵化操作可W应用到静止对象(不四处移动的对象)并且在反矩阵化之后仍 然实现充分的对象分离,运将允许对单个对象的独立的水平修改和呈现;或(C)对基于声道 的对象应用矩阵化操作。
[006引 II.系统概述
[0064]基于多元组的空间矩阵化编解码器和方法的实施例通过将某些声道平移到其余 声道的多元组上来减少高声道计数的多声道音频和位速率。运用来通过启用空间准确性与 基本音频质量之间的折中来优化音频质量。编解码器和方法的实施例还将音频信号格式转 换到回放环境配置。
[0065] 图4是示出基于多元组的空间矩阵化编解码器400和方法的实施例的一般概述的 框图。参照图4,编解码器400包括基于多元组的空间矩阵化编码器410和基于多元组的空间 矩阵化解码器420。最初,音频内容(诸如音乐曲目)在内容创建环境430中被创建。运种环境 430可W包括多个麦克风435(或其它声音捕获设备)W记录音频源。作为替代,音频源可W 已经是数字信号,使得没有必要使用麦克风来记录源。无论创建声音的方法是什么,每个音 频源都被混入作为内容创建环境430的输出的最终的混合。
[0066] 内容创建者选择最能代表创建者的空间意图的N.X基本混合,其中N表示常规的声 道数并且X表示低频声道数。而且,N是大于1的正整数,并且X是非负整数。例如,在11.1环绕 系统中,N=Il并且X = I。运当然受限于声道的最大数,使得N+x《MAX,其中MAX是表示容许 声道的最大数的正整数。
[0067] 在图4中,最终的混合是N.X混合440,使得每个音频源被混入N+X个声道中。然后最 终的N.X混合440利用基于多元组的空间矩阵化编码器410被编码和下混。编码器410通常位 于具有一个或多个处理设备的计算设备上。编码器410将最终的N.X混合编码和下混成具有 M个常规声道和X个低频声道的M. X混合450,其中M是大于1的正整数并且M小于N。
[0068] M.X 450下混通过输送环境460输送W供收听者消费。几个输送选项可供选择,包 括通过网络465流化输送。作为替代,M.X 450下混可被记录在介质470(诸如光盘)上W供收 听者消费。此外,有许多其它未在运里列举的可用来输送M.X 450下混的输送选项。
[0069] 输送环境的输出是M.r流475,其被输入到基于多元组的空间矩阵化解码器420。解 码器420解码和上混M.r流475W获得重构的N.X内容480。解码器420的实施例通常位于具有 一个或多个处理设备的计算设备上。
[0070] 解码器420的实施例从存储在M.r流475中的压缩音频提取PCM音频。所使用的解码 器420基于哪种音频压缩方案被用来压缩数据。几种类型的音频压缩方案可W在M.r流中使 用,包括有损压缩、低位速率编码W及无损压缩。
[0071] 解码器420解码M.r流475的每个声道并将其扩展成由N.X输出480表示的离散输出 声道。运种重构的N.X输出480在包括回放扬声器(或声道)布局的回放环境485中被再现。回 放扬声器布局可W或可W不与内容创建扬声器布局相同。图4中所示的回放扬声器布局是 11.2布局。在其它实施例中,回放扬声器布局可W是耳机,使得扬声器仅仅是在回放环境 485中声音似乎是来自该扬声器的虚拟扬声器。例如,收听者100可W通过耳机收听重构的 N.X混合。在运种情况下,扬声器不是实际的物理扬声器,但声音似乎是源自回放环境485中 对应于例如11.2环绕声扬声器配置的不同的空间位置。
[00。] 编码器的后向不兼容的实施例
[0073]图5是示出图4中所示的基于多元组的空间矩阵化编码器410的非传统实施例的细 节的框图。在运些非传统实施例中,编码器410不编码内容W使得传统解码器维持向后兼容 性。而且,编码器410的实施例利用包含在位流中的各种类型的元数据连同音频数据。如图5 中所示,编码器410包括基于多元组的矩阵混合系统500W及压缩和位流填充模块510。来自 内容创建环境430的输出包括N. X脉码调制(PCM)声床混合520(其包含基于声道的音频信 息)W及基于对象的音频信息,该基于对象的音频信息包括对象PCM数据530和关联的对象 元数据540。应当注意,在图5-图8中,空屯、箭头指示时域数据而实屯、箭头指示空间数据。例 如,从N.X PCM声床混合520到基于多元组的矩阵混合系统500的箭头是空屯、箭头并且指示 时域数据。从内容创建环境430到对象PCM 530的箭头是实屯、箭头并且指示空间数据。
[0074] N.X PCM声床混合520被输入到基于多元组的矩阵混合系统500。系统500处理N.X PCM声床混合520(如W下详细说明的)并将N.X PCM声床混合的声道计数减少到M.X PCM声 床混合550。此外,系统500输出各类信息,包括M.X布局元数据560,其是关于M.X PCM声床混 合550的空间布局的数据。系统500还输出关于原始声道布局和矩阵化元数据570的信息。原 始声道布局是关于原始声道在内容创建环境430中的布局的空间信息。矩阵化元数据包含 关于在下混期间使用的不同系数的信息。特别地,它包含关于声道如何被编码成下混的信 息W使得解码器知道上混的正确方法。
[0075] 如在图5中所示,对象PCM 530、对象元数据540、M.X PCM声床混合550、M.X布局元 数据560W及原始声道布局和矩阵化元数据570全都被输入到压缩和位流填充模块510。模 块510取得运个信息,将其压缩,并将其打包成M. X增强位流580。位流之所W被称为增强的 是因为除了音频数据之外它还包含空间和其它类型的元数据。
[0076] 基于多元组的矩阵混合系统500的实施例通过检查诸如总可用位速率、每声道最 小位速率、离散的音频声道等等变量来减少声道计数。基于运些变量,系统500取得原始N个 声道并将其下混成M个声道。数M依赖于数据速率。作为示例,如果N等于22个原始声道并且 可用的位速率是500千位/秒,则系统500可W确定M必须是8W便实现位速率和编码内容。运 意味着仅有足够的带宽来编码8个音频声道。运8个声道然后将被编码和发送。
[0077] 解码器420将知道运8个声道来自原始的22个声道,并且我们将运8个声道上混回 22个声道。当然,为了实现位速率,会丢失某种程度的空间保真度。例如,假设每个声道给定 的最小位速率是32千位/声道。如果总位速率是128位/秒,则4个声道可W W32千位/声道被 编码。在另一个示例中,假设到编码器410的输入是11.1基本混合,给定的位速率是128千 位/秒,且每个声道的最小位速率是32千位/秒。运意味着,编解码器400和方法将取得那11 个原始声道并将它们下混成4个声道,发送运4个声道,并且在解码侧将那4个声道上混回11 个声道。
[007引解码器的后向不兼容实施例
[0079] M.X增强位流580被输送到包含解码器420的接收设备W用于呈现。图6是示出图4 中所示基于多元组的空间矩阵化解码器的非传统实施例的细节的框图。在运些非传统实施 例中,解码器420不保留与W前类型的位流的向后兼容并且不能对它们进行解码。如图6中 所示,解码器420包括基于多元组的矩阵上混系统600、解压缩和位流解包模块610、延迟模 块620、对象包含呈现引擎630W及下混器和扬声器重映射模块640。
[0080] 如图6中所示,到解码器420的输入是M.X增强位流580。解压缩和位流解包模块610 然后将位流580解包和解压缩回PCM信号(包括声床混合和音频对象)和关联的元数据。来自 模块610的输出是M. X PCM声床混合645。此外,原始(N. X)声道布局和矩阵化元数据650 (包 括矩阵化系数)、对象PCM 655 W及对象元数据660从模块610输出。
[0081 ] M.X PCM声床混合645由基于多元组的矩阵上混系统600处理并上混。基于多元组 的矩阵上混系统600在下面进一步讨论。系统600的输出是N.X PCM声床混合670,其与原始 布局处于相同的声道(或扬声器)布局配置。N.X PCM声床混合670由下混器和扬声器重映射 模块640处理W便将N.X声床混合670映射到收听者的回放扬声器布局。例如,如果N = 22并 且M=Il,则运22个声道将由编码器410下混成11个声道。然后解码器420将取得该11个声道 并将它们上混回22个声道。但是,如果收听者仅具有5.1回放扬声器布局,则模块640将下混 那22个声道并将它们重映射到回放扬声器布局W供收听者回放。
[0082] 下混器和扬声器重映射模块640负责使存储在位流580中的内容适应给定的输出 扬声器配置。从理论上讲,音频可W对任何任意回放扬声器布局格式化。回放扬声器布局由 收听者或系统选择。基于运种选择,解码器420选择需要被解码的声道集合并且确定是否必 须执行扬声器重映射和下混。输出扬声器布局的选择是利用应用编程接口(API)调用执行 的。
[0083] 当预期的回放扬声器布局不匹配回放环境485(或收听空间)的实际回放卿趴布局 时,音频展现的整体印象可能会受到损害。为了优化在多种流行的扬声器配置中的音频展 现质量,M.X增强位流可W包含卿趴重映射系数。
[0084] 对于下混器和扬声器重映射模块640的实施例存在两种操作模式。第一是"直接模 式",由此解码器420配置空间重映射器W在给定的输出扬声器配置之上尽可能接近地产生 原始编码的声道布局。第二是"非直接模式",由此解码器的实施例将会把内容转换成选择 的输出声道配置,而不管源配置如何。
[00化]对象PCM 655被延迟模块620延迟W使得在M.X PCM声床混合645被基于多元组的 矩阵上混系统600处理时存在某种程度的延迟。延迟模块620的输出是延迟的对象PCM 680。 运个延迟的对象PCM680和对象元数据660相加并通过对象包含呈现引擎630呈现。
[0086] 对象包含呈现引擎630和对象去除呈现引擎(在下面讨论)是用于执行基于3D对象 的音频呈现的主引擎。运些呈现引擎的主要工作是向基本混合添加或从中减去登记的音频 对象。每个对象都附带规定其在3D空间中的位置的信息,包括其方位、高度、距离、增益W及 规定该对象是否应当被允许抓取到最近的扬声器位置的标志。对象呈现执行必要的处理W 便将对象放在所指示的位置。呈现引擎支持点和扩展源二者。点源听起来就好像是来自空 间中一个特的定点,而扩展源听起来具有"度宽"、"高度"或者两者都有。
[0087] 呈现引擎使用球面坐标系表示。如果内容创建环境430中的创作工具将房间表示 为鞋盒,则从同屯、盒子到同屯、球W及返回来的变换可W在创作工具中的hood下执行。W运 种方式,源在墙上的放置映射到源在单位球上的放置。
[0088] 来自下混器和扬声器重映射模块的声床混合和来自对象包含呈现引擎630的输出 被组合W提供N.X音频展现690"N.X音频展现690从解码器420输出并在回放扬声器布局(未 示出)上回放。
[0089] 应当注意,解码器420的一些模块可W是可选的。例如,如果N=M,则基于多元组的 矩阵上混系统600是不需要的。类似地,如果N=M,则下混和扬声器重映射模块640是不需要 的。并且,如果在M.X增强位流中不存在对象并且信号仅仅是基于声道的信号,则对象包含 呈现引擎630是不需要的。
[0090] 编码器的向后兼容实施例
[0091] 图7是示出图4中所示的基于多元组的空间矩阵化编码器410的传统实施例的细节 的框图。在运些传统实施例中,编码器410编码内容W使得传统解码器维持向后兼容性。许 多部件与向后不兼容实施例是相同的。具体而言,基于多元组的矩阵混合系统500仍然将 N.X PCM声床混合520下混成M.X PCM声床混合550。编码器410取得对象PCM 530和对象元数 据540并将它们混合到M. X PCM声床混合550中W创建嵌入式下混。运种嵌入式下混可由传 统解码器解码。在运些向后兼容的实施例中,嵌入式下混包括M.X声床混合和对象二者W创 建传统解码器可W解码的传统下混。
[0092] 如图7中所示,编码器410包括对象包含呈现引擎700和下混嵌入器710。为了向后 兼容性的目的,存储在音频对象中的任何音频信息也被混入M.X声床混合550中W创建传统 解码器可W使用的基本混合。如果解码器系统可W呈现对象,则对象必须从基本混合中去 除W使得它们不会被加倍再现。解码的对象被呈现到专用于运个目的的适当声床混合并且 然后被从基本混合减去。
[0093] 对象PCM 530和对象元数据540被输入到引擎700并与M.X PCM声床混合550混合。 结果去往创建嵌入式下混的下混嵌入器710。运种嵌入式下混、下混元数据720、M.X布局元 数据560、原始声道布局和矩阵化元数据570、对象PCM 530W及对象元数据540被压缩和位 流填充模块510压缩并打包成位流。输出是向后兼容的M. X增强位流580。
[0094] 解码器的向后兼容实施例
[00M]向后兼容的M.X增强位流580被输送到包含解码器420的接收设备W供呈现。图8是 示出图4中所示的基于多元组的空间矩阵化解码器420的向后兼容实施例的细节的框图。在 运些向后兼容的实施例中,解码器420与先前类型的位流保持向后兼容性W便使解码器420 能够对它们进行解码。
[0096] 除了存在对象去除部分之外,解码器420的向后兼容实施例类似于图6中所示的非 向后兼容实施例。运些向后兼容的实施例处理编解码器的传统问题,其中期望的是提供传 统解码器仍可W解码的位流。在运些情况下,解码器420从嵌入式下混去除对象并且然后上 混W获得原始上混。
[0097] 如图8中所示,解压缩和位流解包模块610输出原始声道布局和矩阵化系数650、对 象PCM 655W及对象元数据660。模块610的输出还撤消嵌入式下混的嵌入式下混800W获得 M.X PCM声床混合645。运基本上彼此分开了声道和对象。
[0098] 在编码后,新的、较小的声道布局可能仍然具有太多声道存储在被传统解码器使 用的位流的一部分中。在运些情况下,如W上参照图7所指出的,执行附加的嵌入式下混W 确保来自在较旧的解码器中不被支持的声道的音频包括在向后兼容的混合中。存在的额外 声道被下混到向后兼容的混合中并被单独发送。当位流对于将支持比向后兼容的混合更多 声道的扬声器输出格式被解码时,来自额外声道的音频被从混合中去除并且代替地使用离 散的声道。撤消嵌入式下混800的运种操作在上混之前发生。
[0099] 模块610的输出还包括M.X布局元数据SIOdM.X布局元数据810和对象PCM 655被对 象去除呈现引擎820用来将去除的对象呈现到M.X PCM声床混合645中。对象PCM 655还通过 延迟模块620并进入对象包含呈现引擎630。引擎630取得对象元数据660、延迟的对象PCM 655并将对象和N.X声床混合670呈现成用于在回放扬声器布局(未示出)上回放的N.X音频 展现690。
[0…0] III.系统细节
[0101] 现在将讨论基于多元组的空间矩阵化编解码器和方法的实施例的部件的系统细 节。应当注意,W下仅详细描述模块、系统和编解码器可W被实现的少数几种方式。根据图9 和图10中所示的,许多变体是可能的。
[0102] 图9是示出图5和图7中所示基于多元组的矩阵下混系统500的示例性实施例的细 节的框图。如图9中所示,N. X PCM声床混合520被输入到系统500。该系统包括如下的单独模 块:该单独模块确定输入声道将下混到的声道数W及哪些输入声道是存留声道和哪些是非 存留声道。存留声道是被保留的声道并且非存留声道是被下混到存留声道的多元组上的输 入声道。
[0103] 系统500还包括混合系数矩阵下混器910。图9中的空屯、箭头指示信号是时域信号。 下混器910取得存留声道920并且在不处理的情况下传递它们。非存留声道基于接近性被下 混到多元组上。特别地,一些非存留声道可W被下混到存留对(或二元组)930上。一些非存 留声道可W被下混到存留声道的存留S元组940上。一些非存留声道可W被下混到存留声 道的存留四元组950上。运可W对任何Y的多元组继续,其中Y是大于2的正整数。例如,如果Y =8,则非存留声道可被下混到存留声道的存留八元组上。运在图9中由省略号960示出。应 当注意,多元组的一些、全部或任何组合可W被用来下混N. X PCM声床混合520。
[0104] 从下混器910得到的结果M.X下混进入响度规格化模块980。规格化处理在下面更 详细地讨论。N.X PCM声床混合520被用来规格化M.X下混并且输出是规格化的M.X PCM声床 混合550。
[0105] 图10是示出图6和图8中所示的基于多元组的矩阵上混系统600的示例性实施例的 细节的框图。在图10中,粗箭头表示时域信号并且虚线箭头表示子带域信号。如图10中所 示,M.X PCM声床混合645被输入到系统600dM.X PCM声床混合645被过采样分析滤波器组 1000处理W获得被下混到存留声道Y-元组的各种非存留声道。在第一遍中,对Y元组1010执 行空间分析W获得诸如在非存留声道的空间中的半径和角度之类的空间信息。接下来,从 存留声道1015的Y-元组提取非存留声道。然后,运个首先被重新捕获的声道Cl被输入到子 带功率规格化模块1020。然后,在运一遍中所设及的声道被重新平移1025。
[0106] 如由省略号1030所指示的,运些遍继续通过Y个多元组当中的每一个。然后,运些 遍依次继续直到Y-多元组当中的每一个已被处理。图10示出了对四元组1040执行空间分析 W获得诸如在被下混到四元组的非存留声道的空间中的半径和角度之类的空间信息。接下 来,从存留声道1045的四元组提取非存留声道。然后,提取出的声道C(Y-3)被输入到子带功 率规格化模块1020。然后,运一遍中所设及的声道被重新平移1050。
[0107] 在下一遍中,对=元组1060执行空间分析W获得诸如在被下混到=元组的非存留 声道的空间中的半径和角度之类的空间信息。接下来,从存留声道1065的=元组提取非存 留声道。然后,提取出的声道C(Y-2)被输入到模块1020。然后,运一遍中所设及的声道被重 新平移1070。类似地,在最后一遍中,对二元组1080执行空间分析W获得诸如在被下混到二 元组的非存留声道的空间中的半径和角度之类的空间信息。接下来,从存留声道1085的二 元组提取非存留声道。然后,提取出的声道C(Y-I)被输入到模块1020。然后,运一遍中所设 及的声道被重新平移1090。
[0108] 然后,每个声道被模块1020处理W获得N.X上混。运个N. X上混由过采样合成滤波 器组1095处理W将它们组合成N.X PCM声床混合670。如图6和图8中所示,N.X PCM声床混合 然后被输入到下混器和扬声器重映射模块640。
[0…9] IV.操作概述
[0110]基于多元组的空间矩阵化编解码器400和方法的实施例是减少声道计数(并因此 减小位速率)、通过启用空间准确性与基本音频质量之间的折中来优化音频质量并且将音 频信号格式转换成回放环境配置的空间编码和解码技术。
[0111]编码器410和解码器420的实施例有两个主要用例。第一个用例是元数据用例,其 中基于多元组的空间矩阵化编解码器400和方法的实施例被用来将高声道计数音频信号编 码成较低数量的声道。此外,运个用例包括较低数量的声道的解码W便恢复原始高声道计 数音频的准确近似。第二个用例是盲上混用例,其执行标准单声道、立体声或多声道布局 (诸如5.1或7.1)中的传统内容到由水平和升高的声道位置组成的3D布局的盲上混。
[01。] 元数据用例
[0113] 用于编解码器400和方法的实施例的第一个用例是作为位速率减小工具。其中编 解码器400和方法可W用于位速率减小的一个示例场景是每声道可用的位速率低于由编解 码器400支持的每声道的最小位速率的情况。在运种场景中,编解码器400和方法的实施例 可被用来减少编码的声道的数量,从而对存留声道启用更高的位速率分配。运些声道需要 W足够高的位速率进行编码W防止在反矩阵化之后伪像的掲露。
[0114] 在运种场景中,编码器410可W依赖于下列因素当中的一个或多个对位速率减小 使用矩阵化。一个因素是离散声道编码所需的每声道的最小位速率(指定为MinBR_Discr)。 另一个因素是矩阵式声道编码所需的每声道的最小位速率(指定为MinBR_Mtrx)。还有一个 因素是总的可用位速率(指定为BR_Tot)。
[0115] 编码器410是否参与(当(M<N)时矩阵化或者当(M = N)时不矩阵化)是基于W下公 式决定的:
[0116]
[0117] 此外,原始声道布局和描述矩阵化过程的元数据在位流中携带。而且,MinBR_Mhx 的值被选择为足够高(对于每种相应的编解码器技术)W防止在反矩阵化之后伪像的掲露。
[0118] 在解码器420侧,执行上混仅仅是将格式带至原始的N.X布局或N.X布局的某个适 当子集。上混对于进一步的格式转换是需要的。假设在原始N.X布局中携带的空间分辨率是 预期的空间分辨率,因此任何进一步的格式转换都将仅仅包括下混和可能的扬声器重映 射。在仅仅基于声道的流的情况下,存留的M.X布局可W被直接使用(不应用反矩阵化)作为 用于在解码器侧得出期望下混K. xW<M)的起点(M、N是整数,N大于M)。
[0119] 其中编解码器400和方法可被用于位速率减小的另一示例场景是当原始高声道计 数布局具有高空间准确性(诸如22.2)并且可用位速率足W离散地编码所有声道但不足W 充分提供近乎透明的基本音频质量水平时。在运种场景中,编解码器400和方法的实施例可 被用来通过稍微牺牲空间准确性来优化整体性能,但作为回报允许基本音频质量的提高。 运是通过W下操作来实现的:将原始布局转换成具有较少声道、足够的空间准确性(诸如 11.2)的布局并且将所有位池分配给存留声道W便在对空间准确性没有大的影响的同时将 基本音频质量带至更高的水平。
[0120] 在运个示例中,编码器410使用矩阵化作为工具W通过稍微牺牲空间准确性来优 化整体质量,但作为回报允许基本音频质量的提高。存留声道被选择成W最小数量的编码 声道保留原始空间准确性。此外,原始声道布局和描述矩阵化过程的元数据在流中被携带。
[0121] 编码器410选择可W足够高W允许将对象包括到存留布局W及进一步下混嵌入中 的每声道的位速率。而且,或者M.X或者关联的嵌入式下混可W在5.1/7.1系统上可直接回 放。
[0122] 运个示例中的解码器420使用上混仅仅是将格式带到原始N.X布局或N.X布局的某 个适当子集。不需要进一步的格式转换。假设原始N.X布局中携带的空间分辨率是预期的空 间分辨率,由此任何进一步的格式转换将仅仅包括下混和可能的扬声器重映射。
[0123] 对于上述场景,本文描述的编码和方法可W W对象加基本混合格式应用到基于声 道的格式或基本混合声道。对应的解码操作将把声道减少的布局带回到原始高声道计数布 局。
[0124] 为了让声道减少的信号被适当地解码,本文描述的解码器420必须被告知在编码 过程中使用的布局、参数和系数。编解码器400和方法定义用于从编码器410向解码器420传 送运种信息的位流语法。例如,如果编码器410将22.2声道基本混合编码成11.2声道减少的 信号,则描述原始布局、声道减少的布局、有贡献的下混声道和下混系数的信息将被发送到 解码器420W便使得能够正确解码回原始的22.2声道计数布局。
[01巧]盲上混用例
[0126] 用于编解码器400和方法的实施例的第二用例是执行传统内容的盲上混。运个能 力允许编解码器400和方法将传统内容转换为3D布局,其包括匹配回放环境485的卿趴位置 的水平和升高的声道。盲上混可W对标准布局(诸如单声道、立体声、5.1、7.1和其它)执行。
[0127] 总体概述
[01%]图11是示出图4中所示的基于多元组的空间矩阵化编解码器400和方法的实施例 的一般操作的流程图。操作W选择M个声道包括在下混的输出音频信号中开始(方框1100)。 如上所述,运种选择是基于期望的位速率的。应当注意,N和M是非零正整数并且N大于M。
[0129] 接下来,N个声道利用多元组平移法则的组合被下混并编码成M个声道,W获得包 含M个多元组编码的声道的PCM声床混合(方框1110)。然后,该方法经网络W等于或低于期 望的位速率的位速率发送PCM声床混合(方框1120) JCM声床混合被接收并分离成多个M个 多元组编码的声道(方框1130)。
[0130] 然后,该方法利用多元组平移法则的组合上混并解码M个多元组编码的声道当中 每一个,W便从M个多元组编码的声道提取N个声道并获得具有N个声道的结果输出音频信 号(方框1140)。运个结果输出音频信号在具有回放声道布局的回放环境中被呈现(方框 1150)。
[0131] 编解码器400和方法的实施例或者其各方面用在用于多声道音频的输送和记录的 系统中,尤其是当大量声道(超过7个)要被发送或记录时。例如,在一个运样的系统中,多个 声道被记录并且假设在已知的回放几何形状中进行配置,该几何形状具有围绕收听者设置 在耳朵水平的L个声道、设置在高于耳朵水平的高度环周围设置的P个声道W及可选地在收 听者上方的顶点处或其附近的中屯、声道(其中L和P是大于1的任意整数)"P个声道可W根据 各种常规的几何形状进行布置,并且假设的几何形状对于混合工程师或唱片艺术家/工程 师是已知的。根据本发明,L加P声道计数通过矩阵混合的新颖方法减小到更小数量的声道 (例如L+P个映射到仅L个)。然后,减少计数的声道通过保留减少计数的声道的离散性质的 已知方法被编码和压缩。
[0132] 关于解码,系统的操作依赖于解码器的能力。在传统解码器中,其中混合有P个声 道的减少计数化)的声道被再现。在根据本发明的更高级的解码器中,L+P个声道的完全协 同可W通过上混并且将每一个路由到L+P个扬声器中对应的一个来恢复。
[0133] 根据本发明,上混和下混操作(矩阵化/反矩阵化)二者包括按对、=元组和优选地 四元组平移法则的组合W便在再现时将感知到的声音源放成接近地对应于唱片艺术家或 工程师预期的假设位置。
[0134] 矩阵化操作(声道布局减少)可W在W下方面应用到声床混合声道:a)流的声床混 合+对象组成;或b)流的仅基于声道的组成。
[0135] 此外,矩阵化操作可W应用到静止对象(不四处移动的对象)并且在反矩阵化之后 仍然实现充分的对象分离,运将允许对单个对象的水平修改。
[0136] V.操作细节
[0137] 现在将讨论基于多元组的空间矩阵化编解码器400和方法的实施例的操作细节。
[0138] V.A.下混体系架构
[0139] 在基于多元组的矩阵下混系统500的示例性实施例中,系统500接受N声道的音频 信号并且输出M声道的音频信号,其中N和M是整数并且N大于M。系统500可W利用内容创建 环境(原始)声道布局、下混声道布局W及描述每个原始声道将对每个下混声道做贡献的混 合权重的混合系数的知识来进行配置。例如,混合系数可W由尺寸为MXN的矩阵C来定义, 其中行对应于输出声道并且列对应于输入声道,诸如:
[0140]
[0141 ] #一化出输俩I由-态紐Rfifi而W々夫后如下执行下混操作.
[0142]
[0143] 其中xjn]是输入音频信号的第j个声道,其中l《j《N,yi[n]是输出音频信号的第 i个声道,其中并且CU是对应于矩阵C的ij条目的混合系数。
[0144] 响度规格化
[0145] 系统500的一些实施例还包括响度规格化模块980(在图9中示出)。响度规格化处 理被设计为将感知到的下混信号的响度规格化为原始信号的响度。虽然矩阵C的混合系数 通常被选择为保留单个原始信号分量的功率,例如,标准的正弦/余弦平移法则将保留单个 分量的功率,但是对于更复杂的信号材料,功率保留特性将不会保持。因为下混处理在幅度 域而不是功率域中组合音频信号,所W结果得到的下混信号的信号功率是不可预测的并且 是依信号而定的。此外,由于响度是更相关的感知特性,因此可能期望保留感知到的下混音 频信号的响度而不是信号功率。
[0146] 响度规格化处理通过比较输入响度与下混响度的比来执行。输入响度经由W下等 式来估计:
[0147]
[014引其中,Lin是输入响度的估计山[n]是频率加权滤波器,诸如在ITU-R BS. 1770-3响 度测量标准中所描述的"K"频率加权滤波器,并且(*)表示卷积。
[0149] 如可W观察到的,输入响度本质上是频率加权输入声道的均方根(RMS)量度,其中 频率加权被设计为提高与人类的响度感知的相关性。同样,输出响度是经由W下等式估计 的:
[0150]
[0151] 其中Lout是输出响度估计。
[0152] 现在,输入和输出感知响度二者的估计都已计算出,我们可W经由W下规格化等 式来规格化下混音频信号W使得下混信号的响度将大致等于原始信号的响度:
[0153]
[0154] 在W上等式中,可W观察到响度规格化处理致使W输入响度与输出响度之比缩放 所有的下混声道。
[01巧]静态下混
[0156] 对于给定的输出声道yi[n]的静态下混:
[0157] Yi [n] = Ci, 1X1 [n]+Ci,巧2 [n]+----hci'NXN[n]
[0158] 其中xjn]是输入声道并且CiJ是用于输出声道i和输入声道j的下混系数。
[0159] 每声道响度规格化
[0160] 利用每声道响度规格化的动态下混:
[0161] Yi^ [n] = di[n] ? yi[n]
[0162] 其中di[n]是依声道而定的增益,给出如下
[0163]
[0164] 并且LU)是诸如在BS. 1770中定义的响度估计函数。
[0165] 直观地,随时间变化的每声道增益可W被看作每个输入声道的累加响度(通过适 当的下混系数加权)与每个静态下混声道的响度之比。
[01W 总响度规格化
[0167]利用总响度规格化的动态下混:
[016引 yi"[n] = g[n] ? yi' [n]
[0169]其中g[n]是独立于声道的增益,给出如下
[0170]
[0171] 直观地,随时间变化的独立于声道的增益可W被看作输入声道的累加响度与下混 声道的累加响度之比。
[017。V.B.上混体系架构
[0173] 在图6中所示的基于多元组的矩阵上混系统600的示例性实施例中,系统600接受M 声道音频信号并输出N声道音频信号,其中M和N是整数并且N大于M。在一些实施例中,系统 600将W与如由下混器处理的原始声道布局相同的输出声道布局为目标。在一些实施例中, 上混处理在频域中执行,其中包括分析和合成滤波器组。在频域中执行上混处理允许对多 个频带进行单独处理。单独处理多个频带允许上混器处理其中不同频带从声场中不同位置 同时发出的情况。但是,应当注意,还有可能对宽带时域信号执行上混处理。
[0174] 在输入音频信号被转换为频域表示后,对剩余声道已经遵循本文先前描述的四元 组数学框架进行矩阵化的任何四元组声道集合执行空间分析。基于四元组空间分析,再次 遵循先前描述的四元组框架从四元组集合提取输出声道。提取的声道对应于在下混系统 500中被原始矩阵化到四元组集合上的剩余声道。然后,再次遵循先前描述的四元组框架, 四元组集合基于提取的声道被适当地重新平移。
[0175] 在已经执行四元组处理之后,下混声道被传递到=元组处理模块,在那里,对剩余 声道已经遵循本文先前描述的=元组数学框架进行矩阵化的任何=元组声道集合执行空 间分析。基于=元组空间分析,再次遵循先前描述的=元组框架从=元组集合提取输出声 道。提取的声道对应于在下混系统500中被原始矩阵化到=元组集合的剩余声道。然后,再 次遵循先前描述的=元组框架,=元组集合基于提取的声道被适当地重新平移。
[0176] 在已经执行=元组处理之后,下混声道被传递到按对处理模块,在那里,对剩余声 道已经遵循本文先前描述的按对数学框架进行矩阵化的任何=元组声道集合执行空间分 析。基于按对空间分析,再次遵循先前描述的按对框架从按对集合提取输出声道。提取的声 道对应于在下混系统500中被原始矩阵化到按对集合的剩余声道。然后,再次遵循先前描述 的按对框架,按对集合基于提取出的声道被适当地重新平移。
[0177] 在运个时候,N声道输出信号已经生成(在频域中)并且由所有从四元组、=元组和 按对集合提取的声道W及重新平移的下混声道组成。在将声道转换回时域之前,上混系统 600的一些实施例可W执行子带功率规格化,其被设计为将每个输出子带内的总功率规格 化到每个输入下混子带的总功率。每个输入下混子带的总功率可W被估计为:
[017 引
[0179] 其中Yi[m,k]是频域中的第i个输入下混声道,Pin[m,k]是子带总下混功率估计,m 是时间索引(有可能由于滤波器组结构而被抽取),并且k是子带索引。
[0180] 类似地,每个输出子带的总功率可W被估计为:
[0181]
[0182] 其中&[m,k]是频域中的第j个输出声道并且PDut[m,k]是子带总输出功率估计。
[0183] 现在输入和输出子带功率二者的估计都已经计算出,我们可W经由W下规格化等 式规格化输出音频信号W使得每个子带的输出信号的功率将大致等于每个子带的输入下 混信号的功莖?
[0184]
[0185] 在W上的等式中,可W观察到,子带功率规格化处理致使W每个子带的输入功率 与输出功率之比缩放所有输出声道。如果上混器不在频域中执行,则代替类似于在下混体 系架构中描述的子带功率规格化处理,可W执行响度规格化处理。
[0186] 一旦所有输出声道都已经被生成并且子带功率已被规格化,频域输出声道就被发 送到将频域声道转换回时域声道的合成滤波器组模块。
[0187] V.C.混合、平移和上混法则
[0188] 依赖于扬声器的配置,根据编解码器400和方法的实施例的实际矩阵下混和互补 上混是利用按对、=元组W及优选地还有四元组混合法则的组合来执行的。换句话说,如果 在记录/混合中,特定的扬声器通过下混要被消除或虚拟化,则确定位置是否是如下情况: a)在一对存留扬声器之间的线段上或其附近,b)在由3个存留声道/扬声器定义的=角形 内,或C)在由四个声道扬声器定义的四边形内,每个扬声器位于一个顶点处。
[0189] 例如,运最后一种情况对于矩阵化设置在顶点的高度声道是有利的。还应当注意, 在编解码器400和方法的其它实施例中,如果原始和下混声道布局的几何形状需要,则矩阵 化可W被扩展超出四元组声道集合,诸如扩展成五元组或六元组。
[0190] 在编解码器400和方法的一些实施例中,每个音频声道中的信号被过滤到多个子 带中,例如感知相关的频带,诸如"Bark带"。运可W有利地通过正交镜像滤波器的带或通过 多相滤波器来实现,随后可选地进行抽取W减少在每个子带中所需的样本数(在本领域中 已知)。在滤波后,应当在音频声道的每个禪合集合(对、=元组或四元组)中的每个感知显 著的子带中独立地执行矩阵下混分析。然后,子带的每个禪合集合优选地通过W下阐述的 等式和方法进行分析和处理W提供适当的下混,通过在解码器的每个子带声道集合中执行 互补的上混,可W从该适当的下混恢复原始的离散子带声道集合。
[0191] 根据编解码器400和方法的实施例,W下讨论阐述用于将N个声道下混(和互补的 上混)成M个声道(反之亦然)的优选方法,其中剩余声道当中每一个被混合到声道对(二元 组)、=元组或四元组。无论是在每个子带中还是在宽带信号声道中混合,相同的等式和原 理可适用。
[0192] 在解码器上混的情况下,操作的次序是重要的,因为,根据编解码器400和方法的 优选实施例,非常优选地首先处理四元组集合、然后=元组集合、然后声道对。运可W扩展 到有Y-多元组的情况W使得最大的多元组被首先处理,接下来是下一个最大的多元组,W 此类推。首先处理具有最大声道数的声道集合允许上混器分析最广泛和最普遍的声道关 系。通过在=元组或按对集合之前处理四元组集合,上混器可W准确地分析跨包括在四元 组集合中的所有声道共同的相关信号分量。在最广泛的声道关系经由四元组处理被分析和 处理之后,下一个最广泛的声道关系可W经由=元组处理被分析和处理。最有限的声道关 系(按对关系)被最后处理。如果S元组或按对集合碰巧在四元组集合之前被处理,则虽然 一些有意义的声道关系可W跨=元组或按对声道被观察到,但是那些观察到的声道关系将 只是实际声道关系的子集。
[0193] 作为示例,考虑一个场景,其中原始音频信号的给定声道(称其为声道A)被下混到 四元组集合上。在上混器处,四元组处理将能够跨四元组集合分析声道A的共同信号分量并 提取原始音频声道A的近似。任何后续的=元组或按对处理将如预期的那样被执行,并且没 有进一步的分析或提取将对声道A信号分量执行,因为它们已经被提取了。相反,如果=元 组处理在四元组处理之前被执行(并且=元组集合是四元组集合的子集),则=元组处理将 跨=元组集合分析声道A的共同信号分量并将音频信号提取到不同的输出声道(即,不是输 出声道A)。然后,如果四元组处理在=元组处理之后被执行,则原始音频声道A将不能够被 提取,因为仅声道A信号分量的一部分将仍然跨四元组声道集合存在(即,声道A信号分量的 一部分已经在=元组处理期间被提取)。
[0194] 如上面所解释的,首先处理四元组集合、接着处理=元组集合、接着最后处理按对 集合是优选的处理顺序。应当注意的是,虽然W上讨论处理按对(二元组)、=元组和四元组 集合,但是任何数量的集合都是可能的。对于按对集合,形成线,对于=元组集合,形成=角 形,并且对于四元组集合,形成正方形。但是,其它类型的多边形也是可能的。
[01巧]V.D.按对矩阵化例
[0196] 根据编解码器400和方法的实施例,当非存留(或剩余)声道的位置位于由两个存 留声道(或存留声道中对应的子带)的位置限定的二元组之间时,如下所述的,要被下混的 声道应当根据一组二元组(或按对)声道关系进行矩阵化。
[0197] 基于多元组的空间矩阵化编解码器400和方法的实施例计算左和右声道之间的声 道间水平差。运个计算在下面详细示出。而且,编解码器400和方法使用声道间水平差来计 算估计的平移角度。此外,声道间相位差由该方法利用左和右输入声道来计算。运个声道间 相位差确定左和右输入声道之间的相对相位差,该相对相位差指示双声道输入音频信号的 左和右f目号是同相还是异相。
[0198] 编解码器400和方法的一些实施例利用平移角度(0)来从双声道下混确定下混处 理和随后的上混处理。而且,一些实施例采用正弦/余弦平移法则。在运些情况下,双声道下 混是作为平移角度的函数来计算的:
[0199]
[0200]
[0201] 其中Xi是输入声道,L和R是下混声道,0是平移角度(在0和1之间规格化),并且平 移权重的极性由输入声道Xi的位置确定。在传统的矩阵化系统中,位于收听者前面的输入 声道利用同相信号分量被下混(换句话说,与平移权重具有相等的极性)并且位于收听者后 面的输出声道利用异相信号分量被下混(换句话说,与平移权重具有相反的极性)是很常见 的。
[0202] 图12示出了对于正弦/余弦平移法则作为平移角度(0)的函数的平移权重。第一曲 线图1200表示用于右声道的平移权重(Wr)。第二曲线图1210表示用于左声道的权重(Wl)。作 为示例并且参照图12,中屯、声道可W使用0.5的平移角度,从而得到下混函数:
[0203] 1 = 0.707 ? C
[0204] R = O.707 ? C
[0205] 为了从双声道下混合成附加的音频声道,平移角度的估计(或估计的平移角度,表 示为:|)可W从声道间水平差(表示为ICLD)来计算。令ICLD被定义为:
[0206]
[0207] 假设信号分量是利用正弦/余弦平移法则经由强度平移生成的,则KLD可W表示 为平移角原化计的巧#:
[020引
[0209] 然后,平移角度估计可W表示为ICLD的函数:
[0210]
[0211] 下列角度和与差恒等式将贯穿剩余的推导被使用:
[0212] sin(a ± 目)=Sin(Q)COS(目)±cos(a)sin(B)
[0213]
[0214] 而且,下面的推导假设5.1环绕声输出配置。但是,运种分析可W容易地应用到附 加的声道。
[0215] 中屯、声道合成
[0216] 中屯、声道是利用W下等式从双声道下混生成的:
[0217] C = aL+bR
[0218] 其中a和b系数是基于平移角度估计I确定的,W实现某些预定义的目标。
[0219] 同相分量
[0220] 对于中屯、声道的同相分量,期望的平移行为在图13中示出。图13示出了对应于由 下式给出的同相曲线图1300的平移行为:
[0221]

[0222] 代入用于同相分量的期望的中屯、声道平移行为和假设的正弦/余弦下混函数产 生:
[0223]
[0224] 利用角度和恒等式,反矩阵化系数,包括第一反矩阵化系数(表示为a)和第二反矩 阵化系擲(亲元责M .而献推导为:
[0225]
[0226] 帷7]异相分量
[0228] 对于中屯、声道的异相分量,期望的平移行为在图14中示出。图14示出了对应于由 下式给出的异相曲线图1400的平移行为:
[0229] C = O
[0230] 代入用于异相分量的期望的中屯、声道平移行为和假设的正弦/余弦下混函数得 出:
[0231]
[0232] 利用角度和恒等式,a和b系数可W被推导为:
[0233]
[0234]
[0端]环绕芦道合成
[0236] 环绕声道是利用W下等式从双声道下混生成的:
[0237] Ls = aL-bR
[0238] Rs = aR-bL
[0239] 其中Ls是左环绕声道并且Rs是右环绕声道。
[0240] 而且,a和b系数是基于估计的平移角度參确定的,W实现某些预先定义的目标。
[0241] 同相分量
[0242] 用于左环绕声道的同相分量的理想平移行为在图15中示出。图15示出了对应于由 下式给出的同相曲线图1500的平移行为:
[0243] Ls = O
[0244] 代入用于同相分量的期望的左环绕声道平移行为和假设的正弦/余弦下混函数得 出:
[0245]
[0246] 利用角度和恒等式,a和b系数可W被推导为:
[0247;
[0248;
[0249] 异相分量
[0250] 对用于异相分量的左环绕声道的目标是实现如由图16中的异相曲线图1600所示 的平移行为。图16示出了对应于下混等式的两个特定角度,其中左环绕和右环绕声道被离 散地编码和解码(运些角度在图16中的异相曲线图1600上大约为0.25和0.75(对应于45°和 135°))。运些角度被称为:
[0巧1] 0LS =左环绕编码角度(约0.25)
[0巧2] 0RS =右环绕编码角度(约0.75)
[0253]由于期望的输出的分段行为,用于左环绕声道的a和b系数经由分段函数生成。对 于心用于左环绕声道的期望平移行为对应于: 9
[0 巧 4]
[0255] 代入用于异相分量的期望左环绕声道平移行为和假设的正弦/余弦下混函数得 出:
[0 巧 6]
[0257]利用角度和恒等式,a和b系数可W被推导为:
[0巧引
[0 巧9]
[0260] 左环绕声道的期望平移行为对应于:
[0261]
[0262]代入用于异相分量的期望的左环绕声道平移行为和假设的正弦/余弦下混函数得 出:
[0%3:
[0264]利用角度和恒等式,a和b系数可W被推导为:
[02 化]
[0%6]
[0267] 对于用于左环绕声道的期望平移行为对应于:
[0% 引 Ls = O
[0269] 代入用于异相分量的期望的左环绕声道平移行为和假设的正弦/余弦下混函数得 出:
[0270]
[0271] 利用角度和恒等式,a和b系数可W被推导为:
[0272]
[0273]
[0274] 用于右环绕声道生成的a和b系数与如上所述的用于左环绕声道生成的那些类似 地计算。
[0275] 修改的左声道和修改的右声道合成
[0276] 左声道和右声道利用W下等式被修改W去除(或者全部或者部分)在中屯、和环绕 声道中生成的那些分量:
[0277] 1/ =aL-bR
[027引 R/ =aR-bL
[0279] 其中a和b系数是基于平移角度估计确定的,W实现某些预定义的目标,并且L ' 是修改的左声道并且R'是修改的右声道。
[0280] 同相分量
[0281] 用于同相分量的修改的左声道的目标是实现如由图17中的同相曲线图1700所示 的平移行为。在图17中,0.5的平移角度0对应于离散的中屯、声道。由于期望的输出的分段行 为,用于修改的左声道的a和b系数经由分段函数生成。
[0282] 对于用于修改的左声道的期望平移行为对应于:
[0283]

[0284] 代入用于同相分量的期望的修改的左声道平移行为和假设的正弦/余弦下混函数 得出:
[0285]
[0286] 利用角度和恒等式,a和b系数可W被推导为:
[0287]
[028引
[0289] 对于用于修改的左声道的期望平移行为对应于:
[0290] L' =0
[0291] 代入用于同相分量的期望的修改的左声道平移行为和假设的正弦/余弦下混函数 得出:
[0292]
[0293] 利用角度和恒等式,a和b系数可W被推导为:
[0294]
[0295]
[0巧6] 异相分量
[0297] 用于异相分量的修改的左声道的目标是实现如由图18中的异相曲线图1800所示 的平移行为。在图18中,平移角度0 = 0LS对应于用于左环绕声道的编码角度。由于期望的输 出的分段行为,用于修改的左声道的a和b系数经由分段函数生成。
[0298] 对于>用于修改的左声道的期望平移行为对应于:
[0299]

[0302] 利用角度和恒等式,a和b系数可W被推导为:
[0300] 代入用于异相分量的期望的修改的左声道平移行为和假设的正弦/余弦下混函数 得出:
[0301]
[0303]
[0304]
[03化]对于S心用于于修改的左声道的期望平移行为对应于:
[0306] L' =0。
O[0309] 肃I巧角原巧巧等式,a和b系数可W被推导为:
[0307] 代入用于异相分量的期望的修改的左声道平移行为和假设的正弦/余弦下混函数 得出:
[030引
[0310]
[0311]
[0312] 用于修改的右声道生成的a和b系数与如上所述的用于修改的左声道生成的那些 类似地计算。
[0313] 系数插值
[0314] 上面给出的声道合成推导是基于对同相或者异相的源内容实现期望的平移行为。 源内容的相对相位差可W通过被定义为
:的声道间相位差 (ICPD)特性来确定,其中*表示复共辆。
[0315] ICPD值在范围[-1,1]中被界定,其中值-1指示分量是异相的并且值1指示分量是 同相的。然后,ICTO特性可被用来确定最终的a和b系数,W便在利用线性插值的声道合成等 式中使用。但是,代替直接插值a和b系数,应当注意的是,所有的a和b系数是利用平移角度 估计I的S角函数生成的。
[0316] 因此线性插值是对=角函数的角度自变量执行的。W运种方式执行线性插值有两 个主要优点。首先,它对任何平移角度和ICPD值保留了 a2+b2 = l特性。其次,它减少了所需的 S角函数的调用的次数从而减少了处理要求。
[0317] 巧度捕估伸巧规格化到范围[0,1 ]的修改的ICro值,其被计算为:
[031 引
[0319] 中屯、输出声道
[0320] 中屯、输出声道是利用修改的ICro值生成的,该中屯、输出声道被定义为:
[0321] C = aL+bR
[0322] 其中
[0323] a = sin(ICPD' ? a+(I-ICPD' )? 0)
[0324] b = cos(ICPD' ? a+(l-ICPD' ) ? 0)。
[0325] W上正弦函数的自变量的第一项表示第一反矩阵化系数的同相分量,而第二项表 示异相分量。因此,a表示同相系数并且e表示异相系数。同相系数和异相系数一起被称为相 位系数。
[0326] 对于每个输出声道,编解码器400和方法的实施例基于估计的平移角度计算相位 系数。对于中屯、输出声道,同相系数和异相系数如下给出:
[0327]
[032引
[0:3例左环绕输出声道
[0330] 左环绕输出声道是利用修改的ICTO值生成的,其被定义为:
[0331] Ls = aL-bR
[0332] 其中
[0333] a = sin(ICPD' ? a+(I-ICPD' )? 0)
[0334] b = cos(ICPD' ? a+(l-ICPD' ) ? (6)
[03对并且
[0336]
[0337]
[0338] 注意,一些S角恒等式和相位缠绕(wrapping)特性被应用W便将a和e系数简化成 上面给出的等式。
[0扣9] 右环绕输出声道
[0340] 右环绕输出声道是利用修改的ICTO值生成的,其被定义为:
[0341] Rs = aR-bL [0;342]其中
[0;343] a = sin(ICPD' ? a+(I-ICPD' )? 0)
[0344] b = cos(ICPD' ? a+(l-ICPD' ) ? (6)
[0345] 并日
[0;346]
[0;347]
[0348] 应当,除了代替I.利用0.…??)作为平移角度,类似于左环绕声道地生成用于右环 绕声道的a和e系数。
[0349] 修改的左输出声道
[0350] 修改的左输出声道是利用修改的ICro值如下生成的:
[0;351] =aL-bR
[0352] 其中
[0;353] a = sin(ICPD' ?日+(I-ICPD' )? 0)
[0;354] b = cos( ICPD' ? a+( I-ICPD' )? 0)
[0355] 并日
[0356]
[0357]
[0娜]修改的右输出声道
[0359] 修改的右输出声道是利用修改的ICTO值如下生成的:
[0360] R' =aR-bL
[0361] 其中
[0362] a = sin(ICPD' ? a+(I-ICPD' )? 0)
[0363] b = cos(ICPD' ? a+(l-ICPD' ) ? (6)
[0364] 並曰
[03 化]
[0366]
[0367] 注意,除了代替款利用知…#)作为平移角度,类似于左声道地生成用于右声道的a 和e系数。
[0368] 上面讨论的主题是用于从双声道下混生成中屯、、左环绕、右环绕、左和右声道的系 统。但是,通过定义附加的平移行为,该系统可W容易地被修改为生成其它附加的音频声 道。
[03~]V.E.立元组矩阵化例
[0370]根据编解码器400和方法的实施例,当非存留(或剩余)声道的位置位于由S个存 留声道(或存留声道中对应的子带)的位置限定的=角形内时,如下所述的,要被下混的声 道应当根据一组=元组声道关系来矩阵化。
[0巧1] 下混例
[0372] 非存留声道被下混到构成=角形的=个存留声道上。在数学上,信号S被幅度平移 到声道S元组C1/C2/C3上。图19是示出信号源S平移到声道S元组上的图。参照图19,对于位 于声道Cl和C2之间的信号源S,假设声道C1/C2/C3是根据下列信号模型生成的:
[0373]
[0374]
[0375]
[0376] 其中r是信号源离原点的距离(规格化到范围[0,1])并且0是信号源在声道Cl和C2 之间的角度(规格化到范围[0,1 ])。注意,W上用于声道C1/C2/C3的声道平移权重被设计为 保持当其平移到C1/C2/C3上时的信号S的功率。
[0;377] 上混例
[0378] 当上混S元组时,目标是通过从输入的S元组C1/C2/C3创建四个输出声道ClVCsV C3VC4来获得被下混到=元组上的非存留声道。图20是示出已被平移到=元组上的非存留 第四声道的提取的图。参照图20,第四输出声道C4的位置被假设为在原点,而其它=个输出 声道(VAVAV的位置被假设为与输入声道C1/C2/C袖同。基于多元组的空间矩阵化解码 器420的实施例生成四个输出声道W使得原始信号分量S的空间位置和信号能量被保留。
[0379] 声源S的原始位置不被发送到基于多元组的空间矩阵化解码器420的实施例,并且 它只能从输入声道C1/C2/C3自己估计。解码器420的实施例能够适当地生成用于S的任意位 置的四个输出声道。对于本节的剩余部分,可W假设原始信号分量S具有单位能量(即,Is =1) W简化推导而不失一般性。
[0380] 从声道能量推导^和j;估计
[0381] 令
[0382]
[0383]
[0384] 声道能量比
[0385] W下的能量比将贯穿本节的剩余部分被使用:
[0386]
[0387] 运S个能量比在范围[0,I ]中并且总和为I。
[03则 C4声道合成
[0389] 输出声道C4将经由下面的等式生成:
[0390] C4=aCi+bC2+cC3
[0391] 其中a、b和C系数将基于估计的角度I和半径f来确定。
[0392] 目梳是;
[0393]
[0394]
[0395]
[0396]
[0397]
[039引
[0399]
[0400]
[0401]
[0402]
[0403]
[0404]
[0405]
[0406] 此外,最终的a、b和C系数可W被简化为仅由声道能量比组成的表达式:
[0407]
[040引
[0409]
[0410] Cl VC2声道合成
[0411] 输出声道(VAVAV将从输入声道C1/C2/C3生成W使得已经在输出声道C冲生成 的信号分量从输入声道C1/C2/C3中被适当地"去除'。
[04。] (V声道合成
[0413] 令
[0414] C/ =aCi-bC2-cC3 [041引目标是:
[0422] W上代入得出:
[0416]
[0417]
[0418]
[0419]
[0420]
[0421]
[042;
[042^
[0426] 最终的a、b和C系数可W被简化为仅由声道能量比组成的表达式:
[042t
[0437] 令b =化'并且c = dc',其中:
[0427]
[0428]
[0429]
[0430]
[0431]
[0432]
[0433]
[0434]
[0435]
[0436]
[0438]
[0439]
[0440]
[0441]
[0442]
[0443]
[0444] 最终的a、b和C系数可W被简化为仅由声道能量比组成的表达式:
[0445]
[0446]
[0447]
[044引
[0449]
[0450]
[0451]
[0452]
[0453] 令a系数等于:
[0454]
[0462] 最终的a、b和C系数可W被简化为仅由声道能量比组成的表达式:
[0455]
[0456]
[0457]
[045引
[0459]
[0460]
[0461]
[0463]
[0464]
[04 化]
[0466] 立元组声道间相位差(ICPD)
[0467] 可W从底层的(underlying)按对ICPD值计算S元组的声道间相位差(ICPD)空间 特性:
[0468]
[0469] 其中底层按对ICTO值是利用下面的等式计算的:
[0470]
[0471]注意,=元组信号模型假设声源已被幅度平移到=元组声道上,运意味着=个声 道完全相关。S元组ICPD测量可被用来估计S个声道的总相关性。当S元组声道完全相关 (或接近完全相关)时,=元组框架可W被用来生成具有高度可预测结果的四个输出声道。 当=元组声道不相关时,可能期望使用不同的框架或方法,因为不相关的=元组声道违反 假设的信号模型,运可能导致不可预测的结果。 陶]V.F.四元组矩阵化例
[0473] 根据编解码器400和方法的实施例,当某些对称条件占优势(prevail)时,剩余声 道(或声道子带)可W有利地被认为位于四边形内。在运种情况下,编解码器400和方法的实 施例包括根据W下描述的四元组例关系集合的下混(和互补的上混)。
[0474] 下混例
[0475] 非存留声道被下混到构成四边形的四个存留声道上。在数学上,信号源S被幅度平 移到声道四元组C1/C2/C3/C4上。图21是示出信号源S平移到声道四元组上的图。参照图21, 对于位于声道Cl和C2之间的信号源S,假设声道C1/C2/C3/C4是根据下列信号模型生成的:
[0476]
[0477]
[0478]
[0479]
[0480] 其中r是信号源离原点的距离(规格化到范围[0,1])并且0是信号源在声道Cl和C2 之间的角度(规格化到范围[0,1 ])。注意,W上用于声道C1/C2/C3/C4的声道平移权重被设计 为当其平移到C1/C2/C3/C4上时保留信号S的功率。
[0481 ] 上混例
[048^ 当上混四元组时,目标是通过从输入四元组01八2八3八4创建五个输出声道山/ C2VC3VC4VC5来获得被下混到四元组上的非存留声道。图22是示出已被平移到四元组上 的非存留第五声道的提取的图。参照图22,第五输出声道Cs的位置被假设为在原点,而其它 四个输出声道C1VC2VC3VC4/的位置被假设为与输入声道C1/C2/C3/C4相同。基于多元组的 空间矩阵化解码器420的实施例生成五个输出声道W使得原始信号分量S的空间位置和信 号能量被保留。
[0483] 声源S的原始位置不被发送到解码器420的实施例,并且只能从输入声道C1/C2/C3/ C4自己估计。解码器420的实施例必须能够对于S的任何任意位置适当地生成五个输出声 道。
[0484] 对于本节的剩余部分,可W假设原始信号分量S具有单位能量(换句话说,Isl =1) W简化推导而不失一般性。解码器首先从声道能量Ci2/C22/C32/C4 2推导巧Pi:
[0485:
[0486] 注意,在上述等式中使用C3和C4声道的最小能量(换句话说,min(C32,C42似处理当 输入四元组C1/C2/C3/C4打破先前识别出的信号模型假设的情况。信号模型假设C3和C4的能 量水平将彼此相等。但是,如果对任意输入信号情况不是运样并且C3和C4不相等,则可能期 望跨输出声道Cl VC2VC3VC4 VCs限制输入信号的重新平移。运可W通过合成最小输出声道 Cs并尽可能类似于其对应的输入声道C1/C2/C3/C4地保留输出声道C/AVAV/C/来实现。 在本节中,对C3和C4声道最小功能的使用尝试实现运个目标。
[0487] 声道能量比
[0488] 下而的能音比将贯穿本节的剩余部分使用:
[0489]
[0490] 运四个能量比在范围[0,1 ]中并且总和为1。
[0491 ] Cs声道合成
[0492] 输出声道Cs将通过下面的等式来生成:
[0493] C5 = aCi+bC2+cC3+dC4
[0494] 其中a、b、c和d系数将基于估计的角度I郝半径f来确定。
[04巧]目标:
[0496]
[0497]
[0498]
[0499]
[0如0]
[0如4] 求解e产生;
[0如 1 ]
[0如 2]
[0如 3]
[0如5]
[0如6] 巧沁。K。新rl完撒县.
[0如 7;
[0如 8;
[0如9;
[0510;
[0511] 此外,最终的a、b、c和d系数可W被简化为仅由声道能量比组成的表达式:
[0512] a=2]i 迎 in(]i3,li4)
[0513] b =化2min(]i3,li4)
[0514] c = 2min(]i3,ii 皿 in(]i3,ii4)
[0515] d = 2min(]i3,li4)min(ii3,ii4)
[化W 打VC2VC3VC/声道合成
[0517] 输出声道C1VC2VC3VC/将从输入声道C1/C2/C3/C4生成W使得已经在输出声道Cs 中生成的信号分量将从输入声道C1/C2/C3/C4被适当地"去除'。
[051引(V声道合成 [0519] C/ =aCi-bC2-cC3-dC4
[0520]目标;
[化3日]求解e产生;
[化 21]
[0522]
[0523]
[0524]
[0525]
[0526]
[0527]
[052引
[0529]
[0531]
[0532] 最终的a、b、c和d系数可W被简化为仅由声道能量比组成的表达式:
[0533]
[0534]
[0535]
[0536]
[0537]
[053引
[0539]
[0540]
[0541]
[0542]
[0543]
[0544]
[0545]
[0546]
[0547]
[054引
[0549]
[0550]
[0551] 最终的a、b、c和d系数可W被简化为仅由声道能量比组成的表达式:
[0552]
[0553]
[0554]
[0555]
[0就]C3^声道合成
[0 巧 7] C3' =aC3-bC 广 cC2-dC4
[0巧引 目标;
[0559]
[化 60]
[0570]最终的a、b、c和d系数可W被简化为仅由声道能量比组成的表达式:
[0561]
[0562]
[0563]
[化 64]
[化化]
[0566]
[0567]
[056引 [化 69]
[0571]
[0572]
[0573]
[0574]
[化巧]C/声道合成
[0576] C4' =aC 广 bC 广 cC2-dC3
[0577] 日标,
[057引
[0579]
[化 80]
[0581]
[0582]
[0583]
[化 84]
[化85] W上代入得出:
[0586]
[0587]
[化8引
[0589] 最终的a、b、c和d系数可W被简化为仅由声道能量比组成的表达式:
[0590]
[0591]
[0592]
[0593]
[化94] 四元组声道间相位差(ICPD)
[05M]可W从底层按对ICro值计算四元组的声道间相位差(ICPD)空间特性:
[0596]
[0597] 其中底层按对ICTO值利用下面的等式计算:
[059引
[0599]注意,四元组信号模型假设声源已被幅度平移到四元组声道上,运意味着四个声 道完全相关。四元组ICPD测量可W被用来估计四个声道的总相关性。当四元组声道完全相 关(或接近完全相关)时,四元组框架可W被用来生成具有高度可预测结果的五个输出声 道。当四元组声道不相关时,可能期望使用不同的框架或方法,因为不相关的四元组声道违 反了假设的信号模型,运可能导致不可预测的结果。
[0600] V.G.扩展的呈现
[0601] 编解码器400和方法的实施例利用基于矢量的幅度平移(VBAP)技术的新颖扩展来 经扬声器阵列呈现音频对象波形。传统的VBAP技术利用在单位球体上任意数量的任意放置 的卿趴创建=维声场。单位球体上的半球在收听者上方创建圆顶。利用VBAP,可被创建的最 可定位的声音来自构成某个=角形布置的最多3个声道。如果碰巧声音来自位于两个扬声 器之间的线上的点,则VBAP将只使用那两个扬声器。如果假定声音是来自扬声器所在的位 置,贝VBAP将只使用一个扬声器。所Wvbap使用最多3个扬声器和最少1个扬声器来再现声 音。回放环境可能具有3个W上的扬声器,但VBAP技术仅利用那些扬声器当中的3个再现声 音。
[0602] 由编解码器400和方法的实施例使用的扩展呈现技术将离开单位球体的音频对象 呈现到该单位球体内的任意点。例如,假设利用=个扬声器创建=角形。通过扩展在沿一条 线的点定位源的传统VBAP方法并且将那些方法扩展到使用=个扬声器,源可W位于由那= 个扬声器构成的=角形内的任意地方。呈现引擎的目标是找到增益阵列,该增益阵列在沿 着由该几何形状创建的3D矢量的正确位置创建声音,同时到相邻的扬声器的泄漏量最小。
[0603] 图23是回放环境485和扩展的呈现技术的图示。收听者100位于单位球体2300内。 应当注意的是,虽然只示出了单位球体2300的一半(半球),但是扩展的呈现技术支持整个 单位球体2300上和其中的呈现。图23还示出了所使用的球体坐标系x-y-z,包括径向距离r、 方位角q和极角j。
[0604] 多元组和球体应当覆盖位流中所有波形的位置。如果需要,则运个想法可W扩展 到四个或更多个扬声器,从而创建在其中工作的矩形或其它多边形,W准确地实现在单位 球体2300的半球上的空间中的正确位置。
[0605] DTS-UHD呈现引擎执行点的3D平移并且将源扩展到任意卿趴布局。点源听起来就 好像是来自空间中一个特定的点,而扩展源是具有"宽度"和/或"高度"的声音。对源的空间 扩展的支持是通过覆盖扩展声音的区域的虚拟源的建模贡献来完成的。
[0606] 图24示出了利用扩展的呈现技术在单位球体2300上和其中的音频源的呈现。音频 源可W位于运个单位球体2300上或其中的任意地方。例如,通过使用扩展的呈现技术,第一 音频源可W位于单位球体2400上,而第二音频源2410和第=音频源可W位于单位球体内。
[0607] 扩展的呈现技术呈现围绕收听者100的单位球体2300上的点或扩展源。但是,对于 在单位球体2300内部的点源,源必须从单位球体2300移开。扩展的呈现技术使用=种方法 将对象移开单位球体2300。
[060引第一,一旦波形利用VBAP(或类似)的技术被定位在单元球体2300上,其关于定位 在单位球体2300的中屯、处的源交叉衰落(cross-fade), W便沿半径r拉入声音。系统中的所 有扬声器都被用来执行交叉衰落。
[0609] 第二,对于升高的源,声音在垂直平面中被扩展W便给予收听者100其正在移近的 印象。只使用垂直延伸声音所需的扬声器。第=,对于在可W或可W不具有零升高的水平面 中的源,声音被再次水平扩展W给出它正在向收听者100移近的印象。唯一活动的扬声器是 进行扩展所需的那些扬声器。
[0610] V.H.存留声道的示例性选择
[0611] 给出输入布局的类别,存留声道的选择的个数(M) W及下述规则W唯一的方式指 定每个非存留声道的矩阵化,而不管实际的输入布局如何。图22-图25是规定用于输入布局 中在存留布局中不存在的任何扬声器的矩阵多元组的查找表。
[0612] 注意,W下规则适用于图25-图28。输入布局被分成5类:
[0613] 1.没有高度声道的布局;
[0614] 2.只在前面具有高度声道的布局;
[0615] 3.具有包围高度声道的布局(两个高度扬声器之间的间隔不>180°);
[0616] 4.具有包围高度声道和头顶声道的布局;
[0617] 5.具有包围高度声道、头顶声道和收听者平面之下的声道的布局。
[0618] 此外,每个非存留声道在一对存留声道之间被按对矩阵化。在一些场景中,=元 组、四元组或更大的存留声道组可被用于矩阵化单个非存留声道。而且,在任何可能的时 候,一对存留声道被用于矩阵化一个且只有一个非存留声道。
[0619] 如果高度声道在输入声道布局中存在,则至少一个高度声道将在存留声道之间存 在。在任何适当的时候,每个卿趴环中应当使用至少3个包围存留声道(适用于收听者平面 环和升高的平面环)。
[0620] 当不需要对象包含或嵌入式下混时,存在所提出的方法的优化的其它可能性。首 先,非存留声道(在运种场景中,其中N-M个将被称为"准存留声道")可W利用非常有限的带 宽进行编码(比如,Fc = 3曲Z)。其次,高于Fc的"准存留声道"中的内容应当被矩阵化到选择 的存留声道上。第=,"准存留的声道"的低频带和存留声道的所有频带被编码并打包到流 中。
[0621] 上述优化允许对空间准确性的最小影响,同时仍然显著较小位速率。为了管理解 码器MIPS,需要对用于反矩阵化的时间-频率表示进行仔细选择W使得解码器子带样本可 被插入到反矩阵合成滤波器组中。另一方面,由于反矩阵化低于Fc不适用,因此用于反矩阵 化的所需频率分辨率的放松是可能的。
[06。] V.I.更多信息
[0623] 在上面的讨论中,应当认识到,"重新平移"是指上混操作,通过该操作超过下混声 道(N〉M)的离散声道编号从每个声道集合中的下混恢复。优选地,运针对每个集合在多个感 知临界子带的每一个中执行。
[0624] 应当认识到的是,当声道几何形状被唱片艺术家或工程师假设时(显式地或经由 软件或硬件隐式地)W及当另外地几何形状和假设的声道配置和下混参数通过相同的方式 被传送到解码器/接收器时,根据运种方法的最佳或接近最佳结果将得到最佳近似。换句话 说,如果原始记录使用22声道离散混合,基于根据上述矩阵化方法被下混到7.1声道下混的 某种麦克风/扬声器几何形状,则运些假设应当通过某些方式被传送到接收器/解码器W允 许互补的上混。
[0625] -种方法将是在文件头中传送假设的原始几何形状和下混配置(22,在配置中具 有高度声道X--下混到常规布置中的7.1)。运要求仅最小量的数据带宽和不经常的实时更 新。例如,参数可W被多路复用到现有音频格式中的保留字段。其它方法是可用的,包括云 存储、网站访问、用户输入,等等。
[06%]在编解码器400和方法的一些实施例中,上混系统600(或解码器)意识到原始音频 信号和声道减少的音频信号二者的混合系数和声道布局。声道布局和混合系数的知识允许 上混系统600准确地将声道减少的音频信号解码回原始音频信号的适当近似。没有声道布 局和混合系数的知识,上混器将无法确定目标输出声道布局或生成原始音频声道的适当近 似所需的正确解码器功能。
[0627] 作为示例,原始音频信号可W包括对应于W下声道位置的15个声道:1)中屯、,2)左 前,3)右前,4)左侧环绕,5)右侧环绕,6)左后环绕,7)右后环绕,8)中屯、向左,9)中屯、向右, 10)中屯、局,11)左局,12)右局,13)中屯、局后,14)左后局,和15)右后局。由于带宽限制(或一 些其它动机),可能期望将运个高声道计数的音频信号减小成包括8个声道的声道减少的音 频信号。
[0628] 下混系统500可被配置成将原始的15个声道编码为包括W下声道位置的8声道音 频f目号:1)中屯、,2)左前,3)右前,4)左环绕,5)右环绕,6)左局,7)右局,和8)中屯、局后。下混 系统500还可被配置成在下混原始的15声道音频信号时使用W下混合系数:
[0629]
[0630] 其中最上面的行对应于原始声道,最左边的列对应于下混合声道,并且数字系数 对应于每个原始声道有助于每个下混声道的混合权重。
[0631] 对于W上示例场景,为了让上混系统600最佳地或者接近最佳地解码来自声道减 少的信号的原始音频信号的近似,上混系统600可W具有原始和下混声道布局的知识(即, 分别为 C、化、。3、1^55、1?55、1^51?、1?51?、1^〇(:、1?〇(:、邸、^、畑、(:皿、1皿、畑1?和(:、化^1?、1^5、1?5、1山 RH、CHR)和在下混过程中使用的混合系数(即,上述混合系数矩阵)。利用运种信息的知识, 上混系统600可W利用W上阐述的矩阵化/反矩阵化数学框架准确地确定每个输出声道所 需要的解码功能,因为它完全意识到所使用的实际下混配置。例如,上混系统600将知道从 下混的LS和RS声道解码输出LSRS声道,并且它还将知道LS和RS声道之间将暗示离散LSR声 道输出的相对声道水平(即,分别0.924和0.383)。
[0632] 如果上混系统600无法获得关于原始和声道减少的音频信号的混合系数的信息W 及相关声道布局,例如,如果数据声道不可用于从下混系统500向上混器发送运种信息或者 如果接收到的音频信号是其中运种信息不确定或未知的传统或非下混信号,则它仍然有可 能通过使用试探法选择用于上混系统600的合适的解码功能来执行满意的上混。在运些"盲 上混"情况下,有可能使用声道减少的布局和目标上混布局的几何形状来确定合适的解码 功能。
[0633] 作为示例,用于给定输出声道的解码功能可W通过比较输出声道相对于一对输入 声道之间的最近线段的位置来确定。例如,如果给定的输出声道直接位于一对输入声道之 间,则可W确定将来自那对的等强度共同信号分量提取到输出声道中。同样,如果给定的输 出声道位于更靠近其中一个输入声道,则解码功能可W结合运种几何形状并且为较近声道 给予更大强度。作为替代,有可能使用关于音频信号的记录、混合或生产技术的假设来确定 合适的解码功能。例如,作出关于某些声道之间的关系的假设可能是合适的,诸如假设高度 声道部件可W诸如在电影中的"天桥"效果期间跨7.1音频信号的前和后声道对(即,kLsr 和R-Rsr)被平移。
[0634] 还应当认识到,在下混系统500和上混系统600中使用的音频声道不一定符合预期 用于特定扬声器位置的实际扬声器馈送信号。编解码器400和方法的实施例也适用于所谓 的"对象音频"格式,其中音频对象对应于独立存储并伴随诸如空间位置、增益、均衡、混响、 扩散等等的元数据信息发送的区别声音信号。通常,对象音频格式将包括需要同时从编码 器发送到解码器的许多同步的音频对象。
[0635] 在数据带宽有限的场景中,由于需要单独地编码每个区别音频对象波形,因此众 多同时音频对象的存在会造成问题。在运种情况下,编解码器400和方法的实施例可适用于 减少需要被编码的音频目标波形的数目。例如,如果在基于对象的信号中存在N个音频对 象,则编解码器400和方法的实施例的下混过程可被用来将对象的数量减少至M,其中N大于 M。然后,压缩方案可W编码那M个对象,从而需要比原始N个对象将会需要的数据带宽更小 的数据带宽。
[0636] 在解码器侧,上混处理可被用来恢复原始N个音频对象的近似。然后,呈现系统可 W利用伴随的元数据信息将那些音频对象呈现成基于声道的音频信号,在基于声道的音频 信号中每个声道对应于实际回放环境中的扬声器位置。例如,常见的呈现方法是基于矢量 的幅度平移或VBAP。
[0637] VI.替代实施例和示例性操作环境
[0638] 与本文所述的那些不同的许多其它变体根据本文档将是清楚的。例如,依赖于实 施例,本文所述的任何方法和算法的某些动作、事件或功能可W W不同的顺序来执行,可W 被添加、合并或完全漏掉(诸如,不是所有描述的动作或事件对于方法和算法的实践都是必 须的)。而且,在某些实施例中,动作或事件可W同时执行,诸如通过多线程处理、中断处理 来执行或者通过多个处理器或处理器核屯、或者在其它并行体系架构上,而不是顺序地执 行。此外,不同的任务或过程可W由可W-起发挥作用的不同机器和计算系统来执行。
[0639] 结合本文公开的实施例描述的各种说明性逻辑块、模块、方法和算法过程和序列 可被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的运种可互 换性,各种说明性部件、块、模块和过程操作已经在上面就其功能性一般地进行了描述。运 种功能被实现为硬件还是软件依赖于强加到整个系统上的特定应用和设计限制。所描述的 功能可W对每个特定的应用W不同的方式来实现,但是运种实现决定不应当被解释为造成 从本文档的范围的背离。
[0640] 联系本文公开的实施例描述的各种说明性逻辑块和模块可W由机器实现或执行, 诸如通用处理器、处理设备、具有一个或多个处理设备的计算设备、数字信号处理器(DSP)、 专用集成电路(ASIC)、现场可编程口阵列(FPGA)或其它可编程逻辑器件、离散口或晶体管 逻辑、离散硬件部件或者被设计为执行本文描述的功能的其任意组合。通用处理器和处理 设备可W是微处理器,但在备选方案中,处理器可W是控制器、微控制器或状态机、它们的 组合,等等。处理器也可W被实现为诸如DSP和微处理器的组合之类的计算设备的组合、多 个微处理器、与DSP核屯、结合的一个或多个微处理器或者任何其它此类配置。
[0641] 本文描述的基于多元组的空间矩阵化编解码器400和方法的实施例可在多种类型 的通用或专用计算系统环境或配置中进行操作。一般而言,计算环境可W包括任何类型的 计算机系统,包括但不限于基于一个或多个微处理器的计算机系统、大型计算机、数字信号 处理器、便携式计算设备、个人组织器、设备控制器、器具中的计算引擎、移动电话、台式计 算机、移动计算机、平板计算机、智能电话W及具有嵌入式计算机的器具,运仅仅是举了几 例。
[0642] 运种计算设备通常可W在具有至少某个最小计算能力的设备中找到,包括但不限 于个人计算机、服务器计算机、手持式计算设备、膝上型或移动计算机、诸如手机和PDA的通 信设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型 计算机、大型计算机、音频或视频媒体播放器,等等。在一些实施例中,计算设备将包括一个 或多个处理器。每个处理器可W是专用微处理器,诸如数字信号处理器(DSP)、非常长指令 字(VLIW)或其它微控制器,或者可W是具有一个或多个处理核屯、的常规中央处理单元 (CPU),包括多核CPU中基于专用图形处理单元(GPU)的核屯、。
[0643] 联系本文公开的实施例描述的方法、过程或算法的处理动作可W直接体现在硬件 中、在由处理器执行的软件模块中,或者在运两者的任意组合中。软件模块可W包含在能够 由计算设备访问的计算机可读介质中。计算机可读介质既包括易失性又包括非易失性介 质,或者是可移动的、或者是不可移动的,或者是其某种组合。计算机可读介质被用来存储 信息,诸如计算机可读或计算机可执行指令、数据结构、程序模块或其它数据。作为示例而 非限制,计算机可读介质可W包括计算机存储介质和通信介质。
[0644] 计算机存储介质包括,但不限于,计算机或机器可读介质或存储设备,诸如蓝光盘 (BD)、数字多功能盘(DVD)、压缩盘(CD)、软盘,带式驱动器、硬驱、光驱、固态存储器设备、 RAM存储器、ROM存储器、EPROM存储器、EEPROM存储器、闪速存储器或其它存储器技术、磁带 盒、磁带、磁盘存储或其它磁存储设备,或者可被用来存储期望的信息并可被一个或多个计 算设备访问的任何其它设备。
[0645] 软件模块可W驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存 储器、寄存器、硬盘、可移动盘、CD-ROM,或任何其它形式的非临时性计算机可读存储介质、 媒体,或本领域中已知的物理计算机储存器。示例性存储介质可W禪合到处理器,使得处理 器可W从存储介质读取信息,并将信息写入到其中。在备选方案中,存储介质可W是处理器 的组成部分。处理器和存储介质可W驻留在专用集成电路(ASIC)中。ASIC可W驻留在用户 终端中。作为替代,处理器和存储介质可W作为离散元件驻留在用户终端中。
[0646] 如在本文档中所使用的,短语"非临时性"是指"持久或长寿的"。短语"非临时性计 算机可读介质"包括任何和所有计算机可读介质,具有过渡性传播信号的唯一例外。作为示 例而非限制,运包括非临时性计算机可读介质,诸如寄存器存储器、处理器高速缓存和随机 存取存储器(RAM)。
[0647] 诸如计算机可读或计算机可执行指令、数据结构、程序模块等等信息的保持也可 W通过使用多种通信介质来编码一个或多个调制的数据信号、电磁波(诸如载波波)或其它 传输机制或通信协议,并且包括任何有线或无线信息输送机制。一般而言,运些通信介质指 的是其一个或多个特征W运样一种方式被设置或改变的信号,使得在信号中编码信息或指 令。例如,通信介质包括有线介质,诸如有线网络或携带一个或多个调制的数据信号的直接 连线连接,W及无线介质,诸如声学、射频(RF)、红外线、激光,W及用于发送、接收,或两者 一个或多个调制的数据信号或电磁波的其它无线介质。W上所述的任意组合也应当包括在 通信介质的范围内。
[0648] 另外,体现本文描述的基于多元组的空间矩阵化编解码器400和方法的各种实施 例的一个或任意组合,或者其部分,可W从计算机或机器可读介质或存储设备W及形式为 计算机可执行指令或其它数据结构的通信介质的任何期望的组合存储、接收、发送或读取。
[0649] 本文描述的基于多元组的空间矩阵化编解码器400和方法的实施例可W在由计算 设备执行的计算机可执行指令,诸如程序模块,的一般上下文中进一步描述。一般而言,程 序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、部件、数据结构,等 等。本文描述的实施例还可W在其中任务由一个或多个远程处理设备执行的分布式计算环 境中,或者在通过一个或多个通信网络链接的一个或多个设备的云,当中实践。在分布式计 算环境中,程序模块可W位于包括介质存储设备的本地和远程计算机存储介质中。更进一 步,上述指令可W部分或全部地被实现为硬件逻辑电路,其可W或可W不包括处理器。
[0650] 除非另有说明或者如所使用的W其它方式在上下文中被理解,否则本文所使用的 条件性语言,诸如除其它之外还有"能够"、"可能"、"可、"例如"等,一般意在传达某些实 施例包括,而其它实施例不包括,某些特征、元件和/或状态。因此,运种条件语言一般不意 在暗示特征、元件和/或状态W任何方式是一个或多个实施例所需的或者一个或多个实施 例必需包括用于在有或没有作者输入或提示的情况下决定运些特征、元件和/或状态包括 在或者要在任何特定实施例中执行的逻辑。术语"包括"、"具有"等是同义的并且W开放的 方式被包含性地使用,并且不排除附加的元件、特征、动作、操作,等等。而且,术语"或者"是 在其包含的意义上(而不是在其排他的意义上)使用的,使得在用于,例如,连接元件的列表 时,术语"或"是指列表中的一个、一些或所有元素。
[0651] 虽然W上详细描述已经示出、描述并指出了如应用到各种实施例的新颖特征,但 是应当理解,在不背离本公开内容的精神的情况下,可W进行所示出的设备或算法的形式 和细节的各种省略、替换和变化。如将认识到的,本文描述的本发明的某些实施例可W在不 提供本文阐述的所述特征和优点的形式中体现,因为一些特征可W与其它特征分开使用或 实践。
[0652]而且,虽然本主题已经在特定于结构特征和方法动作的语言中进行了描述,但是 应当理解,在所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体 特征和动作是作为实现权利要求书的示例形式被公开的。
【主权项】
1. 一种由一个或多个处理设备执行的用于发送具有N个声道的输入音频信号的方法, 包括: 基于期望的位速率选择用于下混的输出音频信号的Μ个声道,其中N和Μ是非零正整数 并且Ν大于Μ; 利用一个或多个处理设备W及多元组平移法则的组合将Ν个声道下混并编码成Μ个声 道W获得包含Μ个多元组编码的声道的脉码调制PCM声床混合; W等于或低于期望的位速率的位速率发送PCM声床混合; 分离多个Μ个多元组编码的声道; 利用一个或多个处理设备W及多元组平移法则的组合上混并解码Μ个多元组编码的声 道中的每一个W从Μ个多元组编码的声道提取Ν个声道并获得具有Ν个声道的结果输出音频 信号;W及 在具有回放声道布局的回放环境中呈现结果输出音频信号。2. 如权利要求1所述的方法,其中下混和编码进一步包括使用四元组平移法则将Ν个声 道中的一个下混并编码到Μ个声道中的四个上W获得四元组编码的声道。3. 如权利要求1所述的方法,其中下混和编码进一步包括使用四元组平移法则将Ν个声 道中的一个下混和编码到Μ个声道中的四个上W获得四元组编码的声道,结合使用Ξ元组 平移法则将Ν个声道中的一个下混并编码到Μ个声道中的Ξ个上W获得Ξ元组编码的声道。4. 如权利要求3所述的方法,其中在四元组编码的声道中使用的四个Μ个声道中的至少 一些与在Ξ元组编码的声道中使用的Ξ个Μ个声道相同。5. 如权利要求1所述的方法,还包括: 在具有内容创建环境声道布局的内容创建环境中混合音频内容;W及 将内容创建环境声道布局和包含Μ个多元组编码的声道的PCM声床混合多路复用到位 流中并且W等于或低于期望的位速率的位速率发送该位流。6. 如权利要求1所述的方法,还包括: 分类输入音频信号的Ν个声道的内容创建环境声道布局W获得用于内容创建环境声道 布局的分类;W及 基于分类和查找表将提取出的多元组编码的声道映射到回放声道布局。7. 如权利要求6所述的方法,还包括将内容创建环境声道布局分类成W下五类中的一 个或多个:(a)没有高度声道的布局;(b)仅在前面具有高度声道的布局;(C)具有包围高度 声道的布局;(d)具有包围高度声道和头顶声道的布局;(e)具有包围高度声道、头顶声道和 收听者耳朵的平面之下的声道的布局。8. 如权利要求1所述的方法,还包括利用W下特性选择M,其中,MinBR_Mtrx是矩阵化的声道编码所需的每声道的最小位速率,BR_Tot是总的可 用位速率,并且MinBR_Discr是离散声道编码所需的每声道的最小位速率。9. 如权利要求1所述的方法,还包括W输入响度与输出响度之比来缩放Μ个声道中的每 一个W实现响度规格化。10. 如权利要求9所述的方法,其中响度规格化是每声道响度规格化,并且还包括: 将给定的输出声道定义为yi[n]; 将每声道响度规格化定义为 ji [n]=di[n] · yi[n] 其中di[n]是依声道而定的增益,给出如下并且LU)是响度估计函数。11. 如权利要求10所述的方法,其中响度规格化也是总响度规格化,并且还包括: 将总响度规格化定义为: yi"[n]=g[n] · yi' [η] 其中g[n]是独立于声道的增益,给出如下12. -种由计算设备执行的用于矩阵下混具有N个声道的音频信号的方法,包括: 选择N个声道中哪些是存留声道W及哪些是非存留声道W使得存留声道总共是Μ个声 道,其中Ν和Μ是非零正整数并且Ν大于Μ; 利用计算设备和多元组平移法则将非存留声道中的每个下混到存留声道的多元组上 W获得平移权重,下混进一步包括: 利用二元组平移法则将一些非存留声道下混到存留声道二元组上; 利用Ξ元组平移法则将一些非存留声道下混到存留声道Ξ元组上; 利用四元组平移法则将一些非存留声道下混到存留声道四元组上;及 将存留声道二元组、Ξ元组和四元组编码并多路复用到具有Μ个声道的位流中并且发 送该位流W供在回放环境中呈现。13. 如权利要求12所述的方法,其中四元组平移权重是基于W下项生成的:(a)信号源S 距离回放环境中的原点的距离r;和(b)信号源S在存留声道四元组中的第一声道和第二声 道之间的角度9。14. 如权利要求13所述的方法,还包括利用W下等式生成用于存留声道四元组Ci,C2,C3 和C4的平移权重:15. -种由计算设备执行的用于矩阵上混具有Μ个声道的音频信号的方法,包括: 将Μ个声道分离成二元组声道、Ξ元组声道和四元组声道; 利用计算设备和四元组平移法则从四元组声道提取第一声道; 在提取第一声道之后,利用Ξ元组平移法则从Ξ元组声道提取第二声道; 在提取第二声道之后,利用二元组平移法则从二元组声道提取第Ξ声道; 将第一声道、第二声道、第Ξ声道和Μ个声道多路复用到一起W获得具有Ν个声道的输 出信号;W及 在回放环境中呈现输出信号。16. 如权利要求15所述的方法,其中提取第一声道进一步包括获得第一声道作为四元 组声道的四个声道的和,每个声道由系数加权。17. 如权利要求16所述的方法,还包括利用W下等式获得第一声道C5, C己=aCi+bC2+cC3+dC4 其中a、b、c和d系数由W下等式给出,其中!是C5在Cl和C2之间的估计角度,并且f是C5距离回放环境中的原点的距离。18. 如权利要求15所述的方法,还包括: 定义回放环境中收听者周围的假想单位球体,其中收听者处于该单位球体的中屯、; 在该单位球体上定义假想的球面坐标系,包括半径距离r、方位角q和极角j; W及 将第一声道重新平移到该单位球体内的位置。19. 如权利要求18所述的方法,还包括: 利用呈现技术在单位球体上定位第一声道;W及 利用回放环境中的所有扬声器关于位于单位球体中屯、的源使第一声道交叉衰落W便 沿着径向距离r拉入第一声道。20. 如权利要求15所述的方法,还包括从音频信号中提取阐述被用来混合在音频信号 中编码的音频内容的扬声器布局的内容创建环境扬声器布局。
【文档编号】H04S3/02GK105981411SQ201480072584
【公开日】2016年9月28日
【申请日】2014年11月26日
【发明人】J·汤普森, Z·菲左
【申请人】Dts(英属维尔京群岛)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1