用于设计和应用数值优化的双耳房间脉冲响应的方法和系统的制作方法

文档序号:10541185阅读:348来源:国知局
用于设计和应用数值优化的双耳房间脉冲响应的方法和系统的制作方法
【专利摘要】用于设计用于在耳机虚拟器中使用的双耳房间脉冲响应(BRIR)的方法和系统、以及用于响应于多声道音频信号的一组声道产生双耳信号(包括通过将BRIR应用于该组的每个声道),由此产生滤波信号,并且组合滤波信号以产生双耳信号的方法和系统,其中,每个BRIR已根据设计方法的实施例被设计。其它方面是被配置为执行本发明方法的任何实施例的音频处理单元。根据一些实施例,BRIR设计被归结为基于仿真模型(其产生候选BRIR)和至少一个目标函数(其评估每个候选BRIR)的数值优化问题,并且包括识别候选BRIR中由通过每个目标函数对于候选BRIR确定的性能度量所指示的最佳的一个。
【专利说明】
用于设计和应用数值优化的双耳房间脉冲响应的方法和系统
[0001] 相关申请的交叉引用
[0002] 本申请要求2014年1月3日提交的美国临时专利申请No. 61 /923,582的优先权,该 申请的全部内容特此通过引用并入。
技术领域
[0003] 本发明涉及用于通过将双耳房间脉冲响应(BRIR)应用于输入信号的一组声道的 每一个声道(例如,应用于所有声道)来响应于多声道音频输入信号产生双耳音频信号的方 法(有时被称为耳机虚拟化方法)和系统、以及用于设计用于在这样的方法和系统中使用的 BRIR的方法和系统。
【背景技术】
[0004] 耳机虚拟化(或双耳植染(render))是旨在使用标准立体声耳机递送(deliver)环 绕声体验或沉浸式声场的技术。
[0005] 用于响应于多声道音频输入信号(或者响应于这样的信号的一组声道)产生双耳 信号的方法在本文中有时被称为"耳机虚拟化"方法,并且被配置为执行这样的方法的系统 在本文中有时被称为"耳机虚拟器"(或"耳机虚拟化系统"或"双耳虚拟器")。
[0006] 最近,使用耳机享用音乐、电影和游戏的人的数量已急剧增长。便携式设备提供对 在电影院和家庭影院中体验娱乐的方便且流行的替代方案,并且耳机(包括耳塞)是主要收 听手段。不幸的是,传统的耳机收听通常仅提供相对于由其它传统的呈现系统提供的音频 体验来说有限的音频体验。该限制可以归因于自然发生的声场与由耳机生成的声场之间的 显著声学路径差。原始立体声素材或多声道音频下混的形式的音频内容在以传统的方式通 过耳机呈现时本质上被感知为显著椭圆的(发出的声音被感知为从"在头中"的位置发出并 且发出到耳朵的直接左侧和右侧)。大多数收听者几乎没有前后深度的感觉,更不用说高 度。另一方面,对通过喇叭的传统呈现的收听在几乎所有情况下都被感知为"在头外"(很好 地外部化)。
[0007] 耳机虚拟器的主要目标是对由耳机递送的立体声和多声道音频节目创建自然空 间的感觉。理想地,通过耳机生成的声场是足够真实的且令人信服的以致于耳机用户将会 完全丧失他们正在佩戴耳机的意识。空间的感觉可以通过将适当设计的双耳房间脉冲响应 (BRIR)与节目中的每个音频声道或对象进行卷积而创建。该处理可以被内容创建者应用或 者被消费者回放设备应用。BRIR通常表示从给定房间中的喇叭到耳道入口的电声系统的脉 冲响应。
[0008] 早期的耳机虚拟器应用头部相关传递函数(HRTF)来在双耳渲染中传达空间信息。 HRTF是表征声音如何在消声环境中从空间中的特定点(声源位置)传输到收听者的两耳的 方向和距离相关的滤波器对。必要的空间线索(cue)(诸如由于肩部和耳廓反射而导致的谱 峰(peak)和谱谷(notch)、耳间时间差(ITD)、耳间声级(level)差(ILD)、以及头部遮蔽效 应)可以在渲染的HRTF滤波的双耳内容中被感知到。由于人头部大小的约束,HRTF没有提供 足够的或鲁棒的关于超过大致一米的源距离的线索。作为结果,仅仅基于HRTF的虚拟器通 常没有实现良好的外部化或感知距离。
[0009]我们日常生活中的大多数声学事件发生在混响环境中,在混响环境中,除了由 HRTF建模的直接路径(从源到耳朵)之外,音频信号还通过各种反射路径到达收听者的耳 朵。反射对听觉感知(诸如距离、房间大小以及空间的其它属性)引入了深刻的影响。为了在 双耳渲染中传达该信息,除了直接路径HRTF中的线索之外,虚拟器还需要应用房间混响。双 耳房间脉冲响应(BRIR)表征从空间中的特定点到特定的声学环境中的收听者的耳朵的音 频信号的变换。理论上,从房间响应测量导出的BRIR包括关于空间感知的所有声学线索。 [00 10]图1是系统(20)的框图,该系统(20)包括被配置为将双耳房间脉冲响应(BRIR)应 用于多声道音频输入信号的每个全频率范围声道(心、……、Xn)的类型的耳机虚拟化系统。 耳机虚拟化系统(有时被称为虚拟器)可以被配置为将常规确定的双耳房间脉冲响应BRIRi 应用于每个声道
[0011] 声道Χι、......、Xn(其可以是静止扬声器声道或移动对象声道)中的每一个对应于相 对于假定收听者的特定的源方向(方位角(azimuth)和仰角(elevation))及距离(即,从对 应扬声器的假定位置到假定收听者位置的直接路径的方向以及沿着假定收听者位置与扬 声器位置之间的直接路径的距离),并且每个这样的声道被用针对对应的源方向和距离的 BRIR进行卷积。因此,子系统2被配置为将声道乂1与81?11?1(针对对应的源方向和距离的BRIR) 进行卷积,子系统4被配置为将声道Xn与BRIR N(针对对应的源方向的BRIR)进行卷积,依此类 推。每个BRIR子系统(子系统2、......、4中的每一个)的输出是包括左声道和右声道的时域双 耳音频信号。
[0012] 多声道音频输入信号还可以包括低频效果(LFE)或超低音声道,该声道在图1中被 标识为"LFE"声道。以常规的方式,LFE声道不与BRIR进行卷积,而是相反在图1的增益级5中 被衰减(例如,衰减_3dB或更多),并且增益级5的输出被(元件6和8)均等地混合到虚拟器的 双耳输出信号的声道的每一个中。为了使级5的输出与BRIR子系统(2、……、4)的输出时间 对齐,在LFE路径中可能需要附加的延迟级。可替代地,LFE声道可以简单地被忽略(即,不被 声称(assert)到虚拟器或者不被虚拟器处理)。许多消费者耳机不能够精确地再现LFE声 道。
[0013] BRIR子系统的左声道输出在相加(addition)元件6中被(与级5的输出)混合,而 BRIR子系统的右声道输出在相加元件8中被(与级5的输出)混合。元件6的输出是从虚拟器 输出的双耳音频信号的左声道L,而元件8的输出是从虚拟器输出的双耳音频信号的右声道 R〇
[0014] 系统20可以是解码器,该解码器被耦合以接收编码音频节目并且包括子系统(图1 中未示出),该子系统被耦合和配置为包括通过从该节目恢复N个全频率范围声道 (X"……、Xn)和LFE声道来对节目进行解码并且将它们提供给虚拟器(其包括如所示那样耦 合的元件2、……、4、5、6和8)的元件2、……、4和5。解码器可以包括附加的子系统,该附加的 子系统中的一些执行与由虚拟化系统执行的虚拟化功能不相关的功能,并且该附加的子系 统中的一些可以执行与虚拟化功能相关的功能。例如,后面的功能可以包括从编码节目提 取元数据并且将该元数据提供给虚拟化控制子系统,该虚拟化控制子系统利用该元数据来 控制虚拟器系统的元件。
[0015] 在一些常规的虚拟器中,输入信号经历时域到频域变换而变换到QMF(正交镜像滤 波器)域中,以产生QMF域频率分量的声道。这些频率分量在QMF域中经历滤波(例如,在图1 的子系统2、……、4的QMF域实现中),并且所得到的频率分量通常然后被变换回到时域中 (例如,在图1的子系统2、……、4中的每一个的最后一级中),使得虚拟器的音频输出是时域 信号(例如,时域双耳音频信号)。
[0016] -般来说,输入到耳机虚拟器的多声道音频信号的每个全频率范围声道被假定为 指示从相对于收听者的耳朵的已知位置处的声源发出的音频内容。耳机虚拟器被配置为将 双耳房间脉冲响应(BRIR)应用于输入信号的每个这样的声道。
[0017] BRIR可以被分成三个重叠区域。发明人称为直接响应的第一区域表示从消声空间 中的点到耳道的入口的脉冲响应。通常为5ms持续时间或更少的这个响应更常见地被称为 头部相关传递函数(HRTF)。称为早期反射的第二区域包含来自最靠近声源和收听者的对象 (例如,地板、房间墙壁、家具)的声音反射。称之为后期响应的最后区域由具有不同强度且 来自各种方向的更高阶反射的混合组成。这个区域通常由随机性参数(诸如由于其复杂结 构而导致的能量-衰减时间(T60 )、峰值密度、以及模态密度)描述。
[0018] 早期反射通常是一次或二次反射,并且具有相对稀疏的时间分布。每个一次或二 次反射的微观结构(例如,ITD和ILD)是重要的。对于较后期反射(在入射在收听者处之前从 多于两个的表面反射的声音),回声密度随着反射的次数增加而增大,并且单个反射的微观 属性变得难以观察。对于越来越晚的反射,宏观结构(例如,总体混响的谱分布、混响衰减 率、以及耳间相干性)变得更重要。
[0019] 人类听觉系统已演变到对在所有三个区域中传达的感知线索进行响应。第一区域 (直接响应)主要确定声源的感知方向。这个现象被称为第一波前定律。第二区域(早期反 射)对源的感知方向具有适度的效果,但是对源的感知音色和距离具有更强的影响。第三区 域(后期响应)影响源所在的感知环境。由于这个原因,需要仔细研究所有三个区域对BRIR 性能的影响以实现最优的虚拟器设计。
[0020] BRIR设计的一种方法是从物理的房间和头部测量或者房间和头部模型仿真导出 将被虚拟器应用的每个BRIR的全部或部分。通常,具有非常期望的声学性质的房间或房间 模型是以耳机虚拟器重复实际房间的引人注目的收听体验为目的选择的。在房间模型精确 地体现选择的收听房间的声学特性的假设下,该方法生成内在地应用对空间音频感知必要 的听觉线索的虚拟器BRIR。本领域中众所周知的这样的线索包括耳间时间差、耳间声级差、 耳间相干性、混响时间(作为频率的函数的T60)、直接与混响比、特定的谱峰和谱谷以及回 声密度。在理想的BRIR测量和耳机收听条件下,基于物理房间BRIR的多声道音频文件的双 耳渲染可听起来与同一个房间中的喇叭呈现几乎不可区分。
[0021] 然而,BRIR设计的常规方法的缺点是,使用常规设计的BRIR(其已被设计为匹配实 际房间BRIR)生成的双耳渲染当在不一致的收听环境(与测量房间不一致的环境)中被试听 时可能听起来有音染(colored)、混浊、并且没有很好地外部化。这个现象的根本原因仍是 正在进行的研究领域,并且涉及听觉和视觉感官输入两者。然而,明显的是,被设计为匹配 物理房间BRIR的BRIR可以将信号修改为被以期望的和不期望的两种方式渲染。甚至是顶级 质量的收听房间也对渲染的输出信号给予谱音染和时间拖尾。作为一个示例,来自一些收 听房间的声学反射本质上是低通的。这导致渲染的输出信号中的低频谱谷(谱梳理 (combing))。尽管已知低频谱谷帮助人类定位声源,但是在耳机收听场景下,由于添加了谱 音染,它们一般是不期望的。在使用远离收听者定位的喇叭的实际收听场景下,人类听觉/ 认知系统能够适应其环境使得这些损伤可以不被察觉。然而,当收听者在不一致的收听环 境中接收到通过耳机呈现的相同的声学信号时,这样的损伤变得更明显,并且相对于常规 的立体声节目降低了自然度(naturalness) 〇
[0022] BRIR设计中的其它考虑包括对BRIR大小和长度的任何适用的约束。典型的BRIR的 有效长度在大多数声学环境中扩展到数百毫秒或更长。BRIR的直接应用可能需要与数千个 抽头的滤波器进行卷积,这在计算上是昂贵的。在没有参数化的情况下,可能需要大的存储 器空间来存储针对不同源位置的BRIR以便实现足够的空间分辨率。
[0023] 具有被称为反馈延迟网络(FDN)的众所周知的滤波器结构的滤波器可以被用于实 现空间混响器,该空间混响器被配置为将仿真的混响(即,BRIR的后期响应部分)应用于多 声道音频输入信号的每个声道,或者将整个BRIR(BRIR的早期和后期部分)应用于每个这样 的声道。FDN的结构是简单的。它包括若干分支(有时被称为混响箱(tank))。每个混响箱(例 如,在图3的FDN中,包括增益元件 81和延迟线z_nl的混响箱)具有延迟和增益。在Π )Ν的典型 实现中,来自所有混响箱的输出通过酉(unitary)反馈矩阵混合,并且该矩阵的输出被反馈 到混响箱,并且与混响箱的输入进行求和。可以对混响箱输出进行增益调整,并且混响箱输 出(或者它们的增益调整后的版本)可以被适当地再混合以用于双耳回放。自然发声的混响 可以由Π )Ν以紧凑的计算和存储器占用来产生和应用。FDN因此已在虚拟器中被使用,以应 用BRIR或者补充由HRTF应用的直接响应。
[0024] 将参照图2来描述利用反馈延迟网络(FDN)以将BRIR应用于输入信号声道的BRIR 系统(例如,图1的虚拟器的子系统2、……、4中的一个的实现)的示例。图2的BRIR系统包括 如所示那样耦合的分析滤波器组202、一组Π )Ν(Π)Ν 203、204、……和205)以及合成滤波器 组207。分析滤波器组202被配置为将变换应用于输入声道XiW将其音频内容分离成"Κ"个 频带,其中,K是整数。每个不同的频带中的滤波器组域值(从滤波器组202输出)被声称到 FDN203、204、……、205中的不同的一个(这些FDN存在"K"个),这些FDN被耦合和配置为将 BRIR应用于被声称到其的滤波器组域值。
[0025] 在图2中所示的系统的变型中,FDN 203、204、……、205中的每一个被耦合和配置 为将BRIR的后期混响部分(或早期反射和后期混响部分)应用于被声称到其的滤波器组域 值,并且另一个子系统(图2中未示出)将BRIR的直接响应和早期反射部分(或直接响应部 分)应用于输入声道Xi。
[0026] 再次参照图2,Π)Ν 203、204、……、和205中的每一个在滤波器组域中被实现,并且 被耦合和配置为对从分析滤波器组202输出的值的不同频带进行处理,以对每个带产生左 声道滤波信号和右声道滤波信号。对于每个带,左滤波信号是滤波器组域值的序列,并且右 滤波信号是滤波器组域值的另一个序列。合成滤波器组207被耦合和配置为将频域到时域 变换应用于从Π )Ν输出的滤波器组域值(例如,QMF域频率分量)的2Κ个序列,并且将变换的 值组装到左声道时域信号(其指示已应用BRIR的左声道音频)和右声道时域信号(其指示已 应用BRIR的右声道音频)。
[0027] 在典型的实现中,FDN 203、204、……、和205中的每一个在QMF域中被实现,并且滤 波器组202将输入声道201变换到QMF域(例如,混合复正交镜像滤波器(HCQMF)域)中,使得 从滤波器组202声称到Π)Ν 203、204、……、和205中的每一个的输入的信号是QMF域频率分 量的序列。在这样的实现中,从滤波器组202声称到Π)Ν 203的信号是第一频带中的QMF域频 率分量的序列,从滤波器组202声称到Π)Ν 204的信号是第二频带中的QMF域频率分量的序 列,并且从滤波器组202声称到Π)Ν 205的信号是第"Κ"频带中的QMF域频率分量的序列。当 分析滤波器组202被如此实现时,合成滤波器组207被配置为将QMF域到时域变换应用于从 FDN输出的QMF域频率分量的2Κ个序列,以产生输出到元件210的左声道和右声道后期混响 的时域信号。
[0028]图3的反馈延迟网络是图2的Π)Ν 203(或204或205)的示例性实现。尽管图3系统具 有其四个混响箱(每个包括增益级gl和耦合到增益级的输出的延迟线ζ-11)变型,但是该系 统(以及本发明的虚拟器的实施例中利用的其它FDN)实现多于或少于四个混响箱。
[0029]图3的Π)Ν包括输入增益元件300、耦合到元件300的输出的全通滤波器(APF)301、 耦合到APF 301的输出的相加元件302、303、304和305、以及四个混响箱(每个包括增益元件 gk(元件306中的一个)、親合到其的延迟线(元件307中的一个)、以及親合到其的增益元 件Ι/gk(元件309中的一个),其中,0 < k-Ι < 3),每个混响箱耦合到元件302、303、304和305 中的不同的一个的输出。酉矩阵308耦合到延迟线307的输出,并且被配置为将反馈输出声 称到元件302、303、304和305中的每一个的第二输出。(第一混响箱和第二混响箱的)增益元 件309中的两个的输出被声称到相加元件310的输入,并且元件310的输出被声称到输出混 合矩阵312的一个输入。(第三混响箱和第四混响箱的)增益元件309中的其它两个的输出被 声称到相加元件311的输入,并且元件311的输出被声称到输出混合矩阵312的另一输入。
[0030] 元件302被配置为将矩阵308的与延迟线z_nl对应的输出相加(即,经由矩阵308将 来自延迟线z_ nl的输出的反馈应用)到第一混响箱的输入。元件303被配置为将矩阵308的与 延迟线厂"2对应的输出相加(即,经由矩阵308将来自延迟线厂" 2的输出的反馈应用)到第二 混响箱的输入。元件304被配置为将矩阵308的与延迟线厂n3对应的输出相加(即,经由矩阵 308将来自延迟线厂" 3的输出的反馈应用)到第三混响箱的输入。元件305被配置为将矩阵 308的与延迟线z_n4对应的输出相加(即,经由矩阵308将来自延迟线z_ n4的输出的反馈应用) 到第四混响箱的输入。
[0031] 图3的FDN的输入增益元件300被耦合以接收从图3的分析滤波器组202输出的变换 信号的一个频带(滤波器组域信号)。输入增益元件300将增益(缩放)因子G in应用于被声称 到其的滤波器组域信号。用于所有频带的缩放因子Gin(由图3的所有的Π)Ν 203、204、……、 205实现)共同地控制谱成形和水平。
[0032]在图3的FDN的典型QMF域实现中,从全通滤波器(APF)301的输出声称到混响箱的 输入的信号是QMF域频率分量的序列。为了产生更自然发声的Π )Ν输出,APF 301被应用于增 益元件300的输出以引入相位分集(diversity)和增大的回声密度。可替代地或另外地,一 个或多个全通延迟滤波器可以被应用于图3中描绘的混响箱前馈或反馈路径中(例如,除了 或者代替每个混响箱中的延迟线f ;或者FDN的输出(即,输出矩阵312的输出))。
[0033] 在实现混响箱延迟厂ni中,混响延迟m应当是互质数以避免混响模式在相同的频 率一致。延迟的和应当大到足以提供足够的模态密度以便避免人造发声输出。但是最短的 延迟应当短到足以避免BRIR的后期混响和其它分量之间的过大时间间隙。
[0034] 通常,混响箱输出初始被平移(pan)到左或右双耳声道。通常,被平移到两个双耳 声道的多组混响箱输出在数量上是相等的并且是互相排斥的。平衡两个双耳声道的定时也 是期望的。所以如果具有最短延迟的混响箱输出进入一个双耳声道,则具有第二最短延迟 的混响箱输出将进入另一个声道。
[0035]混响箱延迟可以跨频带不同,以便根据频率改变模态密度。一般来说,较低的频带 需要较高的模态密度,因此较长的混响箱延迟。
[0036]混响箱增益gi的幅度和混响箱延迟联合地确定图3的FDN的混响衰减时间:
[0037] T6〇 = -3m/logio( | gi | )/Ffrm
[0038] 其中,Ffrm是(图3的)滤波器组202的帧率。混响箱增益的相位引入分数延迟以克服 与被量化到滤波器组的下采样因子网格(grid)的混响箱延迟相关的问题。
[0039]酉反馈矩阵308提供反馈路径中的混响箱之间的均匀混合。
[0040]为了均衡混响箱输出的水平,增益元件309将规范化增益1/| gl|应用于每个混响 箱的输出,以在保留由它们的相位引入的分数延迟的同时移除混响箱增益的水平影响。 [0041 ]输出混合矩阵312 (也被标识为矩阵Μ。#)是2 X 2矩阵,其被配置为对来自初始平移 的未被混合的双耳声道(分别地,元件310和311的输出)进行混合以实现具有期望的耳间相 干性的输出左双耳声道和右双耳声道(在矩阵312的输出处声称的L信号和R信号)。未被混 合的双耳声道在初始平移之后接近于不相关,因为它们不由任何共同的混响箱输出组成。 如果期望的耳间相干性为Coh,其中|Coh|< 1,则输出混合矩阵312可以被定义为:
[0042]
[0043] 因为混响箱延迟是不同的,所以未被混合的双耳声道中的一个将恒定地领先于另 一个。如果混响箱延迟和平移模式的组合跨频带相同,则将导致声像偏置。如果平移模式跨 频带交替使得混合的双耳声道在交替的频带中互相领先(lead)和落后(trail),则这个偏 置可以被减轻。这可以通过以下来实现:即,将输出混合矩阵312实现为在奇数频带中(即, 在第一频带(其由图3的FDN 203处理)、第三频带等中)具有如前一段中所阐述的形式,并且 在偶数频带中(即,在第二频带(其由图3的FDN 204处理)、第四频带等中)具有以下形式:
[0044]
[0045] 其中,β的定义保持相同。应当注意,矩阵312可以被实现为在Π )Ν中对于所有频带 是相同的,但是其输入的声道次序可以对于这些频带中的交替频带切换(例如,在奇频带 中,元件310的输出可以被声称到矩阵312的第一输入并且元件311的输出可以被声称到矩 阵312的第二输入,在偶频带中,元件311的输出可以被声称到矩阵312的第一输入并且元件 310的输出可以被声称到矩阵312的第二输入。
[0046] 在频带(部分)重叠的情况下,矩阵312的形式在其上交替的频率范围的宽度可以 增大(例如,它可以对于每两个或三个连续的带交替一次),或者以上表达式(对于矩阵312 的形式)中的邱勺值可以被调整以确保平均相干性等于期望值以补偿连续频带的谱重叠。 [0047]发明人已认识到,设计(向输入信号声道)应用通过耳机实现自然发声且很好地外 部化的音频所必需的最少处理的BRIR将是期望的。在本发明的典型实施例中,这通过设计 同化不仅对空间感知重要、而且还对保持渲染的信号的自然度重要的双耳线索的BRIR来实 现。改进空间感知、但是仅以音频失真为代价的双耳线索被避免。被避免的许多线索是我们 的物理环境对由我们的耳朵接收的声音所具有的声学影响的直接结果。因此,本发明的 BRIR设计方法的典型实施例融合了导致虚拟器性能得益的房间特征,并且避免引起不可接 受的质量损伤的那些房间特征。简而言之,不是根据房间设计虚拟器BRIR,典型的实施例而 是设计感知优化的BRIR,该感知优化的BRIR继而定义简约的虚拟房间。虚拟房间选择性地 融合物理空间的声学性质,但是不受实际房间的约束的束缚。

【发明内容】

[0048] 在一类实施例中,本发明是用于设计用于在耳机虚拟器中使用的双耳房间脉冲响 应(BRIR)的方法。根据该方法,BRIR设计被归结为基于仿真模型(其产生候选BRIR,优选地 根据感知线索和感知有益的声学约束)和至少一个目标函数(其评估候选BRIR中的每一个, 优选地根据感知标准)的数值优化问题,并且包括识别候选BRIR(由通过每个目标函数对候 选BRIR确定的性能度量指示)中的最佳(例如,最优)的一个的步骤。通常,根据该方法设计 的每个BRIR( 即,被确定为若干个候选BRIR中最佳的一个的每个候选BRIR)对于多声道音频 信号的扬声器声道和/或对象声道的虚拟化是有用的。通常,该方法包括产生指示每个设计 的BRIR的至少一个信号(例如,指示指示每个设计的BRIR的数据的信号)的步骤,并且可选 地还包括将至少一个所述信号递送到耳机虚拟器或者将耳机虚拟器配置为应用至少一个 设计的BRIR的步骤。
[0049] 在典型的实施例中,仿真模型是随机性房间/头部模型。在数值优化(以选择一组 候选BRIR中的最佳的一个)期间,随机性模型产生候选BRIR中的每一个,使得每个候选BRIR (在被应用于输入音频以产生预期被感知为从具有相对于预期收听者的预定方向和距离的 源发出的滤波音频时)在最小化引起音染和时间拖尾伪像的房间效果的同时内在地应用对 于预期的空间音频感知必要的听觉线索("空间音频感知线索")。通常,根据每个目标函数 来数值评估每个候选BRIR与预定的"目标" BRIR之间的相似程度。可替代地,根据每个目标 函数来以其它方式评估每个候选BRIR(例如,以确定候选BRIR的至少一个性质和至少一个 目标性质之间的相似程度)。在一些情况下,被识别为"最佳"候选BRIR的候选BRIR表示虚拟 房间的响应,该虚拟房间不容易物理可实现(例如,不可物理实现或者不容易物理可实现的 简约的虚拟房间),但可以被应用以产生传达通过耳机递送自然发声且很好地外部化的多 声道音频所必需的听觉线索的双耳音频信号。
[0050] 在真实(物理)房间中,早期反射和后期混响遵循几何结构和物理定律。例如,由房 间导致的早期反射取决于房间的几何结构、源的位置以及收听者(两个耳朵)的位置。确定 早期反射的水平、延迟和方向的常见方法是使用像源方法(参看Allen,J.B.和Berkley, D.A.(1979),"Image method for efficiently simulating small-room acoustics", J · Acoust · Soc · Am· 65(4),pp · 943-950)。后期混响(例如,混响能量和衰减时间)主要取决于 房间体积以及来自房间中的墙壁、地板、天花板和物体的声学吸收(参看Sabine,W.C. (1922) "Collected Papers on Acoustics",Harvard University Press,USA) 〇在"虚拟" 房间(就该短语在本文中被使用的意义而言)中,我们可以具有拥有不受物理约束的性质 (延迟、方向、水平、衰减时间)的早期反射和后期混响。
[0051 ]对于虚拟房间的感知激发(motivate)的早期反射的示例在本文中被阐述。通过主 观收听评价,我们可以确定早期反射延迟、方向、谱形状以及水平(其对于给定方向和距离 处的音频源使空间音频质量最大化)。随机性处理进一步优化早期反射与后期响应联合的 性质,并且考虑直接响应的影响。从候选BRIR(例如,通过优化确定的最优的候选BRIR)中的 早期反射,我们可以逆向操作以导出虚拟房间中对于给定声源递送对应水平的空间音频质 量所需的反射表面的位置和声学性质。当我们对各种声源方向和距离重复该处理时,我们 发现导出的反射表面对于每个声源方向和距离是唯一的。每个声源在它自己的虚拟房间中 被呈现,与其它声源无关。在物理房间里,每个反射表面以至少很小的方式对每一个声源位 置的BRIR做出贡献,早期反射的性质不取决于HRTF,也不取决于后期响应,并且早期反射受 几何结构和物理定律的约束。
[0052]在另一类实施例中,本发明是用于响应于多声道音频输入信号的一组声道(例如, 这些声道中的每一个或者全频率范围声道中的每一个)产生双耳信号的方法,该方法包括 以下步骤:(a)将双耳房间脉冲响应(BRIR)应用于所述组的每个声道(例如,通过将所述组 的每个声道与对应于所述声道的BRIR进行卷积),从而产生滤波信号,其中,每个所述BRIR 已根据本发明的实施例被设计(即,预先确定);以及(b)组合滤波信号以产生双耳信号。 [0053]在另一类实施例中,本发明是被配置为执行本发明方法的任何实施例的音频处理 单元(APU)。在另一类实施例中,本发明是包括存储器(例如,缓冲存储器)的APU,该存储器 (例如,以非暂时性的方式)存储指示根据本发明方法的任何实施例确定的BRIR的数据。APU 的示例包括,但不限于,被配置为产生BRIR的处理系统、虚拟器、解码器、编解码器、预处理 系统(预处理器)、后处理系统(后处理器)、以及这样的元件的组合。
【附图说明】
[0054] 图1是系统(20)的框图,该系统(20)包括耳机虚拟化系统(其可以被实现为本发明 的耳机虚拟化系统的实施例)。耳机虚拟化系统可以(在子系统2、……、4中)应用常规确定 的BRIR或者根据本发明的实施例确定的BRIR。
[0055] 图2是图1的子系统2、……、4中的一个的实施例的框图。
[0056] 图3是包括在图2的系统的一些实现中的类型的FDN的框图。
[0057] 图4是如下系统的框图,该系统包括APU 30(其被配置为根据本发明的实施例设计 BRIR)、APU 10(其被配置为使用BRIR对多声道音频信号的声道执行虚拟化)以及递送子系 统40(其被耦合和配置为将指示BRIR的数据或信号递送给APU 10)。
[0058]图5是被配置为执行本发明的BRIR设计和产生方法的实施例的系统的实施例的框 图。
[0059]图6是图5的子系统101(具有HRTF数据库102)的典型实现的框图,该子系统101被 配置为产生候选BRIR的序列。
[0060] 图7是图6的子系统113的实施例。
[0061] 图8是图6的子系统114的实施例。
[0062] 注释和术语
[0063] 在整个本公开中,包括在权利要求中,表达"对"信号或数据执行操作(例如,对信 号或数据进行滤波、缩放、变换或应用增益)被广义地用于表示直接对信号或数据执行操 作、或者对信号或数据的处理版本(例如,对在对信号执行操作之前已经历初步滤波或预处 理的信号的版本)执行操作。
[0064]在整个本公开中,包括在权利要求中,表达"系统"被广义地用于表示设备、系统或 子系统。例如,实现虚拟器的子系统可以被称为虚拟器系统,并且包括这样的子系统的系统 (例如,响应于多个输入产生X个输出信号的系统,在该系统中,子系统产生输入中的Μ个,而 其它Χ-Μ个输入从外部源接收)也可以被称为虚拟器系统(或虚拟器)。
[0065]在整个本公开中,包括在权利要求中,术语"处理器"被广义地用于表示可编程或 者以其它方式可配置(例如,利用软件或固件)为对数据(例如,音频、或视频或其它图像数 据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其它可配置的集成电 路或芯片组)、被编程和/或以其它方式配置为对音频或其它声音数据执行管线处理的数字 信号处理器、可编程通用处理器或计算机、以及可编程微处理器芯片或芯片组。
[0066] 在整个本公开中,包括在权利要求中,表达"分析滤波器组"被广义地用于表示被 配置为对时域信号应用变换(例如,时域到频域变换)以在一组频带中的每一个中产生指示 时域信号的内容的值(例如,频率分量)的系统(例如,子系统)。在整个本公开中,包括在权 利要求中,表达"滤波器组域"被广义地用于表示由分析滤波器组产生的频率分量的域(例 如,这样的频率分量在其中被处理的域)。滤波器组域的示例包括(但不限于)频率域、正交 镜像滤波器(QMF)域以及混合复正交镜像滤波器(HCQMF)域。可以被分析滤波器组应用的变 换的示例包括(但不限于)离散余弦变换(DCT)、修正离散余弦变换(MDCT)、离散傅立叶变换 (DFT)以及小波变换。分析滤波器组的示例包括(但不限于)正交镜像滤波器(QMF)、有限脉 冲响应滤波器(FIR滤波器)、无限脉冲响应滤波器(IIR滤波器)、分频滤波器以及具有其它 合适的多速率结构的滤波器。
[0067] 在整个本公开中,包括在权利要求中,术语"元数据"是指与对应的音频数据(还包 括元数据的比特流的音频内容)分离且不同的数据。元数据与音频数据相关联,并且指示音 频数据的至少一个特征或特性(例如,何种类型的处理已经对音频数据执行或者应当对音 频数据执行、或者由音频数据指示的对象的轨迹)。元数据与音频数据的关联是时间同步 的。因此,当前的(最近接收的或更新的)元数据可以指示对应的音频数据同时具有指示的 特征和/或包括指示类型的音频数据处理的结果。
[0068] 在整个本公开中,包括在权利要求中,术语"耦合"或"被耦合"被用于意指直接或 间接连接。因此,如果第一设备耦合到第二设备,则连接可以是通过直接连接,或者通过经 由其它设备和连接的间接连接。
[0069] 在整个本公开中,包括在权利要求中,以下表达具有以下定义:
[0070] 扬声器和喇叭同义地被用于表示任何发声换能器。该定义包括实现为多个换能器 的喇机(例如,低音扬声器和高音扬声器);
[0071] 扬声器馈送:将被直接应用于喇叭的音频信号或者将被应用于串联的放大器和喇 叭的音频信号;
[0072]声道(或"音频声道"):单音音频信号。这样的信号通常可以被以如等同于将信号 直接应用于期望或标称位置处的喇叭的这样的方式渲染。期望位置可以如典型地物理喇叭 的情况那样是静态的,或者是动态的;
[0073] 音频节目:一组一个或多个音频声道(至少一个扬声器声道和/或至少一个对象声 道),并且可选地还有相关联的元数据(例如,描述期望的空间音频呈现的元数据);
[0074] 扬声器声道(或"扬声器馈送声道"):与(期望或标称位置处的)指定喇叭或者与定 义的扬声器配置内的指定扬声器区域相关联的音频声道。扬声器声道被以如等同于将音频 信号直接应用于(期望或标称位置处的)指定喇叭或者指定扬声器区域中的扬声器的这样 的方式渲染;
[0075] 对象声道:指示由音频源发出的声音的音频声道(有时被称为音频"对象")。通常, 对象声道确定参数化的音频源描述(例如,指示参数化的音频源描述的元数据被包括在对 象声道中或者被提供有对象声道)。源描述可以确定由源发出的声音(作为时间的函数)、作 为时间的函数的源的表观位置(例如,3D空间坐标)、以及可选地表征源的至少一个附加参 数(例如,表观源大小或宽度);
[0076] 基于对象的音频节目:包括一组一个或多个对象声道(并且可选地还包括至少一 个扬声器声道)、并且可选地还有相关联的元数据(例如,指示发出由对象声道指示的声音 的音频对象的轨迹的元数据、或以其它方式指示由对象声道指示的声音的期望空间音频呈 现的元数据、或指示至少一个音频对象的标识的元数据(所述音频对象是由对象声道指示 的声音的源))的音频节目;以及
[0077] 渲染:将音频节目转换成一个或多个扬声器馈送的处理、或将音频节目转换成一 个或多个扬声器馈送并且使用一个或多个喇叭将扬声器馈送转换成声音的处理(在后一种 情况下,渲染在本文中有时被称为"由"喇叭进行的渲染)。音频声道可以通过将信号直接应 用于期望位置处的物理喇叭而被简单地渲染("在"期望位置处),或者一个或多个音频声道 可以使用被设计为(对于收听者来说)基本上等同于这样的简单渲染的各种虚拟化技术中 的一种而被渲染。在这个后一种情况下,每个音频声道可以被转换成将被应用于一般不同 于期望位置的已知位置中的喇叭的一个或多个扬声器馈送,使得由喇叭响应于馈送而发出 的声音将被感知为从期望位置发出。这样的虚拟化技术的示例包括经由耳机的双耳渲染 (例如,使用为耳机佩戴者仿真环绕声的多达7.1个声道的Dolby耳机处理)以及波场合成。
[0078] 本文中的多声道音频信号是"x.y"或"x.y.z"声道信号的注释表示该信号具有"X" 个全频率扬声器声道(对应于标称地定位在假定收听者的耳朵的水平面中的扬声器)、" y" 个LFE(或超低音)声道,并且可选地还有"z"个全频率头顶扬声器声道(对应于定位在假定 收听者的头部上方(例如,在房间的天花板处或附近)的扬声器)。
【具体实施方式】
[0079] 本发明的许多实施例在技术上是可能的。本领域普通技术人员从本公开将清楚如 何实现它们。将参照图1、4、5、6、7和8来描述本发明的系统、方法和介质的实施例。
[0080] 如上面提到的,本发明的一类实施例包括被配置为执行本发明方法的任何实施例 的音频处理单元(AHJ)。在另一类实施例中,本发明是包括存储器(例如,缓冲存储器)的 APU,该存储器(例如,以非暂时性的方式)存储指示根据本发明方法的任何实施例确定的 BRIR的数据。
[0081 ]上述图1的系统20是包括耳机虚拟器(其包括上述元件2、……、4、5、6和8)的APU的 示例。该虚拟器可以通过将BRIR子系统2、……、4中的每一个配置为向每个全频率范围声道 t应用已根据本发明的实施例确定的双耳房间脉冲响应BRIRi而被实现为本发明的耳机虚 拟化系统的实施例。在如此配置的虚拟器的情况下,系统20(在一些实施例中为解码器)也 是作为本发明的实施例的APU的示例。
[0082]本发明系统的其它示例性实施例是图4的音频处理单元(AHJ)30以及图4的APU 10dAPU 30是被配置为根据本发明的实施例产生BRIR的处理系统。APU 30包括处理子系统 ("BRIR产生器")31以及缓冲存储器(缓冲器)32,处理子系统31被配置为根据本发明的任何 实施例设计BRIR,缓冲存储器32耦合到BRIR产生器31。在操作中,缓冲器32(例如,以非暂时 性的方式)存储指示一组BRIR的数据("BRIR数据"),该组中的每个BRIR已根据本发明方法 的实施例被设计(确定)APU 30被耦合和配置为将指示BRIR数据的信号声称到递送子系统 40 〇
[0083]递送子系统40被配置为存储信号(或者存储由信号指示的BRIR数据)和/或将信号 传输到APU 1(LAPU 10被耦合和配置(例如,被编程)为从子系统40接收信号(或由信号指示 的BRIR数据)(例如,通过从子系统40中的储存器读取或检索BRIR数据、或者接收由子系统 40传输的信号)。APU 10的缓冲器19 (例如,以非暂时性的方式)存储BRIR数据。ATO 10的 BRIR子系统12、……和14以及相加元件16和18是被配置为向多声道音频输入信号的每个全 频率范围声道(XlN……、X N)应用双耳房间脉冲响应(由通过子系统40递送的BRIR数据确定 的BRIR中的一个)的耳机虚拟器。
[0084] 为了配置耳机虚拟器,BRIR数据被从缓冲器19声称到子系统12的存储器13和子系 统14的存储器15(以及与子系统12和14并行耦合的每个其它BRIR子系统的存储器以对音频 输入信号声道Χι、......和Xn中的一个进行滤波)。BRIR子系统12、......和14中的每一个被配置 为应用由存储在其中的BRIR数据指示的一组BRIR中的任何选择的一个,因此BRIR数据(其 已被递送到缓冲器19)在每个BRIR子系统(12、…….或14)中的存储将BRIR子系统配置为向 多声道音频输入信号的声道Χι、……和Xn中的一个应用由BRIR数据指示的BRIR中的选择的 一个(与声道Χι、……或Xn的音频内容的源方向和距离对应的BRIR)。
[0085] 声道Χι、......和Xn(其可以是扬声器声道或对象声道)中的每一个对应于相对于假 定收听者的特定的源方向和距离(即,从对应扬声器的假定位置到假定收听者位置的直接 路径的方向以及对应扬声器的假定位置到假定收听者位置之间的距离),并且耳机虚拟器 被配置为将每个这样的声道与针对对应的源方向和距离的BRIR进行卷积。因此,子系统12 被配置为将声道Χι与BRIRK由通过子系统40递送的BRIR数据确定并且存储在存储器13中 的、与声道Χι的源方向和距离对应的BRIR中的一个)进行卷积,子系统4被配置为将声道X N与 BRIRN(由通过子系统40递送的BRIR数据确定并且存储在存储器15中的、与声道XN的源方向 和距离对应的BRIR中的一个)进行卷积,对于每个其它的输入声道依此类推。每个BRIR子系 统(子系统12、……、14中的每一个)的输出是包括左声道和右声道的时域双耳信号(例如, 子系统12的输出是包括左声道U和右声道办的双耳信号)。
[0086] BRIR子系统的左声道输出在相加元件16中被混合,而BRIR子系统的右声道输出在 相加元件18中被混合。元件16的输出是从虚拟器输出的双耳音频信号的左声道L,而元件18 的输出是从虚拟器输出的双耳音频信号的右声道R。
[0087] APU 10可以是解码器,该解码器被耦合以接收编码音频节目并且包括子系统(图4 中未示出),该子系统被耦合和配置为包括通过从该节目恢复N个全频率范围声道 (X:、……、Xn)来对节目进行解码并且将它们提供给虚拟器子系统(其包括如所示那样耦合 的元件12、……、14、16和18)的元件12、……和14。解码器可以包括附加的子系统,该附加的 子系统中的一些执行与由虚拟化子系统执行的虚拟化功能不相关的功能,并且该附加的子 系统中的一些可以执行与虚拟化功能相关的功能。例如,后面的功能可以包括从编码节目 提取元数据并且将该元数据提供给虚拟化控制子系统,该虚拟化控制子系统利用元数据来 控制虚拟器子系统的元件。
[0088] 我们接着描述用于BRIR设计和/或产生的本发明方法的实施例。在一类这样的实 施例中,BRIR设计被归结为基于仿真模型(其产生候选BRIR,优选地根据感知线索和声学约 束)和至少一个目标函数(其评估候选BRIR中的每一个,优选地根据感知标准)的数值优化 问题,并且包括识别候选BRIR(由通过每个目标函数对候选BRIR确定的性能度量指示)中的 最佳(例如,最优)的一个的步骤。通常,根据该方法设计的每个BRIR(即,被确定为若干个候 选BRIR中的最优或"最佳"的一个的每个候选BRIR)对于多声道音频信号的扬声器声道和/ 或对象声道的虚拟化是有用的。通常,该方法包括产生指示每个设计的BRIR的至少一个信 号(例如,指示指示每个设计的BRIR的数据的信号),并且可选地还包括将至少一个所述信 号递送到耳机虚拟器(或者将耳机虚拟器配置为应用至少一个至少一个设计的BRIR)的步 骤。在典型的实施例中,该数值优化问题通过应用本领域众所周知的若干种方法中的任何 一种(例如,随机搜索(蒙特卡罗(Monte Carlo))、单纯形(Simplex)或模拟退火(Simulated Annealing))以根据每个目标函数评估候选BRIR并且将候选BRIR中的最佳(例如,最优)的 一个识别为根据本发明设计的BRIR来进行求解。在一个示例性实施例中,一个目标函数(对 于每个候选BRIR)确定指示感知域频率响应的性能度量,另一个(对于每个候选BRIR)确定 指示时间响应的性能度量,并且另一个(对于每个候选BRIR)确定指示对话清晰度的性能度 量,并且所有三个目标函数都被利用以评估每个候选BRIR。
[0089] 在一类实施例中,本发明是用于设计BRIR(例如,图4的BRIRiSBRIRN)的方法,该 BRIR在与输入音频声道卷积时产生指示来自具有相对于预期收听者的方向和距离的源的 声音的双耳信号,所述方法包括以下步骤:
[0090] (a)根据仿真模型(例如,由图4的BRIR产生器31的图5实现的子系统101实现的模 型)来产生候选BRIR,该仿真模型对具有相对于预期收听者的候选BRIR方向和候选BRIR距 离的音频源的响应进行仿真,其中,候选BRIR方向至少基本上等于所述方向,并且候选BRIR 距离至少基本上等于所述距离;
[0091] (b)通过根据至少一个目标函数对候选BRIR进行处理来产生性能度量(例如,在图 4的BRIR产生器31的图5实现的子系统107中产生的那些),所述性能度量包括候选BRIR中的 每一个的性能度量(在图5中被称为"品质因数"以及
[0092] (c)识别(例如,在图4的BRIR产生器31的图5实现的子系统107或108中)性能度量 中具有极值的一个,并且将候选BRIR中性能度量具有所述极值的一个识别为BRIR。当利用 两个或更多个目标函数时,每个候选BRIR的性能度量可以是"总体"性能度量,该"总体"性 能度量是候选BRIR的单个性能度量(根据目标函数中的不同的一个目标函数确定的每一个 性能度量)的适当加权的组合。其总体性能度量具有极值的候选BRIR(有时被称为"存活 BRIR")然后将在步骤(c)中被识别。
[0093] 通常,步骤(a)包括以下步骤:根据预定的感知线索产生候选BRIR,使得候选BRIR 中的每一个在与输入音频声道卷积时产生指示提供所述感知线索的声音的双耳信号。这样 的线索的示例包括(但不限于):耳间时间差和耳间声级差(例如,由图5的仿真模型101的图 6实施例的子系统102和113实现)、耳间相干性(例如,由图5的仿真模型101的图6实施例的 子系统110和114实现)、混响时间(例如,由仿真模型101的图6实施例的子系统110和114实 现)、直接与混响比(例如,由仿真模型101的图6实施例的组合器115实现)、早期反射与后期 响应比(例如,由仿真模型101的图6实施例的组合器115实现)、以及回声密度(例如,由图5 的仿真模型1 〇 1的图6实施例的子系统110和114实现)。
[0094]在典型的实施例中,仿真模型是随机性房间/头部模型(例如,在图4的BRIR产生器 31中实现)。在数值优化(以选择一组候选BRIR中的最佳的一个)期间,随机性模型产生候选 BRIR中的每一个,使得每个候选BRIR(在被应用于输入音频以产生预期被感知为从具有相 对于预期收听者的预定方向和距离的源发出的滤波音频时)在最小化引起音染和时间拖尾 伪像的房间效果的同时内在地应用对于预期的空间音频感知必要的听觉线索("空间音频 感知线索")。
[0095]随机性模型通常使用确定性元素和随机(随机性)元素的组合。确定性元素(诸如 必要的感知线索)用作对优化处理的约束。随机元素(诸如早期响应和后期响应的房间反射 波形形状)产生在BRIR优化问题本身的公式化中出现的随机变量。
[0096]每个候选和理想的BRIR响应("目标"或"目标BRIR")之间的相似程度通过使用每 个所述目标函数(其继而确定候选BRIR中的每一个的性能的度量)而被数值评估(例如,在 图4的BRIR产生器31中)。最优解被当作产生具有极值的性能度量(由目标函数确定)的仿真 模型输出(候选BRIR),即,具有最佳的性能的度量(由目标函数确定)的候选BRIR。指示每个 声源方向和距离的最优(最佳)的候选BRIR的数据被产生(例如,由图4的BRIR产生器31产 生)并且被存储(例如,被存储在图4的缓冲存储器32中)和/或被递送给虚拟器系统(例如, 图4的APU 10的虚拟器子系统)。
[0097]图5是被配置为执行本发明的BRIR设计和产生方法的实施例的系统(其可以由例 如图4的BRIR产生器31实现)的框图。该实施例使用一个或多个感知激发的失真度量来从多 个这样的候选BRIR选择最优的BRIR候选。
[0098]图5的随机性房间模型子系统101被配置为应用随机性房间模型来产生候选BRIR。 指示声源方向(方位角和仰角)及距离(离假定收听者位置的距离)的控制值被提供作为随 机性房间模型子系统101的输入,随机性房间模型子系统101可以访问HRTF数据库(102)以 查找与源方向和距离对应的直接响应(一对左HRFT和右HRTF)。通常,数据库102被实现为被 耦合并且可被子系统101访问的存储器(其存储每个可选择的HRTF)。响应于HRFT对(针对源 方向和距离从数据库102选择),子系统101生成候选BRIR的序列,每个候选BRIR包括候选左 脉冲响应和候选右脉冲响应。变换和频率分带级103被耦合和配置为将候选BRIR中的每一 个从时域变换到感知域(感知分带的频域)以与目标BRIR的感知域表示进行比较。从级103 输出的每个感知域候选BRIR是如下值(例如,频率分量)的序列:这些值指示一组感知确定 的频带(例如,近似被称为Bark标度(scale)的众所周知的心理声学标度的非均匀频带的频 带)中的每一个中的时域候选BRIR的内容。
[0099]目标BRIR子系统105是存储目标BRIR的存储器或者包括存储目标BRIR的存储器, 目标BRIR已被系统操作者预先确定并且被提供给子系统105。变换级106被耦合和配置为将 目标BRIR从时域变换到感知域。从级106输出的每个感知域目标BRIR是如下值(例如,频率 分量)的序列:这些值指示一组感知确定的频带中的每一个中的时域目标BRIR的内容。
[0100]子系统107被配置为实现确定候选BRIR中的每一个的BRIR性能(例如,适宜性)的 感知域度量的至少一个目标函数。子系统107根据每个所述目标函数来数值评估每个候选 BRIR与目标BRIR之间的相似程度。具体地说,子系统107应用每个目标函数(将每个目标函 数应用于每个候选BRIR和目标BRIR)来确定每个候选BRIR的性能的度量。
[0101] 子系统108被配置为选择候选BRIR中具有由子系统107的输出指示的最佳的性能 的度量(例如,以上提及的类型的最佳的总体性能度量)的一个BRIR作为最优BRIR。例如,最 优BRIR可以被选择为候选BRIR中与目标BRIR具有最大相似程度(由子系统107的输出指示) 的一个BRIR。在理想的情况下,目标函数表示虚拟器主观性能的所有方面,包括但不限于: 谱自然度(相对于立体声下混的音色);对话清晰度;以及声源定位、外部化和宽度。可以用 作用于评估对话清晰度的目标函数的标准化方法是语音质量的感知评估(PESQ)(参看ITU-T Recommendation P·862·2,"Wideband extension to Recommendation P.862for the assessment of wideband telephone networks and speech codecs",Nov.2007)〇
[0102] 作为仿真的结果,发明人已发现增益优化的对数谱失真测度D(下面定义)是有用 的感知域度量。该度量(对每个候选BRIR和目标BRIR对)提供通过候选BRIR渲染的音频信号 的谱自然度的测度。D的较小值对应于生成渲染的音频信号的较低的音色失真和更自然的 质量的BRIR。该度量D是从下面的在感知域(对目标BRIR的临界带功率谱和目标BRIR的临界 带功率谱进行操作)中表达的目标函数(图5的子系统107可以容易地被配置为实现该目标 函数)确定的:
[0103]
[0104] 其中,D =平均对数谱失真,
[0105] Cnk =对于候选BRIR的声道η、频带k的感知能量,
[0106] Tnk =对于目标BRIR的声道n、频带k的感知能量,
[0107] glcig =使D最小化的对数增益偏移,
[0108] wn=对于声道η的声道加权因子,以及 [0109] Β =感知带的数量。
[0110] 在本发明方法的针对每个候选BRIR产生至少基本上等于以上度量的性能度量的 一些实施例中,该方法包括将候选BRIR中的每一个的感知分带的频域表不与和所述候选 BRIR中的每一个的源方向对应的目标BRIR的感知分带的频域表示进行比较的步骤。(候选 BRIR或对应的目标BRIR)的每个这样的感知分带的频域表示包括具有B个频带的左声道和 具有B个频带的右声道。以上对于度量D的表达式中的索引η是指示声道的索引,该索引的值 η = 1指示左声道,而该索引的值η = 2指示右声道。
[0111] 以上定义的度量D的有用属性是,它对虚拟器中不自然的音频质量的公共源、低频 的谱梳理失真是敏感的。度量D对于由于以上项g lcig而导致的候选BRIR与目标BRIR之间的宽 带增益偏移也是不敏感的,gi〇g在本发明方法(根据图5实现)的典型的实施例中被如下定 义:
[0112]
[0113]在这样的实施例中,对于每个候选BRIR以最小化对于该候选BRIR所得到的均方失 真D的方式单独地计算项gi〇g(通过子系统107计算)。
[0114] 其它性能度量可以被子系统107(代替或补充以上定义的度量D)实现以评估候选 BRIR性能的不同方面。另外,以上对于D和glQg的表达式可以通过分别用候选BRIR和目标 BRIR的临界带中的特定响度替代以上对于D和gic>g的表达式中的log(Cnk)和log(T nk)项而被 修改(以确定在特定响度域中表达的用于代替度量D的另一个失真测度)。
[0115] 发明人还已发现,在本发明的典型实施例中,被用方向无关的均衡滤波器均衡的 消声HRTF响应是合适的目标BRIR(将从图5的子系统105输出)。当子系统107应用的目标函 数将增益优化的对数谱失真D确定为性能度量时,谱音染的程度通常显著低于传统的收听 房间模型的谱音染的程度。
[0116] 根据图5实施例,子系统101的典型实现以将参照图6描述的方式作为直接脉冲响 应部分与早期和后期脉冲响应部分(BRIR区域)的和产生候选BRIR中的每一个。如以上参照 图5提到的,向子系统101指示的声源方向和距离通过使子系统101从HRTF数据库102选择对 应的一对左HRTF和右HRTF(直接响应BRIR部分)来确定每个候选BRIR的直接响应。
[0117] 反射控制子系统111响应于确定直接响应的相同的声源方向和距离来识别(即,选 择)一组早期反射路径(其包括一个或多个早期反射路径),并且将指示每个这样的一组早 期反射路径的控制值声称到早期反射产生子系统(产生器)113。早期反射产生器113从数据 库102选择一对左HRTF和右HRTF,所述一对左HRTF和右HRTF对应于由子系统111响应于确定 直接响应的相同的声源方向和距离而确定的(每组早期反射路径的)每个早期反射的到达 方向(到达收听者的方向)。响应于对于由子系统111确定的每组早期反射路径的选择的一 对(多对)左HRTF和右HRTF,产生器113确定候选BRIR中的一个的早期响应部分。
[0118] 后期响应控制子系统110响应于确定直接响应的相同的声源方向和距离来将控制 信号声称到后期响应产生器114,以使产生器114输出候选BRIR中与声源方向和距离对应的 一个的后期响应部分。
[0119] 直接响应、早期反射和后期响应在组合器子系统115中被(以适当的时间偏移和重 叠)一起相加以产生每个候选BRIR。被声称到子系统115的控制值指示直接与混响比(DR比) 和早期反射与后期响应比(EL比),这些比被子系统115使用以设置它组合的直接、早期和后 期BRIR部分的相对增益。
[0120]就图6的用虚线框指示的子系统(即,子系统111、113和114)中的每一个响应于被 声称到子系统101的每个声源方向和距离而输出(部分由随机变量驱动的)输出序列的意义 而言,图6的用虚线框指示的子系统是随机性元件。在操作中,图6实施例产生随机(例如,伪 随机)变量的至少一个序列,并且由子系统111、113和114执行的操作(因此候选BRIR的产 生)部分由随机变量中的至少一些驱动。因此,响应于被声称到子系统101的每个声源方向 和距离,子系统111确定多组早期反射路径的序列,并且子系统113和114将早期反射BRIR部 分和后期响应BRIR部分的序列声称到组合器115。作为响应,组合器115将序列中的每组早 期反射BRIR部分与序列中的每个对应的后期响应BRIR部分以及与针对声源方向和距离选 择的HRTF进行组合,以产生候选BRIR序列中的每个候选BRIR。驱动子系统111、113和114的 随机变量应提供足够的自由度以使得随机性房间模型的图6实现能够在优化期间产生多样 化的一组候选BRIR。
[0121]通常,反射控制子系统111被实现为施加由其输出所指示的多组早期反射中的早 期反射的期望延迟、增益、形状、持续时间和/或方向。通常,后期响应控制子系统110被实现 为对原始随机序列改变耳间相干性、回声密度、延迟、增益、形状和/或持续时间以便产生由 其输出所指示的后期响应。
[0122] 在随机性房间模型的图6实现的变型中,从子系统114输出的每个后期响应部分可 以通过半确定性或全确定性过程来产生(例如,它可以是预定的后期混响脉冲响应,或者可 以通过计算混响算法(例如,通过酉反馈延迟网络(UFDN)实现的算法)或Schroeder混响算 法来确定)。
[0123] 在图6的子系统111的典型实现中,由子系统111确定的每组早期反射中的早期反 射的数量和每个早期反射的到达方向是基于感知考虑。例如,众所周知的是,将早期地板反 射包括在BRIR中对于耳机虚拟器中的良好的源定位是重要的。然而,发明人已进一步发现:
[0124] 发自于与声源相同的方位角和仰角的早期反射可以改进源定位和聚焦,并且增加 感知距离;
[0125] 随着早期反射发自于远离声源方向的更广的角度,声源大小一般变得更大并且更 扩散;
[0126] 对于前置声源,来自桌面的早期反射可以比地板甚至更有效;并且
[0127] 具有与声源的到达方向相反的到达方向的早期反射可以增添宽敞的感觉,但是是 以定位性能为代价的。例如,对于头顶声源,已发现地板反射降低性能。
[0128] 设想子系统111被实现为根据这样的感知考虑来(对于每个源方向和距离)确定多 组早期反射。
[0129] 发明人还已发现,某些反射方向扩展模式可以改进源定位。如由上面提到的发自 于与声源相同的方位角和仰角的早期反射可以改进源定位和聚焦并且增加感知距离的观 察所建议的,用于由子系统111实现的被发现特别有效的一个策略是将对于给定源方向和 距离的早期反射设计为源自与声源相同的方向并且在后期响应期间在空间中渐进地成扇 形散开(fan-out)以最终包围收听者。
[0130] 从以上发现,明显的是,声像控制的重要方面是通过早期反射以及它们转变到后 期BRIR响应的方式提供的。对于最优的虚拟器性能,反射(例如,由图6的子系统111的输出 确定的那些)应当针对每个声源定制。例如,在每个声源后面并且垂直于声音从源行进到耳 朵的线(由子系统111的输出指示)增添独立的虚拟墙可以改进候选BRIR的性能。通过将子 系统111配置为使得其输出还指示地板或桌面反射来使该配置对于前置源甚至更有效。早 期反射的这样的感知激发的布置容易通过本发明的图6实施例实现,但是将至多难以在传 统的房间模型(其具有相对方位固定并且没有针对每个声源进行感知优化的反射表面的布 置)中实现,尤其是当要求虚拟器支持移动声源(音频对象)时。
[0131] 接着,参照图7,我们描述图6的早期反射产生器113的实施例。其目的是使用从反 射控制子系统111接收的参数来合成早期反射。产生器113的图7实施例将传统的房间模型 元件与两个感知激励的元件组合。图7的高斯独立同分布(IID)噪声产生器120被配置为产 生用于作为反射原型使用的噪声。唯一的噪声序列是针对每个候选BRIR中的每个反射被选 择,从而在反射频率响应中提供多个自由度。如果输入的绝对值小于最大输入值的预定百 分比,则噪声序列可选地被中心修剪(clip)子系统121(如果存在的话)修改为用零输出值 代替(被声称到子系统121的序列的)每个输入值,并且被镜面处理子系统122(其将镜面反 射分量与其相加)修改。可选地,对反射表面的吸收进行建模的滤波器123(如果被实现的 话)接着被应用,后面跟着方向无关HRTF均衡滤波器124。在下一个处理级(梳理减少级125) 中,滤波器124的输出经历具有延迟相关的截止频率的高通滤波。截止频率针对每个反射单 独选择,以便在渲染的音频信号中可接受的谱梳理的约束下最大化低频能量。发明人已从 理论考虑和实践发现,将规范化的截止频率设置为1.5除以反射延迟(以采样计)通常在实 现设计约束中工作得很好。
[0132] 攻击(attack)和衰减包络修改级126通过应用窗来修改从级125输出的反射原型 的攻击和衰减特性。各种窗形状是可能的,但是指数衰减窗通常是合适的。最后,HRTF级127 应用与反射到达方向对应的HRTF(其从图6的HRTF数据库102检索),从而生成被声称到图6 的组合器子系统115的双耳反射原型响应。
[0133] 就图7的子系统120和127分别响应于被声称到子系统101的每个声源方向和距离 而输出(部分由随机变量驱动的)输出的序列的意义而言,子系统120和127是随机性元件。 在操作中,图7的子系统122、123、125、126和127从(图6的)反射控制子系统111接收输入。
[0134] 接着,参照图8,我们描述图6的后期响应产生器114的实施例。
[0135] 在典型的实现中,后期响应的产生是基于对候选BRIR给予必要的时间、频谱和空 间声学属性的随机性模型。如在物理声学空间中那样,在早期反射阶段期间,反射稀疏地到 达耳朵,使得每个反射的微观结构是可观察的并且影响听觉感知。在后期响应阶段中,回声 密度通常增大到单个反射的微观特征不再是可观察的点。相反,混响的宏观属性变为必要 的听觉线索。这些频率相关的属性包括能量衰减时间、耳间相干性以及谱分布。
[0136] 从早期响应阶段到后期响应阶段的转变是渐进过程。在产生的后期响应中实现这 样的转变帮助聚焦声源图像、减小空间栗浦(pumping)以及改进外部化。在典型的实施例 中,转变实现涉及控制回声密度的时间模式、耳间时间差或"ITD"、以及耳间声级差或"ILD" (例如,通过使用图8的回声产生器130)。回声密度通常随着时间二次方地增大。这里,与物 理声学空间的相似性结束。发明人已发现,如果初始ITD/ILD模式增强源方向的模式,则声 源图像是最紧凑、稳定并且外部化的。当回声密度低时,产生的后期响应中的ITD/ILD模式 类似于与单个反射对应的定向源的模式。随着回声密度增大,ITD/ILD方向性开始变宽,并 且逐渐演变成扩散声场的模式。
[0137] 产生具有上述转变特性的后期响应可以由随机性回声产生器(例如,图8的回声产 生器130)实现。回声产生器130的典型实现的操作包括以下步骤:
[0138] 1.在后期响应的整个长度期间回声产生器沿着时间轴进行处理的每一时刻,首先 实现决定反射是否应当在该给定时刻产生的独立随机二元判决。对于增大的回声密度,肯 定判决的概率随着时间增大,理想地二次方地增大。如果反射将被产生,则以期望的ITD/ ILD特性产生一对单脉冲(每个在双耳声道中的一个中KITD/ILD控制的处理通常包括以下 子步骤:
[0139] a.产生第一耳间延迟值dDIR,其等于源方向的ITD。还产生第一随机采样值对(1 X 2 矢量)xdir,其携载源方向的ILDJTD和ILD可以基于与源方向相关联的HRTF或合适的头部模 型来确定。两个采样值的符号应当是相同的。两个采样的平均值应当大致遵循具有零均值 和单位标准差的正态分布。
[0140] b.随机地产生第二耳间延迟值dDIF,其遵循来自扩散声场的反射的ITD模式。还产 生第二随机采样值对(1X2矢量)XDIF,其遵循来自扩散声场的反射的ILD模式。扩散场ITD可 以通过在-dMAX与dMAX之间具有均勾分布的随机变量来建模,其中,dMAX是与耳朵之间的距离 对应的延迟。采样值可以源自于具有零均值和单位标准差的独立正态分布,并且然后可以 基于扩散场ILD约束而被修改。 XDIF中的两个值的符号应当是相同的。
[0141 ] c.计算两个耳间延迟的加权平均dREF= (l-a)dDiR+adDiF,以及两个采样值对的加权 平均XREF = (1 -a) XDiR+axDiF。这里,a是0与1之间的混合权重。
[0142] d.基于dREF和XREF来创建双耳脉冲对。该脉冲对被以I dREF I的时间扩展围绕当前时 刻放置,并且dREF的符号确定哪个双耳声道将领先。具有较大绝对值的XREF中的采样值被用 作领先脉冲的采样值,另一个被用作落后脉冲。如果该对的任何一个脉冲将被放置在在前 面的时刻中已经使用的时隙处(由于耳间延迟的时间扩展),则优选的是将新的值加到现有 的值,而不是代替它;以及
[0143] 2.重复步骤1,直到到达BRIR后期响应结束为止。权重a在后期响应的开始被设置 为〇.〇,并且逐渐增大到1.0以创建对ITD/ILD的定向到扩散转变效果。
[0144] 在后期响应产生器114的其它实现中,执行其它方法来创建类似的转变行为。为了 对反射引入扩散和去相关效果以改进自然度,作为由回声产生器130执行的最后一个步骤, 可以将一对多级全通滤波器(APF)分别应用于产生的双耳响应的左声道和右声道。发明人 已发现,为了常见应用中的性能最佳,在最大双耳去相关可能的情况下,APF的时间扩展效 果应当为lms的量级。APF还需要具有相同的群延迟,以便保持双耳平衡。
[0145] 如先前提到的,后期响应的宏观属性在空间和音色二者上具有深刻和关键的感知 影响。能量衰减时间是表征声学环境的必要属性。过长的衰减时间引起使音频质量降低的 过度且不自然的混响。它对于对话清晰度尤其不利。另一方面,不足的衰减时间减少了外部 化,并且引起与声学空间的不匹配。耳间相干性对于声源图像的聚焦和深度感知是必要的。 太高的相干性值使声源图像变得内部化,而太低的相干性值使声源图像扩展或分裂 (split)。跨频率的不平衡的相干性也使声源图像伸展或分裂。后期响应的谱分布对于音色 和自然度是必要的。后期响应的理想的谱分布通常在500Hz与1kHz之间具有平坦且最高的 水平。它在高频端逐渐减小以遵循自然声学特性,并且在低频端逐渐减小以避免梳理伪像。 作为减小梳理的额外机制,使后期响应的斜升在较低频率中较慢。
[0146] 为了施加这些宏观属性,后期响应产生器114的图8实施例被如下配置。随机性回 声产生器130的输出被谱成形滤波器131滤波(在图8中在时域中,但是可替代地在DFT滤波 器组132之后在频域中),并且滤波器131的输出被(DFT滤波器组132)分解到频带中。在每个 频带中,2 X 2混合矩阵(由级133实现)被应用以(在左双耳声道与右双耳声道之间)引入期 望的耳间相干性,并且时间成形曲线被应用(被级134应用)以实施期望的能量攻击和衰减 时间。级134还可以应用增益以控制期望的谱包络。在这些处理之后,子带信道被组装回到 时域(由逆DFT滤波器组135组装)。应当注意,块131、133和134执行的功能的次序是可交换 的。滤波器组135的输出的两个声道(左双耳声道和右双耳声道)是候选BRIR的后期响应部 分。
[0147] 候选BRIR的后期响应部分(在图6的子系统115中)被以基于源距离、直接与混响 (DR)比以及早期反射与后期响应(EL)比的适当的延迟和增益与直接和早期BRIR分量组合。
[0148] 在后期响应产生器114的图8实现中,DFT滤波器组132被用于从时域到频域的转 换,逆DFT滤波器组135被用于从频域到时域的转换,并且谱成形滤波器131在时域中实现。 在其它实施例中,另一种类型的分析滤波器组(代替DFT滤波器组132)被用于从时域到频域 的转换,并且另一种类型的合成滤波器组(代替逆DFT滤波器组135)被用于从频域到时域的 转换,或者后期响应产生器完全在时域中实现。
[0149] 本发明的数值优化的BRIR产生方法的典型实施例的一个益处是,它们可以容易地 产生满足范围广泛的设计标准中的任何一个的BRIR(例如,其HRTF部分具有某些期望的性 质,和/或BRIR具有期望的直接与混响比)。例如,众所周知的是,HRTF从一个人到下一个人 相当大地变化。本发明方法的典型实施例产生允许针对与特定收听者相关联的特定的一组 HRTF优化虚拟收听环境的BRIR。可替代地或者另外地,收听者所位于的物理环境可以具有 特定性质,诸如一个人在虚拟收听环境中想要模仿的某个混响时间(以及对应的BRIR)。这 样的设计标准可以被作为约束包括在优化处理中。还一个示例是在收听者的位置处由于桌 面或墙壁的存在而预期有强反射的情况。产生的BRIR可以基于考虑这样的约束的感知失真 度量而被优化。
[0150] 应当意识到,在一些实施例中,根据本发明产生的双耳输出信号指示意图被感知 为从"头顶"源位置(收听者的耳朵的水平面上方的虚拟源位置)发出的音频内容和/或被感 知为从收听者的耳朵的水平面中的虚拟源位置发出的音频内容。在任一种情况下,被利用 以产生双耳输出信号的BRIR通常将具有HRFT部分(用于与声源方向和距离对应的直接响 应)以及用于实现从物理或虚拟房间的模型导出的反射和后期响应的反射(和/或混响)部 分。
[0151]为了渲染指示被感知为从"头顶"源位置发出的音频内容的双耳信号,所利用的渲 染方法通常将与用于渲染仅指示意图被感知为从收听者的耳朵的水平面中的虚拟源位置 发出的音频内容的双耳信号的常规方法相同。
[0152]通过仅仅是单独的HRTF(没有早期反射或后期响应部分)的BRIR提供的高度的错 觉(illusion)可以通过将BRIR扩大到指示来自特定方向的早期反射来增加。特别地,发明 人已发现,(当双耳输出将仅指示收听者的耳朵的水平面中的源时)通常使用的地面反射可 以减小当双耳输出将指示头顶源时的高度感觉。为了防止这,BRIR可以根据本发明的一些 实施例被设计为用与头顶源相同的方位角、但是在更高仰角的两个头顶反射来代替每个地 面反射。发自于与声源相同的方位角和仰角的早期反射在头顶模型中被保持,从而使对于 头顶源的早期反射的总数为三次。为了支持对象声道(以及扬声器声道)的虚拟化,可以使 用插值的BRIR,其中,插值的BRIR通过在很小的一组预定的BRIR(其根据本发明的实施例而 产生)之间进行插值而产生,所述预定的BRIR指示根据源位置的不同的地面和头顶早期反 射。
[0153] 在另一类实施例中,本发明是用于响应于多声道音频输入信号的一组N个声道而 产生双耳信号的方法,其中,N是正整数(例如,N=l,或者N大于1),所述方法包括以下步骤:
[0154] (a)(例如,在图4的APU 10的N个子系统12、……、14中)将N个双耳房间脉冲响应 BRIRi,BRIR2^……、BRIRN应用于音频输入信号的所述一组声道,从而产生滤波信号,包括通 过对于在从1到N的范围中的索引i的每个值将双耳房间脉冲响应中的第"i"个双耳房间脉 冲响应BRIRi应用于所述组的第"i"个声道;以及
[0155] (b)(例如,在图4的APU 10的元件16和18中)组合滤波信号以产生双耳信号,其中, 每个所述8即1?1在与所述组的第"i"个声道卷积时产生指示来自具有相对于预期收听者的 方向Xl和距离cU的源的声音的双耳信号,并且每个所述BRIRiB通过包括以下步骤的方法设 计:
[0156] (c)根据仿真模型(例如,由图4的BRIR产生器31的图5实现的子系统101实现的模 型)产生候选双耳房间脉冲响应(候选BRIR),该仿真模型对具有相对于预期收听者的候选 BRIR方向和候选BRIR距离的音频源的响应进行仿真,其中,候选BRIR方向至少基本上等于 方向xi,并且候选BRIR距离至少基本上等于距离di;
[0157] (d)(例如,在图4的BRIR产生器31的图5实现的子系统107中)通过根据至少一个目 标函数对候选BRIR进行处理来产生性能度量,该性能度量包括候选BRIR中的每一个的性能 度量;以及
[0158] (e)(例如,在图4的BRIR产生器31的图5实现的子系统107中)识别性能度量中具有 极值的一个,并且(例如,在BRIR产生器31的图5实现的子系统107中)将候选BRIR中性能度 量具有所述极值的一个识别为BRIRi。
[0159] 存在应用已根据本发明的实施例产生的BRIR的耳机虚拟器的许多实施例。每个虚 拟器被配置为响应于Μ声道音频输入信号产生2声道双耳输出信号(所以通常包括分别实现 下混矩阵的一个或多个下混级),并且还被配置为将BRIR应用于被下混到2个输出声道的音 频输入信号的每个声道。为了对扬声器声道(其指示与固定位置中的喇叭对应的内容)执行 虚拟化,一个这样的虚拟器将BRIR应用于每个扬声器声道(使得双耳输出指示与扬声器声 道对应的虚拟喇叭的内容),每个这样的BRIR已被离线地(off line)预先确定。在运行时,多 声道输入信号的每个声道与其相关联的BRIR进行卷积,并且卷积运算的结果然后被下混到 2声道双耳输出信号。BRIR通常被预先缩放,使得等于1的下混系数可以被使用。可替代地, 为了以较低的计算复杂度实现类似的结果,每个输入声道与单声道BRIR的"直接和早期反 射"部分进行卷积,输入声道的下混与下混BRIR的后期混响部分(例如,单声道BRIR中的一 个的后期混响部分)进行卷积,并且卷积运算的结果然后被下混到2声道双耳输出信号。
[0160] 为了渲染多声道基于对象的音频输入信号的对象声道(对象声道中的每一个可以 指示与固定的或移动的音频对象相关联的内容),多种方法中的任何一种是可能的。例如, 在一些实施例中,多声道输入信号的每个对象声道与相关联的BRIR(其已根据本发明的实 施例被离线地预先确定)进行卷积,并且卷积运算的结果然后被下混到2声道双耳输出信 号。可替代地,为了以较低的计算复杂度实现类似的结果,每个对象声道与单声道BRIR的 "直接和早期反射"部分进行卷积,对象声道的下混与下混BRIR的后期混响部分(例如,单声 道BRIR中的一个的后期混响部分)进行卷积,并且卷积运算的结果然后被下混到2声道双耳 输出信号。
[0161] 不管经历虚拟化的输入信号声道是扬声器声道、还是对象声道,最直接的虚拟化 方法通常是将虚拟器实现为产生其指示足够数量的虚拟扬声器的输出的双耳输出以允许 在虚拟扬声器的位置之间在由双耳信号的内容所指示的每个声源的3D空间中进行平滑的 平移(panning)。在我们的经验中,指示来自假定收听者的耳朵的水平面中的七个虚拟扬声 器的输出的双耳信号通常对于良好的平移性能是足够的,并且双耳信号还可以指示假定收 听者的耳朵的水平面上方的虚拟位置中的少量的头顶虚拟扬声器(例如,四个头顶虚拟扬 声器)的输出。利用四个这样的头顶虚拟扬声器和七个其它的虚拟扬声器,双耳信号将指示 总共11个虚拟扬声器。
[0162] 发明人已发现,适当设计的指示针对一个虚拟源方向和距离优化的反射的BRIR通 常可以以最小的性能损失被用于相同虚拟环境(例如,虚拟房间)中的其它位置中的虚拟 源。在该规则的例外的情况下,指示针对少量的不同虚拟源位置中的每一个优化的反射的 BRIR可以被产生,并且它们之间的插值可以根据声源位置而执行(例如,在虚拟器中),以产 生用于每个所需的虚拟源位置的不同的插值BRIR。
[0163] 在一些实施例中,所述方法产生BRIR以便在中性音色的约束下最大化(将被虚拟 化的5.1或7.1声道音频输入信号的)中心声道的声源外部化。中心声道广泛地被认为最难 以虚拟化,因为感知线索的数量减少(没有ITD/ILD,其中,ILD是耳间时间差或者两个耳朵 之间的到达时间差,并且ILD是耳间声级差),帮助定位的视觉线索不总是存在,等等。设想 本发明的各种实施例产生对于虚拟化具有许多不同格式中的任何一种的输入信号(例如, 具有2.0、5.1、7.1、7.1.2或7.1.4扬声器声道格式的输入信号(其中,"7.1.1"格式表示用于 收听者的耳朵的水平面中的扬声器的7个声道、用于方形模式(square pat tern)头顶中的 扬声器的4个声道、以及一个Lfe声道))有用的BRIR。
[0164] 典型的实施例不假定输入信号声道是扬声器声道或对象声道(即,它们可以是任 何一种)。在选择用于虚拟化其声道仅由扬声器声道组成的多声道输入信号的最优BRIR时, 用于每个扬声器声道的最优BRIR可以被选择(其中每个继而假定相对于收听者的特定源方 向)。如果虚拟器的输入信号预期为指示一个或多个源(每个源通过范围广泛的位置平移) 的基于对象的音频节目,则双耳输出信号通常将指示比输入信号仅包括少量的扬声器声道 (并且没有对象声道)的情况下双耳输出信号将指示的虚拟扬声器位置多的虚拟扬声器位 置,并因此比扬声器声道输入信号多的BRIR将需要被确定(每个针对不同的虚拟扬声器位 置)并且被应用以虚拟化基于对象的音频节目。在虚拟化典型的基于对象的音频节目的操 作中,设想本发明虚拟器的一些实施例将在预定的BRIR(每个针对少量的虚拟扬声器位置 中的一个)之间进行插值以产生插值BRIR(每个针对大量的虚拟扬声器位置中的一个),并 且应用插值BRIR来产生指示范围广泛的源位置上的平移的双耳输出。
[0165] 尽管本文中已描述本发明的特定实施例和本发明的应用,但是本领域普通技术人 员将清楚的是,在不脱离本文中描述和要求保护的本发明的范围的情况下,本文中描述的 实施例和应用的许多变型是可能的。应当理解,尽管已示出并描述了本发明的某些形式,但 是本发明不限于所描述和示出的特定实施例或所描述的特定方法。
【主权项】
1. 一种用于设计双耳房间脉冲响应(BRIR)的方法,所述双耳房间脉冲响应(BRIR)在与 输入音频声道进行卷积时产生双耳信号,所述双耳信号指示来自具有相对于预期收听者的 方向和距离的源的声音,所述方法包括以下步骤: (a) 根据仿真模型产生候选双耳房间脉冲响应(候选BRIR),所述仿真模型对具有相对 于预期收听者的候选BRIR方向和候选BRIR距离的音频源的响应进行仿真,其中,所述候选 BRIR方向至少基本上等于所述方向,并且所述候选BRIR距离至少基本上等于所述距离; (b) 通过根据至少一个目标函数对所述候选BRIR进行处理来产生性能度量,所述性能 度量包括所述候选BRIR中的每一个的性能度量;以及 (c) 识别所述性能度量中具有极值的一个,并且将所述候选BRIR中性能度量具有所述 极值的一个识别为BRIR。2. 根据权利要求1所述的方法,其中,步骤(a)包括根据预定的感知线索产生候选BRIR 使得所述候选BRIR中的每一个在与所述输入音频声道进行卷积时产生指示提供所述感知 线索的声音的双耳信号的步骤。3. 根据权利要求1或权利要求2所述的方法,其中,步骤(b)包括针对每个所述候选BRIR 方向确定目标BRIR的步骤,并且其中,所述候选BRIR中的每一个的性能度量指示所述候选 BRIR中的所述每一个与目标BRIR之间的相似程度,所述目标BRIR与所述候选BRIR中的所述 每一个的候选BRIR方向对应。4. 根据权利要求3所述的方法,其中,步骤(b)包括将所述候选BRIR中的每一个的感知 分带的频域表示与对应于所述候选BRIR中的所述每一个的候选BRIR方向的目标BRIR的感 知分带的频域表示进行比较的步骤。5. 根据权利要求4所述的方法,其中,每个所述感知分带的频域表示包括具有B个频带 的左声道和具有B个频带的右声道,并且所述候选BRIR中的所述每一个的性能度量至少基 本上等于:其中,η是指示声道的索引,所述索引的值n = l指示左声道,并且所述索引的值n = 2指 示右声道, Cnk=对于所述候选BR IR中的所述每一个的声道η、频带k的感知能量, Tnk =对于与所述候选BRIR中的所述每一个的候选BRIR方向对应的目标BRIR的声道n、 频带k的感知能量, gi〇g=使D最小化的对数增益偏移,并且 Wn =对于声道η的加权因子。6. 根据权利要求1-5中的任何一项所述的方法,还包括以下步骤: 产生指示在步骤(c)中所识别的BRIR的至少一个信号。7. 根据权利要求1-6中的任何一项所述的方法,还包括以下步骤: 将指示在步骤(c)中所识别的BRIR的至少一个所述信号至少一个信号递送给耳机虚拟 器。8. 根据权利要求1-7中的任何一项所述的方法,还包括将耳机虚拟器配置为应用在步 骤(c)中所识别的BRIR的步骤。9. 根据权利要求1-8中的任何一项所述的方法,其中,所述仿真模型是随机性模型,并 且其中,步骤(a)包括产生随机变量的至少一个序列的步骤,并且产生候选BRIR的步骤部分 地由所述随机变量中的至少一些驱动。10. 根据权利要求1-9中的任何一项所述的方法,其中,所述候选BRIR中的每一个并因 此在步骤(c)中所识别的BRIR表示虚拟房间的响应。11. 根据权利要求10所述的方法,其中,在步骤(c)中所识别的BRIR表示不容易物理可 实现的虚拟房间的响应。12. -种用于响应于多声道音频输入信号的一组N个声道产生双耳信号的方法,其中,N 是正整数,所述方法包括以下步骤: (a) 将N个双耳房间脉冲响应BRIRhBRIR^……、BRIRN应用于所述音频输入信号的所述 一组声道,从而产生滤波信号,其包括通过对于在从1到N的范围中的索引i的每个值将所述 双耳房间脉冲响应中的第"i"个双耳房间脉冲响应BRIR 1应用于所述组的第"i"个声道;和 (b) 组合所述滤波信号以产生双耳信号,其中,每个所述8即1?1在与所述组的第"i"个声 道进行卷积时产生指示来自具有相对于预期收听者的方向^和距离Cl 1的源的声音的双耳信 号,并且每个所述BRIR1已通过包括以下步骤的方法被设计: (c) 根据仿真模型产生候选双耳房间脉冲响应(候选BRIR),所述仿真模型对具有相对 于预期收听者的候选BRIR方向和候选BRIR距离的音频源的响应进行仿真,其中,所述候选 BRIR方向至少基本上等于所述方向Xi,并且所述候选BRIR距离至少基本上等于所述距离di; (d) 通过根据至少一个目标函数对所述候选BRIR进行处理来产生性能度量,所述性能 度量包括所述候选BRIR中的每一个的性能度量;以及 (e) 识别所述性能度量中具有极值的一个,并且将所述候选BRIR中性能度量具有所述 极值的一个识别为BRIRi。13. 根据权利要求12所述的方法,其中,步骤(c)包括根据预定的感知线索产生候选 BRIR使得所述候选BRIR中的每一个在与所述输入音频声道进行卷积时产生指示提供所述 感知线索的声音的双耳信号的步骤。14. 根据权利要求12或权利要求13所述的方法,其中,步骤(d)包括针对每个所述候选 BRIR方向确定目标BRIR的步骤,并且其中,所述候选BRIR中的每一个的性能度量指示所述 候选BRIR中的所述每一个与目标BRIR之间的相似程度,所述目标BRIR与所述候选BRIR中的 所述每一个的候选BRIR方向对应。15. 根据权利要求14所述的方法,其中,步骤(d)包括将所述候选BRIR中的每一个的感 知分带的频域表示与对应于所述候选BRIR中的所述每一个的候选BRIR方向的目标BRIR的 感知分带的频域表示进行比较的步骤。16. 根据权利要求15所述的方法,其中,每个所述感知分带的频域表示包括具有B个频 带的左声道和具有B个频带的右声道,并且所述候选BRIR中的所述每一个的性能度量至少 基本上等于:其中,η是指示声道的索引,所述索引的值n = l指示左声道,并且所述索引的值n = 2指 示右声道, Cnk=对于所述候选BR IR中的所述每一个的声道η、频带k的感知能量, Tnk =对于与所述候选BRIR中的所述每一个的候选BRIR方向对应的目标BRIR的声道n、 频带k的感知能量, gi〇g=使D最小化的对数增益偏移,并且 Wn =对于声道η的加权因子。17. 根据权利要求12-16中的任何一项所述的方法,其中,所述仿真模型是随机性模型, 步骤(c)包括产生随机变量的至少一个序列的步骤,并且产生候选BRIR的步骤部分地由所 述随机变量中的至少一些驱动。18. 根据权利要求12-17中的任何一项所述的方法,其中,所述候选BRIR中的每一个并 因此在步骤(e)中所识别的BRIR表示虚拟房间的响应。19. 根据权利要求18所述的方法,其中,在步骤(e)中所识别的BRIR表示不容易物理可 实现的虚拟房间的响应。20. -种音频处理单元,所述音频处理单元被配置为设计双耳房间脉冲响应(BRIR),所 述双耳房间脉冲响应(BRIR)在与输入音频声道进行卷积时产生双耳信号,所述双耳信号指 示来自具有相对于预期收听者的方向和距离的源的声音,所述音频处理单元包括: 仿真子系统,所述仿真子系统被配置为根据仿真模型产生候选双耳房间脉冲响应(候 选BRIR),所述仿真模型对具有相对于预期收听者的候选BRIR方向和候选BRIR距离的音频 源的响应进行仿真,其中,所述候选BRIR方向至少基本上等于所述方向,并且所述候选BRIR 距离至少基本上等于所述距离;和 第二子系统,所述第二子系统被耦合和配置为通过根据至少一个目标函数对所述候选 BRIR进行处理来产生性能度量,所述性能度量包括所述候选BRIR中的每一个的性能度量, 其中,所述第二子系统还被配置为识别所述性能度量中具有极值的一个,将所述候选BRIR 中性能度量具有所述极值的一个识别为BRIR,以及产生指示所述BRIR的至少一个信号。21. 根据权利要求20所述的音频处理系统,其中,所述仿真模型是随机性模型,所述仿 真子系统被配置为产生随机变量的至少一个序列,并且所述仿真子系统被配置为以部分地 由所述随机变量中的至少一些驱动的方式产生候选BRIR。22. 根据权利要求20或权利要求21所述的音频处理系统,其中,所述仿真子系统被配置 为根据预定的感知线索产生候选BRIR使得所述候选BRIR中的每一个在与所述输入音频声 道进行卷积时产生指示提供所述感知线索的声音的双耳信号。23. 根据权利要求20-22中的任何一项所述的音频处理系统,其中,所述第二子系统被 配置为针对每个所述候选BRIR方向确定目标BRIR,并且其中,所述候选BRIR中的每一个的 性能度量指示所述候选BRIR中的所述每一个与目标BRIR之间的相似程度,所述目标BRIR与 所述候选BRIR中的所述每一个的候选BRIR方向对应。24. 根据权利要求23所述的音频处理系统,其中,所述第二子系统被配置为将指示所述 候选BRIR中的每一个的感知分带的频域数据与指示对应于所述候选BRIR中的所述每一个 的候选BRIR方向的目标BRIR的感知分带的频域数据进行比较。25. 根据权利要求24所述的音频处理系统,其中,指示所述候选BRIR中的每一个的感知 分带的频域数据和指示每个所述目标BRIR的感知分带的频域数据指示具有B个频带的左声 道和具有B个频带的右声道,并且所述候选BRIR中的所述每一个的性能度量至少基本上等 于:其中,η是指示声道的索引,所述索引的值n = l指示左声道,并且所述索引的值n = 2指 示右声道, Cnk=对于所述候选BR IR中的所述每一个的声道η、频带k的感知能量, Tnk =对于与所述候选BRIR中的所述每一个的候选BRIR方向对应的目标BRIR的声道n、 频带k的感知能量, gi〇g=使D最小化的对数增益偏移,并且 Wn =对于声道η的加权因子。26. 根据权利要求20-25中的任何一项所述的音频处理系统,其中,所述候选BRIR中的 每一个并因此所识别的BRIR表示虚拟房间的响应。27. -种被配置为响应于多声道音频输入信号的一组N个声道产生双耳信号的系统,其 中,N是正整数,所述系统包括: 滤波子系统,所述滤波子系统被耦合和配置为将N个双耳房间脉冲响应BRIR^ BRIR2,……、BRIRN应用于所述音频输入信号的所述一组声道,从而产生滤波信号,其包括通 过对于在从1到N的范围中的索引i的每个值将所述双耳房间脉冲响应中的第"i"个双耳房 间脉冲响应BRIR i应用于所述组的第"i"个声道;和 信号组合子系统,所述信号组合子系统被耦合到所述滤波子系统,并且被配置为通过 组合所述滤波信号来产生双耳信号,其中,每个所述81?11?1在与所述组的第"i"个声道进行 卷积时产生指示来自具有相对于预期收听者的方向^和距离Cl 1的源的声音的双耳信号,并 且每个所述BRIR1已通过包括以下步骤的方法被预先确定: 根据仿真模型产生候选双耳房间脉冲响应(候选BRIR),所述仿真模型对具有相对于预 期收听者的候选BRIR方向和候选BRIR距离的音频源的响应进行仿真,其中,所述候选BRIR 方向至少基本上等于所述方向^,并且所述候选BRIR距离至少基本上等于所述距离d1; 通过根据至少一个目标函数对所述候选BRIR进行处理来产生性能度量,所述性能度量 包括所述候选BRIR中的每一个的性能度量;以及 识别所述性能度量中具有极值的一个,并且将所述候选BRIR中性能度量具有所述极值 的一个识别为BRIRi。28. 根据权利要求27所述的系统,其中,所述系统是耳机虚拟器。29. 根据权利要求27所述的系统,其中,所述系统是包括虚拟器子系统的解码器,并且 所述虚拟器子系统实现所述滤波子系统和信号组合子系统。30. 根据权利要求27-29中的任何一项所述的系统,其中,每个所述BRIRi已通过包括针 对每个所述候选BRIR方向确定目标BRIR的步骤的方法被设计,并且其中,所述候选BRIR中 的每一个的性能度量指示所述候选BRIR中的所述每一个与目标BRIR之间的相似程度,所述 目标BRIR与所述候选BRIR中的所述每一个的候选BRIR方向对应。31. 根据权利要求30所述的系统,其中,每个所述BRIR1E通过包括将所述候选BRIR中的 每一个的感知分带的频域表示与对应于所述候选BRIR中的所述每一个的候选BRIR方向的 目标BRIR的感知分带的频域表示进行比较的步骤的方法被设计。32. 根据权利要求31所述的系统,其中,所述候选BRIR中的所述每一个的性能度量指示 所述候选BRIR中的所述每一个和所述目标BRIR的临界频带中的特定响度。33. 根据权利要求31所述的系统,其中,每个所述感知分带的频域表示包括具有B个频 带的左声道和具有B个频带的右声道,并且所述候选BRIR中的所述每一个的性能度量至少 基本上等于:其中,η是泪不尸迫tfj糸,尸/T迎糸WtfJ IMJI =丄泪不Zn尸迫,升上LZjTT迎糸tl勺值η = 2指 示右声道, Cnk=对于所述候选BR IR中的所述每一个的声道η、频带k的感知能量, Tnk =对于与所述候选BRIR中的所述每一个的候选BRIR方向对应的目标BRIR的声道n、 频带k的感知能量, gi〇g=使D最小化的对数增益偏移,并且 Wn =对于声道η的加权因子。34. -种音频处理单元,包括: 存储器,所述存储器存储指示双耳房间脉冲响应(BRIR)的数据,所述双耳房间脉冲响 应(BRIR)在与输入音频声道进行卷积时产生双耳信号,所述双耳信号指示来自具有相对于 预期收听者的方向和距离的源的声音;和 处理子系统,所述处理子系统被耦合到所述存储器,并且被配置为执行以下操作中的 至少一个:产生指示BRIR的所述数据,或者使用指示BRIR的所述数据响应于多声道音频输 入信号的一组声道产生双耳信号,其中,所述BRIR已通过包括以下步骤的方法被预先确定: 根据仿真模型产生候选双耳房间脉冲响应(候选BRIR),所述仿真模型对具有相对于预 期收听者的候选BRIR方向和候选BRIR距离的音频源的响应进行仿真,其中,所述候选BRIR 方向至少基本上等于所述方向,并且所述候选BRIR距离至少基本上等于所述距离; 通过根据至少一个目标函数对所述候选BRIR进行处理来产生性能度量,所述性能度量 包括所述候选BRIR中的每一个的性能度量;以及 识别所述性能度量中具有极值的一个,并且将所述候选BRIR中性能度量具有所述极值 的一个识别为BRIR。35. 根据权利要求34所述的音频处理单元,其中,所述音频处理单元是耳机虚拟器。36. 根据权利要求34所述的音频处理单元,其中,所述音频处理单元是解码器。37. 根据权利要求34-36中的任何一项所述的音频处理单元,其中,所述BRIR已通过包 括针对每个所述候选BRIR方向确定目标BRIR的步骤的方法被设计,并且其中,所述候选 BRIR中的每一个的性能度量指示所述候选BRIR中的所述每一个与目标BRIR之间的相似程 度,所述目标BRIR与所述候选BRIR中的所述每一个的候选BRIR方向对应。38. 根据权利要求37所述的音频处理单元,其中,所述BRIR已通过包括将所述候选BRIR 中的每一个的感知分带的频域表示与对应于所述候选BRIR中的所述每一个的候选BRIR方 向的目标BRIR的感知分带的频域表示进行比较的步骤的方法被设计。39. 根据权利要求38所述的音频处理单元,其中,所述候选BRIR中的所述每一个的性能 度量指示所述候选BRIR中的所述每一个和所述目标BRIR的临界频带中的特定响度。40. 根据权利要求38所述的音频处理单元,其中,每个所述感知分带的频域表示包括具 有B个频带的左声道和具有B个频带的右声道,并且所述候选BRIR中的所述每一个的性能度 量至少基本Lu其中,η是指示声道的索引,所述索引的值n = l指示左声道,并且所述索引的值n = 2指 示右声道, Cnk=对于所述候选BR IR中的所述每一个的声道η、频带k的感知能量, Tnk =对于与所述候选BRIR中的所述每一个的候选BRIR方向对应的目标BRIR的声道n、 频带k的感知能量, gi〇g=使D最小化的对数增益偏移,并且 Wn =对于声道η的加权因子。
【文档编号】H04S7/00GK105900457SQ201480071994
【公开日】2016年8月24日
【申请日】2014年12月23日
【发明人】G·A·戴维森, 颜冠杰, D·J·布瑞巴特
【申请人】杜比实验室特许公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1