用于双耳再现和格式转换的空间音频分析和合成的制作方法

文档序号:2831892阅读:680来源:国知局
专利名称:用于双耳再现和格式转换的空间音频分析和合成的制作方法
技术领域
本发明涉及音频处理技术。更具体地,本发明涉及用于在音频信号中提供空间提 示(spatial cue)的方法。
背景技术
两声道或多声道记录的虚拟3D音频再现通常致力于通过耳机再现出通过扬声 器收听记录那样的听觉。传统方法包括通过利用HRTT(头部相关转移函数)滤波器或 BRIR(双耳房间脉冲响应)滤波器使每个源声道“虚拟化”。这种技术的缺点在于在记录 中部分地跨越声道摆动(pan)的声源通过耳机未被动听地再现,这是因为其是通过两个或 更多个不同方向的HRTF的组合而非通过所需方向的正确HRTF被呈现(render)的。所需要的是用于通过耳机再现两声道或多声道音频信号的方向提示 (directional cue)的经改进的方法。

发明内容
本发明提供了用于基于频域空间分析-合成来双耳呈现信号的装置和方法。该信 号的性质例如是音乐或电影声轨记录、交互式游戏系统的音频输出或者从通信网络或因特 网接收的音频流。其还可以是在房间或任何声学环境中记录的脉冲响应,并且希望用于通 过与任意源信号卷积来再现这种环境的声学。在一个实施例中,提供了用于对具有至少两个声道的音频信号进行双耳呈现的方 法,这两个声道中的每个被指派了各自的空间方向。原始信号可以在任何多声道中或者以空间音频记录格式来提供,该格式包括Ambisonic B格式或较高阶Ambisonic格式;Dolby 环绕、Dolby定向逻辑或任何其它相位-幅度矩阵立体声格式;Dolby数字、DTS或任何离散 多声道格式;以及利用两个或更多个麦克风的阵列获得的传统两声道或多声道记录(包括 双耳记录)。该方法包括将信号转换为频域或子频带表示,在空间分析中导出每个时间频率 分量的方向,并且生成左右频域信号以使得对于每个时间和频率,这两个信号之间的声道 间幅度和相位差与出现在HRTF中的与从空间分析导出的方向角相对应的声道间幅度和相 位差相匹配。根据另一实施例,生成音频输出信号,其具有至少第一和第二音频输出声道。输出 声道是从具有至少一个音频输入声道和至少一个空间信息输入声道的音频输入信号的时 间频率信号表示生成的。选择音频输出格式。接收与时间频率信号的多个帧中的每个帧相 对应的方向信息。从时间频率信号表示生成第一和第二频域信号,第一和第二频率信号在 每个时间和频率处具有至少第一和第二输出声道之间的声道间幅度和相位差,幅度和相位 差表征所选空间音频输出格式中的方向。根据又一实施例,提供了一种生成音频输出信号的方法。提供了优选地具有至少 两个声道的输入音频信号。输入音频信号被转换为频域表示。与多个时间频率分量中的每 个的定位向量所对应的方向向量从频域表示中被导出。从时间频率信号表示生成第一和第 二频域信号,第一和第二频域信号在每个时间和频率处具有表征与方向向量相对应的方向 的声道间幅度和相位差。执行逆变换以将频域信号转换为时域。虽然本发明具有用于通过耳机的经改善双耳再现的特别有利的应用,然而其更 一般地应用于利用任何两声道或多声道音频记录或传输格式来通过耳机或扬声器进行的 空间音频再现,其中,可以通过依赖于频率或独立于频率的声道间幅度和/或相位差来将 方向角编码在输出信号中,包括ambisonic格式;相位-幅度矩阵立体声格式;离散多声 道格式;利用两个或更多个麦克风的阵列的传统两声道或多声道记录;利用基于HRTF(或 "transaural")的虚拟化技术的两声道或多声道扬声器3D音频;以及利用扬声器阵列的声 场再现(包括波场合成)。如从上面的概述将清楚的,本发明可用来将信号从任何两声道或多声道空间音频 记录或传输格式转换为任何其它两声道或多声道空间音频格式。此外,所述方法允许将声 音场景的角度变换包括在格式转换中,声音场景的角度变换例如是应用于声音场景中的声 音分量的方向角的旋转或缠绕(warp)。下面将参考附图描述本发明的这些以及其它特征和 优点。


图1是图示出根据本发明一个实施例的立体声虚拟化方法的流程图。图2是图示出根据本发明另一实施例的用于多声道音频信号的双耳合成方法的 流程图。图3是基于HRTF或BRTF的标准时域虚拟化的框图。图4A是用于图3所示的输入声道之一的时域虚拟化处理的框图。图4B是图4A所示的时域虚拟化处理的框图。
图5是一般的频域虚拟化系统的框图。图6A示出了根据本发明一个实施例的标准5声道音频格式的格式向量以及相对 应的Gerzon向量的编码轨迹(encoding locus)。图6B示出了根据本发明一个实施例的任意6声道扬声器布局的格式向量以及相 对应的Gerzon向量的编码轨迹。图7是根据本发明一个实施例的高分辨率频域虚拟化算法的框图。图8是根据本发明一个实施例的利用主要-周围(primary-ambient)信号分解的 高分辨率频域虚拟化系统的框图。
具体实施例方式现在将详细参考本发明的优选实施例。优选实施例的示例在附图中示出。虽然将 结合这些优选实施例来描述本发明,但是将会理解,不希望将本发明局限于这些优选实施 例。相反,希望覆盖可以包括在由所附权利要求所限定的本发明的精神和范围内的替代方 式、修改和等同物。在以下描述中,提出多个具体细节来提供对本发明的全面理解。本发明 可以在无需这些具体细节中的某些或全部的情况下实施。在其他实例中,没有详细描述公 知的机构,以免不必要地模糊本发明。这里应该注意,遍及各个附图的类似标号指示类似部件。这里示出和描述的各个 附图被用于图示说明本发明的各个特征。就在一张附图中示出而在其他附图中没有示出的 一个特定特征而言,除非特别指示或者该结构本质上禁止并入该特征,否则将理解为这些 特征可以被适应性修改以包括到在其他附图中表示的实施例中,就好像这些特征在这些附 图中被完全示出一样。除非特别指示,否则附图不一定是按比例绘制的。在附图中提供的 任何维度都不认为是对本发明的范围的限制而仅仅是示例性的。本发明提供了用于基于在频域中对记录中的方向提示的空间分析以及将这些提 示转换为双耳提示或声道间幅度提示和/或相位差提示来对两声道或多声道记录进行耳 机再现的频域方法。本发明通过引用并入在2007年5月17日提交的题为“Spatial Audio Coding Based on Universal SpatialCues”、序列号为 11/750,300 (专利机构案卷号为 CLIP159)的美国专利申请中描述的发明的公开中所提供的细节,该申请11/750,300要求 申请60/747,532的优先权,上述申请的全部公开通过引用整体结合于此。本发明使用在美国专利申请No. 11/750,300 (通过引用被结合于此)中描述的方 法来在时间-频率域中分析方向提示。该空间分析针对每个时间频率域分量导出表示相对 于收听者耳朵的位置的方向角。双耳呈现包括生成左右频域信号,以使得对于每个时间和 频率,这两个信号之间的双耳幅度和相位差与从空间分析导出的方向角所对应的HRTF中 出现的双耳幅度和相位差相匹配。很容易将该方法扩展为任何两声道或多声道空间呈现方 法,其中,声音的预期方向是用规定的声道间幅度和/或相位差来表征的。随着便携式媒体设备的激增,耳机收听已变得越来越普遍;因此,在移动和非移动 收听情形中,通过耳机提供高保真收听体验对于现代消费电子产品来说是关键的增值方式 (或者可证实地,甚至是必须特征)。这种增强型耳机再现与立体声内容相关,立体声内容 例如是旧的音乐记录以及多声道音乐和电影声轨。虽然改善耳机收听的算法可以结合动态 处理和/或换能器(transducer)补偿,然而,所描述的本发明的实施例关注空间增强,其目标是最终向耳机收听者提供沉浸式体验。近来,一些包括多个换能器的“空间增强”耳机在市场上已经可获得。虽然这里描 述的方法可以容易地被扩展为这些多换能器耳机,然而,本发明的优选实施例致力于耳机 呈递的更常见的情况,其中,单个换能器用来向给定耳朵呈现信号耳机再现简单地构成了 向收听者的左耳朵呈递左声道信号并且同样地,向右耳朵呈递右声道信号。在这种耳机系 统中,立体声音乐记录(仍为占主导地位的格式)显然可以通过将各个声道信号路由到耳 机换能器来直接地被呈现。然而,作为消费者设备中的默认实现的这种呈现产生了作为空 间沉浸的反效果的头中(in-the-head)收听体验在左右声道之间摆动的源被感知为是从 收听者耳朵之间的点源发的。对于希望用于多声道环绕回放的音频内容(可能最显著的是 电影声轨),通常,除前面的左右声道之外还利用前面的中间声道以及多个环绕声道,直接 耳机呈现要求对这些附加声道的下混(downmix);对于立体声内容,头中定位再次出现,并 且此外,环绕空间图像通过前/后辨别提示的消除而被损害。尽管头中定位经常被耳机收听者体验到,然而其的确是物理上不自然的感 受,并且如所提到的,违背了收听者沉浸的目标,对于收听者沉浸来说,声源的外部化 (externalization)感觉是至关重要的。一种称为虚拟化的技术常用来试图减轻头中定位 并增强外部化感觉。虚拟化的目标通常是通过耳机重建这样的感觉在由音频格式规定的 一些预先建立的位置处,例如典型立体声格式的+/-30°方位角处通过扬声器收听原始音 频内容的感觉。这是通过向每个输入声道应用依赖于位置和依赖于耳朵的处理以便针对每 个声道创建左耳和右耳信号(即,双耳信号)来实现的,左耳和右耳信号模仿如果该特定声 道信号由在音频格式所指示的相应声道位置处的离散扬声器来广播的话将在收听者各个 耳朵处接收到的信号。各个输入声道的双耳信号被混合成为两声道信号以用于通过耳机呈 递,如图3所示。标准虚拟化方法已被应用于音乐和电影收听以及诸如游戏之类的交互式情形。 在后者的情况中,当各个声源明确地可用于预处理时,一组位置精确的头部相关转移函数 (用于头部相关脉冲响应的HRIR或HRTF)可被应用于每个源,以产生对空间上远离的多个 源的有效双耳呈现。然而在音乐(或电影)回放情形中,离散的声源不可用于这种特定于 源的空间处理;声道信号包括各种声源的混合。在本发明的一个实施例中,我们将这种收 听不知道其构成源的确切位置信息的内容的后者情况称为先验,因此,对各个声源的离散 虚拟化不能被执行。然而,应当注意,所提出的方法还适用于以多声道格式混合的交互式音 轨,如在一些游戏机中。在标准的音频记录的虚拟化中,重要的缺点在于记录中部分地跨越声道摆动的声 源不能通过耳机动听地再现,这是因为源是通过多个(在立体声情况中为两个)不同方向 的HRTF的组合而非经由所需源方向的正确HRTF来呈现的。在本发明各个实施例中提出的 新方法中,下面称为空间音频场景编码(SASC)的空间分析算法用来从时间频率域中的输 入音频信号中提取方向信息。对于每个时间和频率,SASC空间分析导出表示相对于收听圆 (listening-circle)(或球体)的中心的位置的方向角和半径;角度和半径对应于感知到 的该时间频率分量的位置(对于位于中心的收听者来说)。然后,左右频域信号基于这些方 向提示被生成,以使得在每个时间和频率处合成信号之间的双耳大小和相位差与通过SASC 分析导出的方向角所对应的HRTF的双耳大小和相位差相匹配,从而使得在声道之间摆动的源真正经过正确的HRTF处理。下面的描述开始于对标准虚拟化方法及其限制的更详细回顾,引入了在对优选实 施例的后续描述中使用的记号,优选实施例包括通过利用SASC空间分析-合成、SASC空 间分析、SASC驱动双耳合成以及在空间分析-合成之前将输入分离为主要分量(primary component)和周围分量(ambient component)的扩展,来克服标准方法的缺陷的新的虚拟
化算法。标准虚拟方法在下面的部分中,我们回顾了耳机虚拟化的标准方法,包括时域和频域处理体系 结构以及性能限制。时域虚拟化两声道或多声道记录的虚拟3D音频再现通常致力于通过耳机再现出通过扬声器 收听记录那样的听觉。图3所示的传统方法包括经由HRTF滤波器(306、308)或BRIR/ BRTF(双耳房间脉冲响应/转移函数)滤波器使输入声道(301-303)中的每个声道“虚拟 化”,并且随后将结果相加(310、312)。Ydt] = ThmL^*Zm[t]⑴ ^M = Z^ W*^ W⑵其中,m是声道索引,并且xm[t]是第m个声道信号。声道m的滤波器h Jt]和 hfflE[t]是由已定义的该声道的空间位置(例如,典型立体声格式的士30°方位角)来指定 的;滤波器心[幻表示从第m个输入位置到左耳的脉冲响应(转移函数),并且hmK[t]表示 到右耳的响应。在HRTF情况中,这些响应仅取决于收听者的形态,而在BRTF情况中,它们 还包括特定(真实的或建模的)混响收听空间的效果;出于简化,我们在本说明书中的剩余 部分中将这些变体互换地称为HRTF(尽管一些讨论更严格地适用于无回音HRTF情况)。用于单声道的基于HRTF的虚拟化在图4A中示出。图4A是用于输入声道之一的 时域虚拟化处理的框图。图4A所示的HRTF滤波器可被分解为耳间水平差(ILD)和耳间 时间差(ITD)。如上所述的滤波器hjt] (403)和h1K[t](404)描述了在信号X1W (402) 传输到各个耳朵的过程中经受的不同声学滤波。在一些方法中,滤波被分解为耳间时间差 (ITD)和耳间水平差(ILD),其中,ITD实质上捕获到耳朵的两个声学路径的不同传播延时, 并且ILD表示因收听者的存在引起的频谱滤波。基于ILD/ITD分解的虚拟化在图4B中示出;这种双耳合成通过向要呈现的信号 施加耳间时间和水平差而获得了虚拟化效果,其中,ITD和ILD是从所需要的虚拟位置确定 的。一般性地给出该图示以反映出,实际上处理通常是基于虚拟理论不同地被执行的例 如,对于给定虚拟源,到同侧耳朵(与该虚拟源最接近)的信号可以无任何延时地被呈递, 而全部的ITD被施加给对侧耳朵信号。应当注意,存在基于ILD/ITD分解的虚拟化的许多 变更,并且大多数情况中,ILD和ITD都可被认为是依赖于频率的。频域虚拟化等式(1)-(2)中的虚拟化公式在频域中可等同地表达为
其中,h[ ]表示h[t]的离散时间傅里叶变换(DTFT),并且χω[ω]表示xm[t] 的DTFT ;这些可利用HRTF滤波器的大小-相位形式被等同地写为 其中,φΛ和ΦωΚ是滤波器各自的相位。耳间相位差(展开的)可被认为表示(依 赖于频率)ITD信息 其中,Δ表示ITD。替代地,ITD可被看作是由耳间过量相位(excess-phase)差 表示的,并且将任何残余相位(例如,来自HRTF测量)归因于声学滤波。在此情况中,每个 HRTF被分解为其最小相位分量和全通分量

(8)
(9)其中,F(co)是最小相位分量,Ψ(ω)是过量相位函数。随后可通过下式获得ITD
(10)图5是一般的频域虚拟化系统的框图。STFT包括滑动窗和FFT,而逆STFT包括逆 FFT和交叠相加。在前面的讨论中,频域公式被理想化;实际上,频域实现方式通常基于短时傅里叶 变换(STFT)框架,例如图5所示的,其中,输入信号被窗口化,并且向每个窗口段应用离散 傅里叶变换(DFT)
(H)其中,k是频率区间(frequency bin)索引,1是时帧(time frame)索引,ω [η]是
N点窗口,T是连续窗口之间的跳跃大小,并且ωt =2πk/k,K是DFT大小。如在等式(3)-(4)
中那样,HRTF滤波是通过频域乘法实现的,双耳信号是通过相加来自各个虚拟化输入声道 的贡献而计算出的
(12) 其中,H[k]表示h[t]的DTF。在STFT体系结构中,实现等同于时域方法的滤波 需要DFT大小足够大以避免时域混叠K >N+Nh-1,其中,Nh是HRIR的长度。对于长的滤波 器,仍可以通过向子频带信号应用经适当导出的滤波器(而不是简单的乘法)或者通过利 用混合时域/频域方法来利用计算上的实际FFT大小实现频域处理。由于数个原因而对频域处理体系结构感兴趣。首先,由于用于计算DFT的快速傅 里叶变换(FFT)算法的低成本(以及频域乘法与时域卷积的对应关系),它们为长FIR滤波 器提供了对时域卷积的高效备选方案。即,与精确时域滤波所需的更复杂的处理需求相比, 可以通过较便宜的硬件或硬件软件组合来对输入音频执行更精确的滤波。此外,在频域表 示中比在时域中可以更灵活更有意义地使HRTF数据参数化并对其建模。标准方法的限制在前面部分所描述的标准HRTF方法中,离散地向单个声道摆动的源可以通过耳 机被动听地虚拟化,即,可以实现给予了外部化感觉以及源的精确空间位置的呈现。然而, 记录中跨越多个声道摆动的声源不能被动听地再现。考虑这样一组输入信号,其中每个输 入信号包含幅度被缩放版本的源s [t]xm [t] = ams[t](14)利用这些输入,等式(1)变为 从该等式可清楚,在此情形中^iW = ^AlW)(16) 因此,源s[t]是通过多个不同方向的HRTF的组合来呈现的,而不是经由实际所需 要的源方向的正确HRTF,即,与输入格式兼容的扬声器再现中的所需源位置来呈现的。除非 经组合的HRTF对应于密排声道,否则,这种HRTF的组合将显著地恶化空间图像。本发明的 各个实施例的方法克服了这种缺陷,如在下面部分中进一步描述的。基于空间分析_合成的虚拟化本发明的实施例将新颖的频域方法用于双耳呈现,其中,对输入音频场景进行分 析以得到空间信息,该空间信息随后被用在合成算法中以呈现对输入场景的真实的引人注 目的再现。频域表示提供了将复杂声学场景提取为分离的声音事件的有效手段,以使得可 向每个这样的事件应用适当的空间处理。图1是图示出根据本发明一个实施例的一般化立体声虚拟化方法的流程图。首 先,在操作102中,对输入信号执行短时傅里叶变换(STFT)。例如,STFT可以包括滑动窗和 FFT0接下来,在操作104中,摆动分析被执行以提取出方向信息。对于每个时间和频率,空 间分析导出了表示源音频相对于收听者头部的位置的方向角,并且可以执行将输入信号分 离为若干个空间分量(例如方向分量和非方向分量)。接下来,在操作106中,利用被设计
10用于在所确定方向角处进行虚拟化的左右HRTF滤波器来执行依赖于摆动的滤波。当为给 定时帧中的所有频率生成了双耳信号并且在操作108中将各个分量组合(可选地,并入输 入信号的一部分)之后,用于呈递给收听者的时域信号通过操作110中的逆变换和交叠相 加过程被生成。图2是图示出根据本发明一个实施例的用于多声道音频的双耳合成的方法的流 程图。首先,在操作202中,对输入信号,例如多声道音频输入信号执行短时傅里叶变换 (STFT)。例如,STFT可以包括滑动窗和FFT。接下来,在操作204中,空间分析被执行以提 取出方向信息。对于每个时间和频率,空间分析导出表示源音频相对于收听者头部的位置 的方向向量。接下来,在操作206中,优选地,基于将出现在从相应时间频率方向向量(由 块204提供的)导出的左右头部相关转移函数(HRTF)中的相位和幅度差来对每个时间频 率分量滤波。更具体地,生成在每个时间和频率分量处具有相对声道间相位和幅度值(其 表征所选输出格式中的方向)的至少第一和第二频域输出信号。在为给定时帧中的所有频 率生成了至少两个输出声道信号之后,用于呈递给收听者的时域信号通过操作208中的逆 变换和交叠相加过程来生成。下面将更详细地描述空间分析方法、双耳合成算法以及主要-周围分解的并入。空间咅频场景编码空间分析方法包括在时间频率域中从输入信号提取方向信息。对于每个时间和 频率,空间分析导出表示相对于收听者头部的位置的方向角;对于多声道情况,其还导出 描述了相对于收听圆中心的径向位置的距离提示,以便能够使越过(fly-over)和穿过 (fly-through)声音事件参数化。分析是基于导出Gerzon向量的以确定每个时间和频率处 的定位 其中,是第m个输入声道的方向中的单位向量。针对标准5声道设置的这些格 式向量的示例在图6A中示出。等式(18)中的权重am[k,l]对于Gerzon速度向量由下式 给出 并且对于Gerzon能量向量由下式给出
(20)其中,M是输入声道数目。速度向量被认为更适合用于确定低频事件的定位(并 且能量向量更适合用于高频)。图6Α示出了标准5声道音频格式的格式向量(601-605)(实线)以及相对应的 Gerzon向量的编码轨迹(606)(虚线)。图6Β示出了针对任意扬声器输出的格式向量以及 编码轨迹。Gerzon向量608和定位向量609在图6Α中示出。虽然由等式(18)和(19)或(20)定义的Gerzon向量的角度可以取任何值,但是其半径被限制以使得向量总是位于内接多边形之内(或之上),内接多边形的顶点在格式 向量端点处(如图6A和图6B的每个中的虚线所示的);多边形上的值是仅针对成对摆动 的源获得的。这种受限的编码轨迹导致了不精确的空间再现。为了克服这个问题并且使得 能够精确地且独立于格式地进行空间分析并表示收听圆中的任意声音位置,如下这样来计
算定位向量j[良/](其中,针对每个时间1处的每个区间k执行这些步骤)1.经由等式(18)导出Gerzon向量。2.找到g|>,/]任一侧上的相邻格式向量;下面将这些相邻格式向量用司和。来表 示(其中,出于标记简化的目的,省略了这些被标识格式向量的频率和时间索引k和1)。3.利用矩阵& = [^ej],计算定位向量的半径如下 其中,脚标1表示向量的l-norm( S卩,向量元素的绝对值之和)。4.导出定位向量如下 其中,脚标2表示向量的欧几里德距离。这以极坐标形式被编码为半径r[k,1]和方位角θ [k,1]。注意,等式(22)中给出的定位向量在与Gerzon向量相同的方向上。这里,尽管向 量长度通过等式(21)中的投影操作而被修改,以使得定位向量的编码轨迹被扩展为包括 整个收听圆;然而对于未经修改的Gerzon向量,成对摆动分量在圆周上而非内接多边形上 被编码。上述空间分析首先被开发来提供用在独立于格式的空间音频编码方案中的“通用 空间提示”。通过这种对音频场景的健壮且灵活的参数化(下面将其称为空间音频场景编 码(SASC))已经使能了多种新的空间音频算法;例如,这种空间参数化已用于任意多声道 音频格式之间的高保真转换。这里,在图5所示的频域虚拟化算法中提供了对SASC的应用。 在该体系结构中,SASC空间分析被用来确定所感知到的输入音频场景中的每个时间频率分 量的方向。然后,通过用于在该方向进行虚拟化的适当双耳处理来呈现每个这样的分量;将 在下面的部分中讨论这种双耳空间分析。尽管上面是基于输入信号的STFT表示来对分析进行描述的,然而SASC方法同样 可以应用于其它频域变换和子频带信号表示。此外,除了方位角和径向位置信息以外,很容 易将该分析(以及合成)扩展为包括仰角(elevation)。空间合成在包括虚拟化算法的方法实施例中,信号Xm[k,1]和空间定位向量^;众,/]都被提 供给双耳合成引擎,如图7所示。在合成中,频域信号Yjk,l] *YK[k,l]基于提示
被生成,以使得在每个时间和频率处,正确的HRTF大小和相位被应用于在由2[众,/]所指示
的方向上的虚拟化。合成算法中的处理步骤如下并且针对每个时间1处的每个频率区间k 被执行
1.对于角度提示θ [k,l](对应于定位向量2[众,/]),确定该角度处的虚拟化所需 的左右HRTF滤波器 Hr [k,l] = Fr [k l]ejWkTR μ,/](24)其中HRTF相位在这里用时间延迟τ L[k, 1]和xR[k, 1]来表达。径向提示r[k, 1]还可以作为仰角或邻近效应而被包括在对这些HRTF的推导中,如下所述。2.对于每个输入信号分量Xm [k,1],计算双耳信号YmL[k, 1] = Hl[k, l]Xm[k,1](25)YmE[k, 1] = He[k, l]Xm[k,1](26)3.累加最后的双耳输出信号 在针对给定帧1的所有k生成了双耳信号之后,呈递给收听者的时域信号通过如 图7所示的逆变换和交叠相加来生成。图7是高分辨率频域虚拟化算法的框图,其中,空间 音频场景编码被用来确定输入音频场景中每个时间频率分量的虚拟化方向。输入信号702 被转换为频域表示706,然而优选地不必使用短时傅里叶变换704。优选地,在空间分析块 708中分析频域信号,以至少生成每个时间频率分量的方向向量709。应当理解,本发明的 实施例不局限于执行空间分析的方法,或者即使在执行空间分析的方法实施例中,也不局 限于特定的空间分析技术。在2007年5月17日提交的题为“Spatial Audio Coding Based on Universal Spatial Cues”的共同待决申请No. 11/750,300 (通过引用被并入)中更详 细地描述了 一种用于空间分析的优选方法。接下来,时间频率信号表示(频域表示)706在高分辨率虚拟化块710中被进一步 处理。该块通过从时间频率信号表示706中至少生成第一和第二频域信号712来获得针对 所选输出格式声道718的虚拟化效果,时间频率信号表示706针对每个时间和频率分量具 有表征与方向向量709相对应的方向的声道间幅度和相位差。随后优选地通过利用逆短时 傅里叶变换714以及传统的交叠和相加技术来将第一和第二频域声道转换为时域,从而产 生输出格式声道718。在等式(25、26)的公式表达中,每个时间频率分量Xm[k,l]通过HRTF被独立地虚 拟化。很容易操纵在等式(27、28)中给出的最后的合成表达式以产生= 这些公式表明其等效于首先对输入声道进行下混,然后执行虚拟化。由于在下混中可能出现不希望的信号删除,因此,在本发明的优选实施例中引入了归一化,以确保下混 的功率与每个时间和频率处的多声道输入信号的功率相匹配。Fl[k, 1]和FK[k,1]的频域乘法与滤波操作相对应,然而在这里,与前面讨论的情 况相反,滤波器脉冲响应长度为K ;由于在频域中非线性地构建滤波器(基于不同频率区间 的不同空间分析结果),因此,相应的滤波器脉冲响应的长度不受约束。因此,以这种方式构 建的滤波器的频域乘法总是会引入一些时域混叠,这是因为滤波器长度和DFT大小相等, 即,不存在用于卷积的零填充。收听测试指示出这种混叠是听不见的,因此不会造成问题, 然而,如果需要,可以通过在每个时间1处对滤波器Hjk,1] *HK[k,1]进行时间限制来减 少它,例如通过与充分短的时域窗的频谱的频域卷积。可以近似地实现这种卷积(作为简 单的频谱平滑操作)以节省计算。在任一情况中,时限频谱校正在每个区间k处改变滤波 器HL[k,1]和HK[k,1],因此降低了得到的空间合成的精确度。在空间合成算法的步骤1中寻找适当的滤波器Hjk,1]和HK[k,1]对应于确定任 意方向θ [k,l]的HRTF。这种问题在交互式3D位置音频系统中也会遇到。在一个实施例 中,Hl[k, 1] *HK[k,1]的大小(或最小相位)分量是通过根据在一组离散方向处获得的 HRTF测量的数据库来在每个频率处进行空间内推而导出的。简单的线性内推通常是足够 的。ITD是通过根据所测得ITD值的类似内推或者通过近似公式来单独重建的。例如,具有 直径上相对的耳朵以及半径b的球形头部模型产生了 A[k,l]=~ (e[kj] + sin /]) (31)
c其中,c表示声速,方位角θ [k,l]是以前方为基准的弧度。这种对ITD的单独内 推或计算对于任意方向处的高保真虚拟化是至关重要的。在如上所述那样确定了适当ITDA [k,l]之后,通过将ITD分配在左右信号之间来 导出等式(23、24)中所需的延迟τ Jk,1]和TK[k,1]。在优选实施例中TL[kJ]=To+^^-(32)(33)其中,偏移τ。被引入以允许任一声道上的正负延迟。与针对每个时间频率分量 作出同侧/对侧判定并且仅使用正延迟的备选方法相比,使用这种偏移产生了更健壮的频 域修正。对于宽频带瞬态事件,将相位修正引入DFT频谱可能导致不希望的失真(例如瞬 时拖尾)。两个措施对于消除这种问题是有效的。首先,低频切除(low cutoff)可被引入 用于ITD处理,以使得高频信号结构不经过ITD相位修正;这对空间效果的影响较小,因为 ITD提示对于中间范围频率处的定位或虚拟化是最重要的。其次,可以包括进瞬态检测器; 如果帧包含宽频带瞬态,则可将相位修正从每区间相移改变为宽频带延迟,以使得针对瞬 态结构实现适当的ITD。这假设在DFT中使用了足够的过采样以允许这种信号延迟。此外, 可将宽频带延迟局限于表现出最短暂行为的区间,从而使得针对在瞬态期间持续存在的固
14定源维持高分辨率虚拟化。仰角和邻沂效应当应用于多声道内容时,前面描述的SASC分析产生了径向提示的值,以使得对于 成对摆动(在圆周上)的声源或声音事件r[k,1] = 1,并且对于“在圆内部”摆动的声音 事件r[k,1] < 1。当r[k,1] =0时,声音事件的定位与基准收听位置一致。在对仅水平 方向(或“pantophonic”)格式,例如图6A所示的5. 1格式的多声道记录的扬声器再现中, 位于基准位置(或“最佳听音点(sweet spot)”)处的收听者将感知到位于头部之上的声 音(假设所有声道包含经缩放版本的共同源信号)。这种状况的双耳再现可以通过在利用 与天顶位置(仰角=90° )相对应的滤波器对源信号滤波之后将同一源信号均等地馈送给 两个耳朵来容易地实现。这表明,对于pantophonic多声道记录,基于SASC的双耳呈现方 案可被扩展为通过将径向提示r[k,1]映射到仰角Y来处理任何值的该提示y [k, 1] = S(r[k, 1])(34)其中,仰角映射函数S将间隔W,l]映射到[π/2,0]。在一个实施例中,这种映射 函数(以弧度为单位)由下式给出S(r[k, 1]) = arccos(r[k, 1]).(35)这种解决方案假设SASC定位向量^;允/]是到虚拟源位置(通过方位角θ [k,1]
和仰角Y [k,1]定义的)的水平平面上的投影,其跨越与以收听者为中心的球体的上半部 分相符的3D编码表面。更一般的解决方案被定义为任何3D编码表面,其围绕垂直轴保持 对称并且包括单位圆的圆周作为其边缘。例如,假设3D编码表面为扁平的或“瘪的”球体 将防止估计r[k,1]时的小误差转化为双耳呈现空间场景时的可觉察到的假性仰角效应。在一个实施例中,针对r[k,1] < 1的附加增强包括合成双耳近场效应,以针对位 于收听者头部附近(大约1米或更近)的声音事件产生更引人注目的幻觉。这包括将r[k, 1](或由方位角θ [k,1]和仰角γ [k,1]定义的3D源位置)映射为物理距离量度,并且将 在前述双耳合成中使用的HRTF数据库扩展为包括近场HRTF数据。近似的近场HRTF校正 可以通过近似地调节位于横向上的声源的耳间水平差来实现。要应用于两个耳朵处的增益 因子和β κ可以通过分割给定ITD值的耳间路径长度差来导出
其中,ρ表示从源到头部(的中心)的物理距离,等式(31)的ITD近似可被扩展 为考虑到仰角Y [k,1],如下 在这些公式中,正的角度在顺时钟方向上,正的ITD对应于与源较近的右耳(以使 得左耳信号相对于右耳被延迟并被衰减)。对于三维(或“全向声系统”)的多声道扬声器配置,同空间分析导出的SASC定位向量容易包括仰角信息,并且r[k,1]仅可以解释为临近提示,如上面所述的。主要-周围分解:在合成复杂音频场景时,对于离散源和扩散声音需要不同的呈现方法;离散或主 要声音应当以尽可能多的空间化精确度来呈现,而扩散或周围声音应当以维持(或增强) 与周围源相关联的空间感的感觉的方式来呈现。因此,用于双耳呈现的SASC方案在此被扩 展为包括作为前端操作的主要_周围信号分解,如图8所示。这种主要-周围信号分解将 每个输入信号Xm[k,l]分离为主要信号Pm[k,l]和周围信号Am[k,l];针对这种分解的若干 方法已在文献中提出。图8是具有主要-周围信号分解的高分辨率频域虚拟化系统的框图,其中,未示出 输入和输出时间频率变换。首先,频域输入信号806在主要-周围分解块808中被处理以 产生主要分量810和周围分量811。在此实施例中,对主要分量执行空间分析812以产生方 向向量814。优选地,根据在共同待决美国申请No. 11/750,300中描述的方法来执行空间分 析。替代地,通过从输入信号生成方向向量的任何合适的技术来执行空间分析。接下来,在 高分辨率虚拟化块816中结合方向向量信息814来处理主要分量信号810以生成频域信号 817,频域信号817针对每个时间和频率分量具有表征与方向向量814相对应的方向的声道 间幅度和相位差。对周围分量811的周围虚拟化在周围虚拟化块818中进行以生成经虚拟 化的周围分量819(其也是频域信号)。由于在下混中可能出现不希望的信号删除,因此,在 本发明的优选实施例中引入的相对归一化,以确保下混的功率与每个时间和频率处的多声 道输入信号的功率相匹配。信号817和819随后被组合。在主要-周围分量分离之后,对主要和周围分量独立地执行虚拟化。将先前描述 的空间分析和合成应用于主要分量pm[k,l]。另一方面,周围信号Am[k,l]可以通过前述表 征多声道虚拟化方法来合适地呈现,尤其是如果输入信号是例如5. 1格式的多声道环绕记 录的话。在两声道记录的情况中,希望将周围信号分量虚拟化为环境声场而不是通过一对 虚拟前方扬声器进行直接再现。在一个实施例中,周围信号分量~[k,l] *AK[k,l]在未经 修改的情况下直接被添加到双耳输出信号,或者经过某种去相关滤波以用于增强效果。备 选方法包括将这对周围信号分量“上混”(upmix)为多声道环绕周围信号并且随后利用前述 的标准技术来虚拟化该多声道信号。该周围上混处理优选地包括向合成环绕周围信号应用 去相关滤波器。应用所提出的基于SASC的呈现方法在多种消费电子设备中具有各种应用,对于这些 消费电子设备,希望在家中或在移动情形中对音乐或电影声轨进行改进的耳机再现。在美 国专利申请 No. 11/750,300(代理机构案卷号 CLIP159,“Spatial Audio Coding Based on Universal Spatial Cues”,通过引用结合于此)中描述的空间分析方法与在频域中执行的 双耳合成的组合提供了对通过耳机再现音乐和电影声轨的空间质量的提高。得到的收听体 验是对收听所记录声音场景的真实双耳记录体验的(或者已建立收听房间中的给定扬声 器再现系统的)更接近的近似。此外,与传统的双耳记录不同,这种再现技术容易支持头部 跟踪补偿,这是因为其允许模拟声音场景相对于收听者的旋转,如下所述。虽然不希望限制 本发明的范围,然而下面将描述本发明的数个另外的应用。
16
空间咅频编码格式如果输入信号已是在频域中提供的,则这里描述的基于SASC的双耳呈现实施例 尤其高效,并且如果输入信号由多于两个声道构成,则甚至更高效,这是因为随后虚拟化具 有减少需要逆变换以转换为时域的声道的数目的效果。作为这种在计算上有利的情形的常 见示例,标准音频编码制式中的输入信号被提供给频域表现中的解码器;类似地,这种情形 出现在对以空间音频编码格式表示的多声道信号的双耳呈现中。在共同待决美国专利申请 No. 11/750,300所描述的SASC格式的情况中,编码器已经提供了空间分析(前面所述的)、 下混信号以及主要-周围分解。因此,上述空间合成方法形成了用于SASC格式的在计算上 高效在感知上精确的耳机解码器的核心。非离散多声道格式基于SASC的双耳呈现方法可以应用于标准离散多声道记录以外的其它音频内 容。例如,其可以用于经ambisonic编码的或经矩阵编码的素材。与共同待决美国专利申 请No. 61/102,002 (代理机构案卷号CLIP228PRV2)中所述的基于SASC的矩阵解码算法以 及称为相位_幅度3D立体声编码器和解码器相组合地,这里提出的双耳呈现方法提供了 用于耳机再现两声道矩阵编码内容的兼容且有效的方法。类似地,其可容易地与SIRR或 DirAC技术组合以用于通过耳机高分辨率地再现ambisonic记录或者用于将房间脉冲响应 从ambisonic格式转换为双耳格式。空间变换基于SASC的双耳呈现方法具有除提高耳机收听的初始动机以外的许多应用。例 如,使用SASC分析架构来参数化原始内容的空间方面使得能够对所呈现场景进行灵活地 健壮地修正。一个示例是通过扭曲角度提示以在高分辨率虚拟化之前在空间上拓宽音频场 景来产生“缠绕式”增强效果。考虑到空间分离是言语可懂度的重要因素已是众所周之的, 则可以证明这种空间拓宽对于改善由助听器提供的听力辅助是有用的。场景旋转和头部跟踪除了空间拓宽以外,通过使用这里所述的基于SASC的双耳呈现方法还可容易地 实现其它模式的内容重分布或基于方向的增强。一种特别有用的重分布是场景旋转;因 为其使得能够精确地合成相对于收听者的声音场景旋转,与传统的虚拟化器或双耳记录不 同,这里描述的再现方法容易支持头部跟踪补偿。实质上,与标准的以声道为中心的虚拟化 方法相比,基于SASC的双耳呈现使得能够改善跟踪头部的双耳虚拟化,这是因为所有主要 声音分量是以精确的HRTF提示来再现的,避免了对在两个或更多个声道之间摆动的声音 的“幻象声像”幻觉进行虚拟化的任何尝试。扬声器再现可以通过引入应用于双耳输出信号的适当串扰消除滤波器来将基于SASC的双 耳呈现方法包括在扬声器再现情形中。对于更高效的实现方式,还可以利用基于HRTF的 或“ transaural ”虚拟化滤波器设计技术来将双耳合成与串扰消除组合在频域合成滤波器 Hl [k, 1]和 HK[k,1]中。一般化为任意空间音频格式转换虽然上面对优选实施例的基于SASC的双耳呈现方法的描述假设利用左输出声道 和右输出声道进行再现,然而,很容易将本发明的原理更一般地应用于利用任何两声道或
17多声道音频记录或传输格式通过耳机或扬声器进行的空间音频再现,其中,可以通过规定 的依赖于频率或独立于频率的声道间幅度和/或相位差来将方向角编码在输出信号中。因 此,本发明允许精确地再现以下格式的空间音频场景例如,ambisonic格式、相位-幅度矩 阵立体声格式、离散多声道格式、与两个或更多个麦克风阵列相关联的传统的两声道或多 声道记录格式、利用基于HRTF(或“transaural”)的虚拟化技术或使用扬声器阵列的声场 再现方法(例如波场合成)的两声道或多声道扬声器3D音频格式。如从上面的描述将清楚的,本发明可用来将信号从任何两声道或多声道空间音频 记录或传输格式转换为任何其它两声道或多声道空间音频记录或传输格式。此外,方法允 许将声音场景的角度变换包括在格式转换中,声音场景的角度变换例如是应用于声音场景 中的声音分量的方向角的旋转或缠绕。虽然已经出于清楚理解的目的而较详细地描述了本发明,但是将会意识到,在所 附权利要求的范围内可以进行某些改变和修改。因此,所述实施例将被认为是示例性的而 非限制性的,并且本发明并不局限于这里给出的细节,而是可以在所附权利要求的范围和 等同物之内进行修改。
18
权利要求
一种从具有至少一个音频输入声道和至少一个空间信息输入声道的音频输入信号的时间频率信号表示生成具有至少第一和第二音频输出声道的音频输出信号的方法,该方法包括选择空间音频输出格式,以使得音频输出信号中的方向由所述至少第一和第二音频输出声道之间的每个频率处的声道间幅度差和声道间相位差中的至少一者来表征;接收与所述时间频率信号表示的多个帧中的每个帧相对应的方向信息;以及从所述时间频率信号表示生成第一和第二频域输出信号,所述第一和第二频域输出信号在每个时间和频率处具有表征所述空间音频输出格式中的方向的、所述至少第一和第二输出声道之间的声道间幅度差和声道间相位差。
2.如权利要求1所述的方法,还包括接收与所述时间频率信号表示的多个帧中的每 个帧相对应的半径值,所述半径值中的每个对应于从被分析音频源到收听者的距离或者对 应于被分析音频源相对于水平平面的仰角。
3.如权利要求1所述的方法,其中,所述多声道音频输入信号是ambisonic编码信号或 相位_幅度矩阵编码信号之一。
4.如权利要求1所述的方法,其中,所述时间频率信号表示包括输入音频信号的主要 分量。
5.如权利要求4所述的方法,还包括接收与所述输入音频信号的至少一个周围分量 相对应的周围方向向量,接收与所述输入音频信号相对应的周围分量的时间频率表示,并 且利用所述周围方向向量和所述周围分量来生成所述第一和第二频域信号。
6.如权利要求1所述的方法,其中,所述音频输入信号是立体声信号。
7.如权利要求1所述的方法,还包括将所述音频输入信号转换为频域表示,并且从所 述频域表示导出方向角信息。
8.如权利要求7所述的方法,还包括将所述音频输入信号分解为主要分量和周围分 量,并且至少对所述主要分量的时间频率表示执行空间分析以导出所述方向角信息。
9.如权利要求1所述的方法,还包括执行归一化以确保音频输出格式声道的功率与 每个时间和频率处的音频输入信号的功率相匹配。
10.一种生成双耳音频信号的方法,包括将输入音频信号转换为频域表示;从所述频域表示导出与多个时间频率分量中的每个的定位方向相对应的方向向量;从所述时间频率信号表示生成第一和第二频域信号,所述第一和第二频域信号在每个 时间和频率处具有表征与所述方向向量相对应的方向的声道间幅度和相位差;执行逆变换以转换所述频域信号。
11.如权利要求1所述的方法,其中,所述音频输出信号用于利用耳机或扬声器进行再现。
12.如权利要求1所述的方法,其中,所述声道间幅度和相位差是针对来自测得的或计 算出的HRTF或BRFT数据的多个方向并且在每个频率处导出的。
13.如权利要求1所述的方法,其中,所述方向信息根据收听者头部的朝向或位置而被 校正。
14.如权利要求1所述的方法,其中,所述空间音频输出格式是transaural格式、ambisonic格式或相位-幅度矩阵编码格式之一。
15.如权利要求1所述的方法,其中,所述音频输出信号用于利用扬声器进行再现,并 且所述声道间幅度和相位差是针对根据ambisonic再现或波场合成方法的多个方向并在 每个频率处导出的。
全文摘要
描述了用于对诸如记录之类的两声道或多声道音频信号进行格式转换或再现的频域方法。该再现基于对输入音频信号中的方向提示的空间分析以及将这些提示转换为用于频域中的两个或更多个声道的音频输出信号提示。
文档编号G10L19/00GK101884065SQ200880119120
公开日2010年11月10日 申请日期2008年10月2日 优先权日2007年10月3日
发明者吉恩-马克·乔特, 迈克尔·M·古德温, 马克·多勒森 申请人:创新科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1