产生和处理表示hrtf的参数的方法和设备的制作方法

文档序号:7639630阅读:325来源:国知局
专利名称:产生和处理表示hrtf的参数的方法和设备的制作方法
技术领域
本发明涉及一种产生表示头部相关传递函数的参数的方法。 本发明还涉及一种用于产生表示头部相关传递函数的参数的设备。本发明进一步还涉及一种处理表示头部相关传递函数的参数的方法。而且,本发明涉及一种程序元件。此外,本发明还涉及一种计算机可读介质。
背景技术
随着虚拟空间中声音的操作开始吸引人们的注意,音频声音,尤 其是3D音频声音在例如结合了图像的各种游戏软件和多媒体应用中提 供人造真实感方面变得越来越重要。在音乐中大量使用的许多效应中,声场效应被认为是重建特定空间中听到的声音的 一 种尝试。在这种情况下,将通常称为空间声音的3D声音理解为这样的声音, 其经过处理向听众提供(虚拟)声源在三维环境中的一定位置处的印象。从一定方向到达听众的听觉信号在该信号到达听众双耳中的耳膜 之前与听众身体的一些部分发生交互作用。这种交互作用的结果是, 到达耳膜的声音通过从听众肩膀的反射、通过与头部的交互作用、通 过耳廓响应以及通过耳道内的共鸣而发生改变。可以说,身体对于进 入的声音具有滤波效应。具体的滤波性质取决于声源(相对于头部) 的位置。此外,由于声音在空气中的速度有限,因而可能觉察到两耳 间存在明显的时延,这取决于声源的位置。这里,头部相关传递函数 (HRTF)发挥了作用。这些头部相关传递函数近来^皮称为解剖学传递 函数(ATF: Anatomical transf er f露t ion ),它们是声源位置的方 位角和仰角的函数,描述了从 一 定声源方向到听众耳膜的滤波效应。HRTF数据库是通过相对于声源测量从一 大组位置到两耳的传递函 数而构建的。这种数据库可以针对各种声学条件来获得。例如,在无回声的环境中,由于不存在反射,因此HRTF只是获取了从某个位置到 耳膜的直接传递。HRTF也可以在有回声条件下进行测量。如果也获取 了反射,那么这种HRTF数据库就是与特定房间有关的。HRTF数据库通常用来定位"虚拟"声源。通过将声音信号与一对 HRTF巻积并且在耳机上呈现得到的声音,听众可以感知声音来自与该 HRTF对相应的方向,这与感知声音"在头部,,是对立的,感知声音"在 头部,,发生在将未经处理的声音呈现在耳机上的时候。在这点上,HRTF 数据库是一种用于定位虚拟声源的通行方式。发明内容本发明的一个目的是改善头部相关传递函数的表示和处理。为了实现上面定义的目的,提供了产生如独立权利要求中所限定 的表示头部相关传递函数的参数的方法、用于产生表示头部相关传递 函数的参数的设备、处理表示头部相关传递函数的参数的方法、程序 元件和计算机可读介质。依照本发明的一个实施例,提供了一种产生表示头部相关传递函 数的参数的方法,该方法包括步骤将表示第一头部相关冲激响应信 号的第一频域信号分解成至少两个子带;根据这些子带的值的统计度 量产生这些子带中的至少一个子带的至少一个第一参数。此外,依照本发明的另一个实施例,提供了一种用于产生表示头 部相关传递函数的参数的设备,该设备包括分解单元,其适用于将 表示第一头部相关沖激响应信号的第一频域信号分解成至少两个子 带;参数生成单元,其适用于根据这些子带的值的统计度量产生这些 子带中的至少一个子带的至少一个第一参数。依照本发明的另一个实施例,提供了一种计算机可读介质,其中 存储了用于产生表示头部相关传递函数的参数的计算机程序,所述计 算机程序在由处理器执行时,适用于控制或实现上述方法步骤。而且,依照本发明的又一个实施例,提供了一种用于处理音频数 据的程序元件,所述程序元件在由处理器执行时,适用于控制或实现 上述方法步骤。依照本发明的再一个实施例,提供了一种用于处理表示头部相关 传递函数的参数的设备,该设备包括输入级,其适用于接收声源的骨频信号;确定装置,其适用于接收表示头部相关传递函数的基准参 数并且适用于根据所述音频信号确定表示声源的位置和/或方向的位 置信息;处理装置,其用于处理所述音频信号;影响装置,其适用于 根据所述位置信息来影响对所述音频信号的处理,得到受过影响的输 出音频信号。依照本发明,处理音频信号以产生表示头部相关传递函数的参数 可以通过计算机程序即通过软件来实现,或者通过使用一个或多个专 用电子优化电路即用硬件来实现,或者以混合形式即通过软件部件和 硬件部件来实现。这些软件或软件部件可以事先存储在数据载体上或 者通过信号传输系统来传送。依照本发明特征部分的特性的优点尤其在于,当应用到音频信号 时,头部相关传递函数(HRTF)通过筒单的参数来表示,使得计算复 杂度降低。以信息量而论,常规的HRTF数据库通常相对较大。每个时域冲激 响应可能包括大约64个样本(对于低复杂度、无回声条件而言)乃至 数千个样本长(在交混回响的房间中)。如果在竖直和水平方向上以 10度的分辨率测量HRTF对,那么要存储的系数的数量高达至少 360/10*180/10*64=41472个系数(假定沖激响应为64个样本),但 是很容易为更大的数量级。对称的头部将需要(180/10)* (180/10) *64 个系数(这是41472个系数的一半)。依照本发明的一个有利的方面,可以用与单声源的处理复杂度近 似相等的处理复杂度来合成多个同时发生的声源。由于处理复杂度降 低,因而有利的是,即使对于大量的声源,也有可能实现实时处理。在另一个方面,已知上述参数是针对一组固定的频率范围来确定 的,这一事实导致与采样率无关的参数化。不同的采样率只需要有关 如何将参数频带与信号表示关联起来的不同的表。此外,显著降低了表示HRTF的数据量,导致存储要求降低,这事实上是移动应用中的一个重要问题。本发明的其他实施例将在下文中参照从属权利要求来描述。现在描依照本发明的另一个方面,实现了将表示第二头部相关冲激响 应信号的第二频域信号分解成该第二头部相关冲激响应信号的至少两个子带;根据这些子带的值的统计度量产生该第二头部相关冲激响应信号的这些子带中的至少一个子带的至少一个第二参数;以及产生表 示每子带所述第一频域信号和所述第二频域信号之间的相位角的第三参数。换言之,依照本发明, 一对头部相关冲激响应信号即第一头部相 关沖激响应信号和第二头部相关沖激响应信号,是通过该沖激响应对 的相应头部相关沖激响应信号之间的延迟参数或相差参数以及通过一 组频率子带中的每个沖激响应的平均均方根(rms )来描述的。该延迟 参数或相差参数可以是单一(频率无关)值或者可以是依赖于频率的。在这个方面,如果所述头部相关冲激响应信号对即所述第一头部 相关沖激响应信号和所述第二头部相关沖激响应信号,属于同一空间 位置,那么从感性认识上讲是有利的。在例如出于优化目的的定制之类的特殊情况下,如果所述第一频 域信号是通过使用某个采样率以一定采样长度采样第一时域头部相关 沖激响应信号产生第 一时间离散信号并且将该第 一时间离散信号变换 到频域产生所述第 一频域信号而得到的,那么这可能是有利的。所述第一时间离散信号到频域的变换适宜基于快速傅立叶变换 (FFT),并且将所述第一频域信号分解成子带依据的是对FFT分块 (bin)进行分组。换言之,用于确定比例因子和/或时差/相差的频带 优选地被组织成(但不限于)所谓的等价矩形带宽(ERB)带。HRTF数据库通常包括一组有限的虚拟声源位置(一般情况下,距 离是固定的并且空间分辨率为5-IO度)。在许多情况下,必须针对测 量位置之间的位置产生声源(尤其在虚拟声源随时间移动的情况下)。 这种在测量位置之间的位置的产生需要对可用的冲激响应进行插值。 如果HRTF数据库包括对于竖直和水平方向的响应,那么必须对每个输 出信号执行双线性插值。因此,对于每个声源来说,需要针对每个耳 机输出信号的四个沖激响应的组合。如果必须同时"虚拟化"更多的 声源,那么所需沖激响应的数量变得甚至更加重要。在本发明的一个方面,通常使用10个和40个之间的频带。依照 本发明的技术措施,可以有利地直接在参数域中执行插值,从而需要10-40个参数的插值而不是时域中的全长HRTF冲激响应。而且,由于 通道间相位(或时间)和幅度分开进行插值这一事实,因而有利的是, 相位抵消伪像显著减少了或者可能并不发生。在本发明的另一个方面,在主频率范围内处理所述第一参数和第 二参数,并且在该主频率范围的子频率范围内处理表示相位角的所述 第三参数。经验结果和科学证据两者都表明,对于一定频率界限之上 的频率而言,相位信息从感性认识上讲实际上是冗余的。在这个方面,所述子频率范围的频率上限适宜位于2kHz-3kHz的 范围内。因此,通过忽略这个频率界限之上的任何时间或相位信息可 以达到进 一 步的信息减少和复杂度降低。依照本发明的技术措施的一个主要的应用领域在于处理音频数据 的领域中。然而,这些技术措施可以嵌入到这样的技术方案中,其中 除了音频数据之外,也处理例如与视觉内容有关的附加数据。因此, 可以在视频数据处理系统的框架中实现本发明。依照本发明的应用可以实现为包括便携式音频播放器、便携式视 频播放器、头盔显示器、移动电话、DVD播放器、CD播放器、基于硬 盘的媒体播放器、因特网无线电设备、车载音频系统、公共娱乐设备 和MP3播放器的组中的一个设备。这些设备的应用优选地被设计用于 游戏、虚拟现实系统或者合成器。虽然提到的这些设备涉及本发明的 主要应用领域,但是其他应用也是可能的,例如应用于电话会议和 远程出席(telepresence);针对弱视者的音频显示器;远程教学系 统和针对电视电影的专业声像编辑以及喷气式战斗机(3D音频可能有 助于飞行员)和基于pc的音频播放器。在本发明的又一个方面,上面提到的参数可以跨设备传送。其优 点在于,每个音频再现设备(PC、膝上型电脑、移动播放器等等)可 以个人化。换言之,所获得的某人自己的参数数据与他或她自身的耳 朵匹配,而不需要像常规的HRTF—样传送大量的数据。人们甚至可以 想象通过移动电话网络来下载参数组。在这个域中,传送大量的数据 仍然是相对昂贵的,参数化方法将是一种非常合适的(有损)压缩类 型。在又一个实施例中,如果用户和听众喜欢,他们也可以经由交换 接口交换他们的HRTF参数组。按照这种方式可以轻易使得通过其他人的耳朵去听成为可能。根据下文中描述的实施例,本发明的上面定义的方面和其他方面 是显而易见的,并且将参照这些实施例进行解释。


下面将参照实施例的示例更详细地描述本发明,本发明并不限于 这些实施例。图1表示依照本发明的一个优选实施例用于处理音频数据的设备。图2表示依照本发明的另一个实施例用于处理音频数据的设备。 图3表示依照本发明的一个实施例用于处理音频数据的设备,其 包括存储单元。图4详细表示图1或图2中所示用于处理音频数据的设备中实现 的滤波器单元。图5表示依照本发明的一个实施例的另一个滤波器单元。图6表示依照本发明的一个优选实施例用于产生表示头部相关传 递函数(HRTF)的参数的设备。图7表示依照本发明的一个优选实施例用于处理表示头部相关传 递函数(HRTF)的参数的设备。
具体实施方式
附图中的图解是示意性的。在不同的附图中,相似或相同的元件 用相同的附图标记来表示。现在将参照图6来描述用于产生表示头部相关传递函数(HRTF) 的参数的设备600。设备60Q包括HRTF表601、采样单元602、变换单元603、分解单 元604和参数生成单元605。HRTF表601存储了至少第 一时域HRTF冲激响应信号/( , £, Z)和第 二时域HRTF沖激响应信号r(a,s,f),两者都属于同一空间位置。换言 之,HRTF表对于虛拟声源位置存储了至少一个时域HRTF冲激响应对 (/( ,£,。, 每个沖激响应信号由方位角ct和仰角s表示。可替换地,可以在远程服务器上存储HRTF表601,并且可以经由合适 的网络连接提供HRTF沖激响应对。在采样单元602中,使用采样率y;以采样长度Ai对这些时域信号 采样以得到其数字(离散)表示,即在当前情况下得到第一时间离散信号/( , s)[w]和第二时间离散信号£)[ <formula>formula see original document page 11</formula>在当前情况下,使用的采样率为力=44. lkHz。可替换地,可以使 用另外的采样率,例如16kHz或者22. 05kHz或者32kHz或者48kHz。随后在变换单元603中,使用傅立叶变换将这些离散时间表示变 换到频域,得到其复值频域表示,即第一频域信号l(a,力[A]和第二频 域信号及(a, s)[A:(hO…U):剩=》(",2"牟(3)(4)接下来,在分解单元604中,通过对相应的频域信号的FFT分块k 进行分组来将这些频域信号分解成子带6。这样一来,子带6包括FFT 分块AE&。这种分组过程优选以如下方式执行使得到的频带具有符 合心理听觉原理的非线性频率分辨率,换言之,该频率分辨率优选地 与人类听觉系统的非均匀频率分辨率匹配。在当前情况下,使用了 20 个频带。可以指出的是,可以使用更多的频带,例如40个频带,或者 更少的频带,例如10个频带。此外,在参数生成单元605中,分別产生和计算基于这些子带的 值的统计度量的子带参数。在当前情况下,将均方根运算用作统计度 量。可替换地,依照本发明,也可以利用子带中的功率谱值的模(mode) 或中值作为统计度量或者随子带中的(平均)信号水平单调递增的任 何其他度量(或范式)。在当前情况下,信号"《,£)阅的子带6中的均方根信号参数 户/乂《, s)由下式给出~ I、 I M6(5)类似地,信号及(《,£)[&的子带6中的均方根信号参数£)由下式给出这里,(*)表示复共轭算子,l&l表示与子带6相应的FFT分块*的数量。最后,在参数生成单元605中,产生子带6的信号I(oc,s)[W和 / ( , s)[W之间的平均相位角参数0"a, £),其在当前情况下由下式给出依照本发明的另一个实施例,根据图6,提供了 HRTF表601,。与 图6的HRTF表601形成对照的是,这个HRTF表601,提供了已经在频 域中的HRTF冲激响应;例如,在表中存储了 HRTF的FFT。所述频域表 示被直接提供给分解单元604,,并且通过对相应频域信号的FFT分块k 进行分组来将这些频域信号分解成子带6。接下来,提供了参数生成单 元605,,并且以与上述参数生成单元605相似的方式对其进行调节。现在参照图1来描述依照本发明的一个实施例用于处理输入音频 数据Xi和表示头部相关传递函数的参数的设备100。该设备100包括求和单元102,所述求和单元102适用于接收许多 音频输入信号XL..Xj以便通过对所有这些音频输入信号XL..Xi进行求 和来产生求和信号SUM。将求和信号SUM提供给滤波器单元103,所述 滤波器单元103适用于根据滤波器系数对所述求和信号SUM进行滤波, 得到第一音频输出信号0S1和第二音频输出信号0S2,所述滤波器系数 在当前情况下即第 一滤波器系数SF1和第二滤波器系数SF2。下面给出 了有关滤波器单元103的详细描述。此外,如图1所示,设备100包括参数转换单元104,所述参数转 换单元104适用于一方面接收代表所述音频输入信号Xi的声源空间位 置的位置信息Vi,另一方面接收代表所述音频输入信号Xi的谱功率的 谱功率信息Si,其中该参数转换单元104适用于根据与输入信号i相应 的位置信息Vj和谱功率信息Si产生所述滤波器系数SFl、 SF2,并且其 中该参数转换单元104还适用于接收传递函数参数以及还根据所述传 递函数参数产生所述滤波器系数。图2表示了本发明的另一个实施例中的一种装置200。装置200 包括依照图1中所示实施例的设备100,并且还包括适用于根据增益因 子gi来缩放音频输入信号Xi的缩放单元201。在这个实施例中,参数 转换单元104还适用于接收代表音频输入信号的声源距离的距离信息, 根据所述距离信息产生增益因子gi,并且将这些增益因子gi提供给缩 放单元201。因此,借助于简单的技术措施就可靠地实现了距离的效果。现在将参照图3来更详细地描述依照本发明的系统或设备的一个 实施例。在图3的实施例中,显示了系统300,其包括依照图2中所示实施 例的装置200,并且还包括存储单元301、音频数据接口 302、位置数 据接口 303、语功率数据接口 3Q4和HRTF参数接口 305。存储单元301适用于存储音频波形数据,音频数据接口 302适用 于根据所存储的音频波形数据提供所述许多音频输入信号Xi。在当前情况下,针对每个声源以脉冲编码调制(PCM)波表的形式 来存储音频波形数据。然而,波形数据还可以附加地或者单独地以另 一种形式来存储,所述形式例如符合MPEG-1层3 (MP3)、高级音频编 码(AAC) 、 AAC-Plus等标准的压缩格式。在存储单元301中,对于每个声源还存储了位置信息Vi,并且位 置数据接口 303适用于提供所存储的位置信息Vi。在当前情况下,这个优选的实施例针对的是计算机游戏应用。在 这种计算机游戏应用中,位置信息Vi随着时间而变化,并且取决于经 过编程的绝对空间位置(即计算机游戏场景中的虚拟空间位置),但 它也取决于用户的动作,例如,当游戏场景中的虚拟个人或用户旋转 或改变他的虚拟位置时,相对于该用户的声源位置也发生改变或者也 应该发生改变。在这样的计算机游戏中,从单声源(例如来自后面的枪炮声)到 其中每个乐器位于计算机游戏场景中的不同空间位置的复调音乐,每 种事情都是可能发生的。同时发生的声源数可以是例如高达64个,因 此音频输入信号Xi的范围将从X!到X64。接口单元302根据大小为n的帧中所存储的音频波形数据来提供 所述许多音频输入信号Xi。在当前情况下,每个音频输入信号Xi是以 11kHz采样率来提供的。对于每个音频输入信号Xi,也可以使用其他13采样率,例如44kHz。在缩放单元201中,依照方程(1 )使用每通道的增益因子或权重 gi将大小为n的输入信号Xi即Xi[n组合成求和信号SUM,即单声道 (mono )信号m[n+] = Z&["]X'["] (8)增益因子gi由参数转换单元10 4根据如前所述伴随位置信息Vi而 产生的被存储的距离信息来提供。 一般情况下,位置信息Vi和谱功率 信息Si参数具有低得多的更新率,例如每ll毫秒更新一次。在当前情 况下,每声源的位置信息Vi由方位角、仰角和距离信息的三元组组成。 可替换地,可以使用笛卡尔坐标(x,y,z)或者其他坐标。可选地,位 置信息可以包括组合或子集即形如仰角信息和/或方位角信息和/或距 离信息中的信息。原则上,增益因子gi[n是依赖于时间的。然而,由于这些增益因 子的所需更新率远远小于输入音频信号Xi的音频采样率,因而假定这 些增益因子gi[n对于短的时间段(如前所述,大约11毫秒到23毫秒) 而言是恒定不变的。这个性质允许进行基于帧的处理,其中增益因子 gi是恒定不变的,并且求和信号m[n]由方程(2)表示+] = Sg'x'["] (9)现在将参照图4和5来解释滤波器单元103。图4中所示的滤波器单元103包括分割单元401、快速傅立叶变换 (FFT)单元402、第一子带分组单元403、第一混频器4(M、第一组合 单元405、第一反FFT单元406、第一叠加单元407、第二子带分组单 元408、第二混频器409、第二组合单元410、第二反FFT单元"1以 及第二叠加单元412。第一子带分组单元403、第一混频器4(M和第一 组合单元405构成第一混频单元413。类似地,第二子带分组单元408、 第二混频器409和第二组合单元410构成第二混频单元"4。分割单元401适用于将输入信号分割成重叠的帧并且给每帧加窗, 所述输入信号在当前情况下分别为求和信号SUM和信号mn]。在当前 情况下,Harming窗用于加窗才喿作。也可以4吏用其他方法,例如Welch 或三角形窗。随后,FFT单元402适用于使用FFT将每个加窗的信号变换到频域。在所给出的示例中,使用FFT将长度为N (n-0…N-l)的每个帧 m[n变4灸到频域将这个频域表示M[k]拷贝到进一步也称为左通道L的第一通道以 及进一步也称为右通道R的第二通道。然后,通过对每个通道的FFT 分块进行分组来将该频域信号分解成子带b (b=0..B-l),即借助于用 于左通道L的第一子带分组单元403以及借助于用于右通道R的第二 子带分组单元408来进行分组。其后逐带产生(FFT域中的)左输出帧 Lk]和右输出帧R[k。实际的处理包括依照针对与当前FFT分块相应的频率范围而存储 的各比例因子来修改(缩放)每个FFT分块,以及依照所存储的时差 或相差来修改相位。关于相差,可以以任意的方式应用该差值(例如 应用到两个通道(除以2)或者仅应用到一个通道)。每个FFT分块的 各个比例因子是借助于滤波器系数矢量来提供的,所述滤波器系数矢 量在当前情况下即提供给第一混频器404的第一滤波器系数SF1和提 供给第二混频器409的第二滤波器系数SF2。在当前情况下,所述滤波器系数矢量对于每个输出信号的频率子 带都提供复值比例因子。接着在缩放之后,由反FFT单元406将被修改的左输出帧L[k]变 换到时域,得到左时域信号;由反FFT单元411对右输出帧R[k进行 变换,得到右时域信号。最后,在获得的时域信号上进行的叠加运算 得到每个输出通道的最终时域,即通过第一叠加单元407得到第一输 出通道信号0S1以及通过第二叠加单元412得到第二输出通道信号 0S2。图5中示出的滤波器单元103,与图4中示出的滤波器单元103的 不同之处在于,提供了适用于向每个输出通道提供去相关信号的去相 关单元501,所述去相关信号是根据从FFT单元402获得的频域信号而 导出的。在图5中示出的滤波器单元103,中,提供了类似于图4中示 出的第一混频单元413的第一混频单元413,,但是该第一混频单元413, 还适用于处理去相关信号。同样地,提供了类似于图4中示出的第二 混频单元414的第二混频单元414,,所述图5的第二混频单元414,也 附加地适用于处理去相关信号。(10)在这种情况下,其后如下逐带产生(FFT域中的)两个输出信号 L[k和R[k<formula>formula see original document page 16</formula>这里,D〖k表示依照下列性质从频域表示M[k获得的去相关信号这里,(*)表示复共轭。去相关单元501包括延迟时间的量级为10-20ms(—般情况下为一 帧)的简单延迟,其使用FIFO緩冲器来实现。在另一些实施例中,去 相关单元可以基于随机化幅度或相位响应,或者可以包括FFT子带或 时域中的IIR或全通状结构。Engdeg蟲rd, Heiko Purnhagen, Jonas R6d6n, Lars Liljeryd 2004年发表于proc. 116th AES convention, Berlin的文章"参数立体编码中的合成氛围(Synthet ic ambiance in parametric stereo coding),,给出了这样的去相关方法的例子,这 篇文章的公开内容在此引入以供参考。去相关滤波器的目的在于在某些频带下建立起一种"弥漫性,,感 受。如杲到达人类听众的双耳的输出信号除了时差或级差之外是相同 的,那么人类听众将感觉声音来自某个方向(其取决于时差和级差)。 在这种情况下,所述方向非常清楚,即该信号是空间"紧凑的"。然而,如果来自不同方向的多个声源同时到达,那么每只耳朵将 接收到声源的不同混合体。因此,不能将双耳的差异建模成简单的(依 赖于频率的)时差和/或级差。在这种情况下,由于不同的声源已经混 合成单个声源,因而不可能重建不同的混合体。不过,这种重建基本 上是不需要的,因为已知人类听觉系统难于根据空间性质来分离各个 声源。这种情况下占优的知觉方面在于,如果对时差和级差的波形进 行了补偿,那么双耳处的波形如何不同。已经证明,通道间相干性(或 归一化互相关函数的最大值)这样的数学概念是与空间"紧凑性"知 觉紧密匹配的度量。主要的方面在于,必须重建正确的通道间相干性,以便即4吏在双 耳处的混合体有误的情况下也引起虚拟声源的类似知觉。这种知觉可 以描述为"空间弥漫性"或缺乏"紧凑性"。此即去相关滤波器与混 频单元一道所重建的。参数转换单元104决定,在规则HRTF系统的情况下,如果波形已 经基于单声源处理,那么这些波形将会如何不同。于是,通过在两个 输出信号中有差别地混合直接和去相关信号,就可能重建不能归因于 简单缩放和时延的信号中的这种差异。有利的是,通过重建这种弥散 性参数,获得了一种实际声级(sound stage)。如已经所提到的,参数转换单元104适用于针对每个音频输入信 号Xi根据位置矢量V,.和谱功率信息乂来产生滤波器系数SF1、 SF2。在当前情况下,这些滤波器系数由复值混频因子hxx,b来表示。这些复值混频因子是有利的,特别是在低频区中。可以指出的是,可以使用 实值混频因子,特别是在处理高频时。在当前情况下,复值混频因子hn,b的值首先取决于表示头部相关 传递函数(HRTF )模型参数P,,b(a, £)、 Pr,b((x, s)和小A(a, s)的传递函数参 数这里,HRTF模型参数P,,b(a,e)表示针对左耳的每个子带6中的均 方根(rms)功率,HRTF模型参数Pr,b(a,s)表示针对右耳的每个子带6 中的rms功率,HRTF模型参数cK(a,s)表示左耳和右耳HRTF之间的平 均复值相位角。给出的所有HRTF模型参数都是方位角(a)和仰角(£) 的函数。因此,在这个应用中只需要HRTF参数P,,b(a,s)、 Pr,b(a, £)和 (tu(a,s),而不需要实际的HRTF (其存储为有限冲激响应表,由大量不同的方位角和仰角值进行索引)。存储的这些HRTF模型参数用于一组有限的虚拟声源位置,在当前 情况下用于水平和竖直两个方向上20度的空间分辨率。其他分辨率也 是可能的或合适的,例如10或30度的空间分辨率。在一个实施例中,可以提供插值单元,其适用于对空间分辨率之 间的被存储的HRTF模型参数进行插值。优选地,应用双线性插值,但 是其他的(非线性)插值方案可能是合适的。相对于常规的HRTF表,通过提供依照本发明的HRTF模型参数, 可以实现有益的更快的处理。特别是在计算机游戏应用中,如果考虑 了头部的运动,那么音频声源的回放需要所存储HRTF数据之间的快速插值。在又一个实施例中,提供给参数转换单元的这些传递函数参数可 以基于并且表示球形头部模型。在当前情况下,谱功率信息Si表示与输入信号Xj的当前帧相应的 每频率子带线性域中的功率值。这样,可以将Si解释为每子带功率或 能量值02的矢量:s丄=L。20l (j、,, ,(72b j当前情况下的频率子带(b)数为10。这里应当指出的是,谱功率 信息Si可以由幂或对数域中的功率值表示,频率子带数的值可以达到 30或40个频率子带。功率信息Si基本上描述了某个声源在一定频带和子带中分別具有 多少能量。如果某个声源在一定频带中相对于所有其他声源是(能量 上)占优的,那么这个占优声源的空间参数就在由滤波器操作所应用 的"复合,,空间参数上得到更大的权重。换言之,通过使用频带中每 个声源的能量来对每个声源的空间参数进行加权,以便计算一组平均 空间参数。对这些空间参数的重要扩展是,不仅产生了每通道的相差 和水平,而且也产生了相干值。该值描述了由两个滤波器操作产生的 波形应该如4可相似。为了解释用于滤波器因子或复值混频因子hxx,b的准则,引入了一 对可替换的输出信号,即L,和R,,所述输出信号L,、 R,将通过依照HRTF 参数P!,b(a, s)、 Pr,b(a, s)和(b "a, s)对每个输入信号Xi进行独立修改, 接着对输出进行求和来得到<formula>formula see original document page 18</formula> (14)然后依照下列准则获得混频因子hxx,b:1.假定输入信号Xi在每个频带b中是互相独立的<formula>formula see original document page 18</formula>《〉,(15) 2,每个子带b中输出信号L[k]的功率应该等于信号L,[k的同一 子带中的功率<formula>formula see original document page 19</formula>3. 每个子带b中输出信号R[k]的功率应该等于信号R,[k的同一子带中的功率<formula>formula see original document page 19</formula>4. 对于每个频带b,信号Lk和M[kl之间的平均复角度应该等于 信号L,[k和M[k之间的平均复相位角<formula>formula see original document page 19</formula>5. 对于每个频带b,信号Rk]和M[k之间的平均复角度应该等于 信号R,k和M[k之间的平均复相位角<formula>formula see original document page 19</formula>6. 对于每个频带b,信号Lk和Rk]之间的相干性应该等于信号 L,[k和R,[k之间的相干性<formula>formula see original document page 19</formula>可以证明,下面的(非唯一的)答案满足上述准则<formula>formula see original document page 19</formula>)其中<formula>formula see original document page 19</formula><formula>formula see original document page 20</formula>这里,(Tb,i表示信号Xi的子带b中的能量或功率,Si表示声源i的距离。在又一个实施例中,滤波器单元103可替换地基于实值或复值滤 波器组,即模仿hxy,b的频率依赖性的IIR滤波器或FIR滤波器,结杲 不再需要FFT方法了。在听觉显示器中,音频输出或者经过扬声器或者经过听众所戴的 耳机传送给听众。耳机和扬声器两者既有优点又有缺点, 一个或另一 个可能产生更加令人喜欢的结果,这取决于应用。在另一个实施例中, 例如对于耳机通过每只耳朵使用不止一个扬声器或者使用扬声器回放 配置可以提供更多的输出通道。现在将参照图7描述依照本发明的一个优选实施例用于处理表示 头部相关传递函数(HRTF)的参数的设备700a。设备7 00a包括输入 级700b,其适用于接收声源的音频信号;确定装置700c,其适用于接 收表示头部相关传递函数的基准参数,并且还适用于根据所述音频信 号确定表示声源的位置和/或方向的位置信息;处理装置,其用于处理 所述音频信号;影响装置700d,其适用于基于所述位置信息影响所述骨频信号的处理,得到受过影响的输出音频信号,在当前情况下,用于处理表示HRTF的参数的设备700a用作助听 器700。助听器7 00还包括适用于向输入级700b提供声源的声音信号或音 频数据的至少一个声音传感器。在当前情况下,提供了两个声音传感 器,其用作第一麦克风701和第二麦克风702。第一麦克风701适用于检测来自环境的声音信号,所述声音信号在当前情况下位于靠近人702 的左耳的位置。此外,第二麦克风703适用于检测来自靠近人702的 右耳的位置处的环境的声音信号。第一麦克风701耦合到第一放大单 元704以及位置估计单元705。按照相似的方式,第二麦克风703耦合 到第二放大单元706以及位置估计单元705。第一放大单元7(H适用于 向第 一再现装置提供经过放大的音频信号,所述第 一再现装置在当前 情况下即第一扬声器707。按照相似的方式,第二放大单元706适用于 向第二再现装置提供经过放大的音频信号,所述第二再现装置在当前情况下即第二扬声器708。这里应当指出的是,在放大单元704和706 之前可以设置用于各种已知的音频处理方法的其他音频信号处理装 置,例如DSP处理单元、存储单元等等。在当前情况下,位置估计单元705表示确定装置700c,其适用于 接收表示头部相关传递函数的基准参数并且还适用于根据所述音频信 号确定表示声源的位置和/或方向的位置信息。沿这个位置信息单元705向下,助听器700还包括增益计算单元 710,其适用于向第一放大单元704和第二放大单元706提供增益信息。 在当前情况下,增益计算单元710与放大单元704、 706 —起构成影响 装置700d,其适用于基于所述位置信息影响音频信号的处理,得到受 过影响的输出音频信号。位置信息单元705适用于确定由第一麦克风710提供的第一音频 信号和由第二麦克风703提供的第二音频信号的位置信息。在当前情 况下,如上面在图6和用于产生表示HRTF的参数的设备600的情况下 所描述的,表示HRTF的参数;f皮确定为位置信息。换言之,如同通常根 据HRTF冲激响应进行的测量那样,可以根据进入的信号帧测量相同的 参数。结果,代替将HRTF冲激响应作为到设备600的参数估计级的输 入的是,分析左、右输入麦克风信号的一定长度(例如44. lkHz的1024 个音频样本)的音频帧。位置信息单元705还适用于接收表示HRTF的基准参数。在当前情 况下,基准参数存储在优选地被设置在助听器700内的参数表709中。 可替换地,参数表709可以是以有线或无线方式经由接口装置连接的 远程数据库。换言之,测量进入助听器700的麦克风701、 703中的声音信号的 参数可以对声源的方向或位置进行分析。其后,将这些参数与存储在 参数表709中的参数进行比较。如果针对一定基准位置的、来自参数 表709中存储的基准参数組的参数与来自进入的声源信号的参数之间 匹配度高,那么很可能声源来自同一位置。在接下来的步骤中,将根 据当前帧中确定的参数与存储在参数表709中(并且基于实际的HRTF) 的参数进行比较。例如假定某个输入帧导致参数P一frame。在参数表 709中,参数P—HRTF(a,s)是方位角(a)和仰角(s)的函数。然后, 匹配过程通过最小化误差函数E(a,e)来估计声源位置,所述误差函数21为E(a,s)叫P—frame-P—HRTF(a,£)|A2,它是方位角(a)和仰角(£) 的函数。对于E给出最小值的方位角(a)和仰角(s)的那些值相应 于声源位置的估计。在下一个步骤中,将匹配过程的结果提供给用于计算增益信息的 增益计算单元710,所述增益信息随后提供给第一放大单元704和第二 放大单元706。换言之,根据表示HRTF的参数,分别估计进入的声源声音信号的 方向和位置,随后根据估计出的位置信息衰减或放大该声音。例如, 可以放大来自人702的前方的所有声音;可以分别衰减其他方向的所 有声音和音频信号。应当指出的是,可以使用增强的匹配算法,例如每参数使用一个 权重的加权方法。于是在误差函数E(a,s)中,有些参数的"重量,,可 以不同于其他参数。应当指出的是,动词"包括"及其变体的使用并没有排除其他的 元件或步骤,冠词"一"的使用并没有排除多个元件或步骤。结合不 同实施例描述的元件也可以加以组合。还应当指出的是,权利要求中的附图标记不应当被视为限制了这 些权利要求的范围。
权利要求
1.一种产生表示头部相关传递函数的参数的方法,该方法包括步骤将表示第一头部相关冲激响应信号的第一频域信号分解成至少两个子带;以及根据这些子带的值的统计度量产生这些子带中的至少一个子带的至少一个第一参数。
2. 如权利要求l所述的方法,其中第一频域信号是通过使用一个采样率(fs)以一定采样长度(N) 采样第一时域头部相关沖激响应信号产生第一时间离散信号并且将该 第 一时间离散信号变换到频域产生所述第 一频域信号而得到的。
3. 如权利要求1或2所述的方法,还包括步骤 将表示第二头部相关冲激响应信号的第二频域信号分解成该第二头部相关冲激响应信号的至少两个子带;根据这些子带的值的统计度量产生该第二头部相关沖激响应信号 的这些子带中的至少一个子带的至少一个第二参数;以及产生表示每子带所述第一频域信号和所述第二频域信号之间的相 位角的第三参数。
4. 如权利要求3所述的方法,其中第二频域信号是通过使用一个采样率(fs)以一定采样长度(N) 采样第二时域头部相关沖激响应信号产生第二时间离散信号并且将该第二时间离散信号变换到频域产生所述第二频域信号而得到的。
5. 如权利要求1-4中任何一项所述的方法,其中统计度量是频域信号的子带(b)信号水平的均方根表示。
6. 如权利要求2或4所述的方法,其中基于FFT而将时间离散信号变换到频域,基于对FFT分块(k)进 行分组而将频域信号分解成至少两个子带。
7. 如权利要求3所述的方法,其中在主频率范围内处理所述第一参数和第二参数,并且在该主频率 范围的子频率范围内处理表示相位角的所述第三参数。
8. 如权利要求7所述的方法,其中所述子频率范围的频率上限位于2kHz和3kHz之间的范围内。
9. 如权利要求3或4所述的方法,其中第一头部相关沖激响应信号和第二头部相关冲激响应信号属于同 一空间位置。
10. 如权利要求1或3所述的方法,其中产生至少两个子带的操作以如下方式被执行使得这些子带具有 符合心理听觉原理的非线性频率分辨率。
11. 一种用于产生表示头部相关传递函数的参数的设备(600 ), 该设备包括分解单元(604 ),其适用于将表示第一头部相关沖激响应信号的 第一频域信号分解成至少两个子带;参数生成单元(605 ),其适用于根据这些子带的值的统计度量产 生这些子带中的至少一个子带的至少一个第一参数。
12,如权利要求11所述的设备(600 ),包括采样单元(602 ),其适用于使用一个采样率(fs)以一定采样长 度(N)采样第一时域头部相关冲激响应信号产生第一时间离散信号; 以及变换单元(603 ),其适用于将该第一时间离散信号变换到频域产 生所述第一频域信号。
13. 如权利要求11或12所述的设备(600 ),其中分解单元(604 ),其还适用于将表示第二头部相关冲激响应信号 的第二频域信号分解成该第二头部相关沖激响应信号的至少两个子带;参数生成单元(605 ),其还适用于根据这些子带的值的统计度量 产生该第二头部相关沖激响应信号的这些子带中的至少一个子带的至 少一个第二参数,并且产生表示每子带所述第一频域信号和所述第二频域信号之间的相位角的第三参数。
14. 如权利要求13所述的设备(600 ),其中采样单元(602 )还适用于通过使用一个采样率(fs)以一定采样 长度(N )采样第二时域头部相关沖激响应信号得到第二时间离散信号 来产生第二频域信号,并且变换单元(603 )还适用于将该第二时间离 散信号变换到频域产生所述第二频域信号。
15. —种计算机可读介质,其中存储了用于处理音频数据的计算 机程序,所述计算机程序在由处理器执行时,适用于控制或实现权利 要求1-4中任何一项的方法步骤。
16. —种用于处理音频数据的程序元件,该程序元件在由处理器 执行时,适用于控制或实现权利要求1-4中任何一项的方法步骤。
17. —种用于处理表示头部相关传递函数的参数的设备(700a), 该设备(7 00a)包括输入级(700b),其适用于接收声源的音频信号;确定装置(700c、 705 ),其适用于接收表示头部相关传递函数的基准参数并且适用于根据所述音频信号确定表示声源的位置和/或方向的位置信息;处理装置(704、 706 ),其用于处理所述音频信号;以及 影响装置(700d),其适用于根据所述位置信息来影响对所述音 频信号的处理,得到受过影响的输出音频信号。
18. 如权利要求17所述的设备(700a ),还包括 至少一个声音传感器(701、 703 ),其用于提供所述音频信号;以及至少一个再现装置(707、 708 ),其用于再现受过影响的输出音频信号。
19. 如权利要求18所述的设备(700a ),被实现为助听器(700 )。
全文摘要
一种产生表示头部相关传递函数的参数的方法,该方法包括步骤a)使用一个采样率(f<sub>s</sub>)以一定采样长度(n)采样第一时域HRTF冲激响应信号产生第一时间离散信号;b)将该第一时间离散信号变换到频域产生第一频域信号;c)将该第一频域信号分解成子带;以及d)根据这些子带的值的统计度量产生这些子带的第一参数。
文档编号H04S1/00GK101263741SQ200680033719
公开日2008年9月10日 申请日期2006年9月6日 优先权日2005年9月13日
发明者J·布里巴特, M·范卢恩 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1