音频空间化及环境模拟的制作方法

文档序号:7937903阅读:211来源:国知局
专利名称:音频空间化及环境模拟的制作方法
技术领域
一般地,本发明涉及声音工程,以及更特别地,涉及数字信号处理方法和用于计算 并创建音频波形的装置,当通过耳机、扬声器或其它播放设备播放时,其仿真至少一个源自 于四维空间内的至少一个空间坐标的声音。
背景技术
声音发源于四维空间内的不同点。人听到这些声音,可以利用多种听觉线索,来确 定发出声音的空间点。例如,人类大脑迅速并有效地处理声音定位线索,比如耳间时间延 迟(即,声音冲击每一个耳膜之间的时间延迟)、收听者耳朵之间的声音压力级别差、在对 声音冲击左耳与右耳的感知方面的相位移动、等等以准确地识别出声音的发源点。通常, “声音定位线索”涉及收听者耳朵之间的时间和/或级别差,在声波方面的时间和/或级别 差,以及用于音频波形的频谱信息。(在这里所使用的“四维空间”,通常涉及随时间变化 (across time)的三维空间,或者作为时间函数的三维空间坐标的位移,和/或参数地定义 的曲线。典型地,使用4-空间坐标或位置矢量定义四维空间,例如在矩形系统内的{x,y, z,t},在球形系统内的Ir,θ,Φ, ,}等等。)人类大脑和听力系统对声音起源进行三角测量方面的效力,对音频工程师和其他 试图复制并使声音空间化以便通过两个或多个扬声器播放的人而言,呈现了特别地挑战。 通常,过去的方法已经采用了复杂的声音预先及后处理,并可能需要专门的硬件比如解码 器板或逻辑部分。这些方法的优秀例子包括杜比(Dolby)实验室的杜比数字处理,DTS,索 尼的SDDS格式,等等。虽然这些方法已经获得了一定程度的成功,但它们是成本和劳动密 集型的。进一步,典型地,所处理的音频的播放需要相对昂贵的音频组件。此外,这些方法 可能不适合用于所有类型的音频或所有的音频应用。据此,需要音频空间化的新方法,该方法将收听者放在静止的虚拟球体(或任何 形状或大小的模拟虚拟环境)的中心,并移动声源,以从像两个这么少的扬声器或耳机,提 供逼真(true-to-life)的声音体验。

发明内容
通常,本发明的一个实施例表现为用于创建四维空间化声音的方法和装置的形 式。在一个广义的方面,用于通过空间化音频波形来创建空间化的声音的示例性的方法包 括的操作有,确定在球形或笛卡尔坐标系统内的空间点,以及把对应于该空6间点的冲击 响应滤波器应到音频波形的第一段,以产生空间化的波形。空间化的波形仿真来源于该空 间点的非空间化波形的音频特征。即,当从一对扬声器播放空间化的波形时,相位,幅度,耳
6间时间延迟,等等使得声音似乎来源于所选的空间点而非扬声器。在考虑到不同的边界条件下,头相关传输函数(head-relatedtransfer function)对于给定的空间点是音响特性的模型。在本实施例中,对于给定的空间点,在球 形坐标系统内计算头相关传输函数。通过使用球形坐标,更精确的传输函数(以及因此更 精确地冲击响应滤波器)可以被创建。这本身又允许更准确的音频空间化。如能够被理解到的,本实施例可以采用多个头相关传输函数,以及因此多个冲击 响应滤波器,以对多个空间点来空间化音频。(如这里所用的,专业术语“空间点”和“空间 坐标”是可互换的。)因此,本实施例可以使音频波形去仿真各种各样的音响特征,由此看 起来在不同时间来源于不同空间点。为了提供两个空间点之间的平滑传输以及因此的平滑 四维音频体验,不同的空间化波形可以与其它的通过插值操作来卷积。应注意到,没有特别的硬件或另外的软件,比如解码器板或应用,或采用杜比或 DTS处理装备的立体声装备,是达成本实施例中音频全空间化所必需的。相反,可以通过任 何具有两个或更多扬声器的音频系统、具有或不具有逻辑处理或解码来播放已空间化的音 频波形,并可以达成四维空间化的全范围。一旦阅读了以下描述和权利要求,将清楚本发明的这些或其它优点或特性。


图1描述了占有四个扬声器之间“最佳听音位置”的收听者的上下视图(top-down view),以及示范性的方位角坐标系统;图2描述了图1所示的收听者的前视图,以及示范性的标高坐标系统;图3描述了图1所示的收听者的侧视图,以及示范性的图2的标高坐标系统;图4描述了用于本发明的一个实施例的高层软件架构的视图;图5描述了用于本发明的一个实施例的单耳或立体声信号源的信号处理链;图6是用于本发明的一个实施例的高层软件处理流程的流程图;图7描述了虚拟声音源的3D地点怎样被设置;图8描述了新HRTF滤波器怎样被从已存在的预先定义的HRTF滤波器插入;图9示意了左和右HRTF滤波器系数之间的耳间时差;图10描述了用于本发明的一个实施例的声音源定位的DSP软件处理流程;图11描述了 HRTF滤波器的低频以及高频滚降(roll off);图12描述了频率和相位钳怎样被用于扩展HRTF滤波器的频率和相位响应;图13示意了对静止和移动声音源的多普勒频移效应;图14示意了收听者和静止的声音源之间的距离怎样被感知为简单延迟(simple delay);图15示意了收听者位置或源位置的移动怎样改变感知的声音源的间隙;图16是全通滤波器实施为具有前馈和反馈路径的延迟元件的方块图;图17描述了全通滤波器的嵌套,以模拟来自正被定位的虚拟声音源附近的对象 的多重反射;图18描述了全通滤波器模型的结果、优先波形(直接入射的声音)以及从源到收 听者的早期反射;
7
图19示意了在处理期间使用重叠窗来分裂HRTF滤波器的幅度频谱以改善频谱平 坦度。图20示意了本发明的一个实施例所使用的改进HRTF滤波器的幅度频谱的频谱平 坦度的短时增益因子;图21描述了当对图19的各个窗求和以获得图22所示的修正的幅度响应时被本 发明的一个实施例作为加权函数所使用的Harm窗;图22描述了具有改进频谱平坦度的修正的HRTF滤波器的最终的幅度频谱;图23示意了当立体声信号的左和右通道实质上相同时,声音源的视在位置;图24示意了当信号仅仅出现在右通道时,声音源的视在位置;图25描述了示出左和右通道之间的采样的短时分布的典型立体声音乐信号的角 度(Goniometer)输出;图26描述了用于利用中心信号带通滤波的本发明的一个实施例的信号路由;图27图示了怎样使用重叠的STFT框来块处理长输入信号。
具体实施例方式1.本发明概览通常,本发明的一个实施例利用声音定位技术,以把收听者放在静止的和移动声 音的任何大小/形状的虚拟球体或虚拟空间的中心。这使用像两个这样少的扬声器或一对 耳机来向收听者提供了逼真的声音体验。在任意位置,能通过处理音频信号以把它分开到 左耳和右耳的通道内、把分离的滤波器应用至两个通道中的每一个(“双耳滤波"),以创 建已处理的音频的输出流,来创造出虚拟声源的印象;其中,该已处理的音频的数据流可以 通过扬声器或耳机播放,或存储在文件中用于以后播放。在本发明的一个实施例中,处理音频源,以达成四维(“4D")声音定位。4D处理 允许虚拟的声音源,在指定的时期内沿着在三维(〃 3D")空间内的路径移动。当空间化 的波形在多个空间坐标之间平移时(典型地,复制在空间内“移动”的声音源),可以平滑空 间坐标之间的平移,以创建多个逼真地、准确地体验。换句话说,空间化的波形可以被操作, 以使所空间化的声音,视在平滑地从一个空间坐标平移到另一个,而不是在空间内的非连 续点之间突然性的变化(即使所空间化的声音实际上发源于一个或多个扬声器、一对耳机 或其它的播放设备)。换句话说,与所空间化的波形对应的已空间化的声音,可能似乎不但 发源于3D空间内的点,除了由放音设备所占用的点以外,而且视在的发源点可能随着时 间变化。在本实施例中,在方向独立的自由域内和/或漫射域的双耳环境(diffuse field binaural environment)内,所空间化的波形可以被从第一空间坐标向第二空间坐标卷积。可以通过用一组滤波器滤波输入音频数据来实现三维声音定位(以及,最后,4D 定位),其中,该组滤波器是从预先确定的头相关传输函数(pre-determined head-related transfer function) (HRTF)或头相关冲击口向应(head related impulse response) (HRTR) 得到的,三维声音定位可以为每一个耳朵在频率上数学地建模相位和幅度的变化,以用于 发源于给定的3D坐标的声音。也就是说,每一个三维坐标可以具有唯一的HRTF和/或 HRIR。对于缺少预先计算的滤波器HRTF或者HRIR的空间坐标,可以根据邻近的滤波器/ HRTF/HRIR对估计的滤波器HRTF或者HRIR进行插值。以下将对插值作详细描述。怎样得
8到HRTF和/或HRIR的细节可以在2004年3月16号提交的申请号为10/802,319的美国 专利申请中得到,该申请通过引用而整体地并入本文中。HRTF可以考虑到不同的生理因素,比如,在耳朵的耳廓内的反射或回声,或由耳廓 的不规则形状引起的失真,来自收听者肩膀和/或躯干的反射,收听者鼓膜之间的距离,等 等。HRTF可以并入这些因素,以产生更值得信赖或准确的空间化的声音的再现。可以创建或计算冲击响应滤波器(一般地为有限的,但在可替代实施例中是无限 的)以仿真HRTF的空间特性。然而,简言之,冲击响应滤波器是HRTF的数值/数字表示。立体声波形可以通过应用冲击响应滤波器或它的近似,通过本方法来变换,以创 建空间化的波形。立体声波形上每一个点(由时间间隔所分离的每一个点),被有效地映射 到空间坐标,对应的声音将自该空间坐标产生。立体声波形可以被采样并受到有限冲击响 应滤波器(“FIR")处理,该滤波器近似于前面提到的HRTF。作为参考,FIR是一种数字 信号滤波器,仅使用一些有限数目的过去的采样,在其中,每一个输出采样相当于当前和过 去的输入采样的加权和。FIR,或它的系数,通常修正波形,以复制所空间化的声音。由于FIR的系数被定义,它们可以被应用到另外的二重听觉波形(dichotic waveforms)(或立体声或单声道),以使这些波形的声音空间化,跳过每一次产生FIR的中 间步骤。本发明的其它实施例,可以使用其它类型的冲击响应滤波器比如无限冲击响应 (“IIR")滤波器而非FIR滤波器,来近似HRTF。随着虚拟环境的大小降低,本实施例可以以增加的精度来复制在三维空间内的点 处的声音。使用相对的测量单位,从零到一百,本发明的一个实施例,从虚拟空间的中心到 它的边界,测量任意大小的场所作为虚拟环境。本实施例采用球形坐标,来测量在虚拟空间 的空间化的点的地点。应注意到,讨论中的空间化的点是相对于收听者的。也就是说,收听 者头的中心对应于球形坐标系统的原点。这样,以上给出的复制的相对精确度与空间大小 有关,且增强了收听者对空间化的点的感知。本发明的一个示例性的实施采用位于单位球面上的一组7337个预先计算的HRTF 滤波器组,在每一个滤波器组中有左和右HRTF滤波器。如这里所使用的,“单位球面”是按 度测量的具有方位角和仰角的球形坐标系统。如以下更为详细的描述,通过为那个位置适 当的插入滤波器系数,可以模拟在空间内的其他点。2.球形坐标系统通常,本实施例采用球形坐标系统(S卩,具有半径r,高度(altitude) θ,以及方位 角Φ作为坐标的坐标系统),但是可以供在标准笛卡尔坐标系统下的输入使用。通过本发 明的某些实施例,笛卡尔输入可以被变换到球形坐标。球形坐标可以被用于映射模拟空间 点,HRTF滤波器系数的计算,两个空间点之间的卷积,和/或基本上这里描述的所有计算。 通常,通过采用球形坐标系统,HRTF滤波器的准确度(以及由此播放期间波形的空间准确 度)可以被提高。据此,当不同的空间化操作在球形坐标系统执行时,可以实现某些优点, 比如提高的准确度和精确度。此外,在某些实施例中,球形坐标的使用,可以最小化创建HRTF滤波器和卷积空 间点之间的空间音频、以及其它这里所描述的操作所需的处理时间。因为声音/音频波通 常穿过媒介以频谱波传播,球形坐标系统非常适于对声音波形的特性进行建模,并以此空
9间化声音。供替换的实施例可以采用不同的坐标系统,包括笛卡尔坐标系统。在本文件中,当讨论示例性的实施时,采用特定的球形坐标协定。进一步,如图1 和3内分别所示,零方位角100、零高度105以及足够长度的非零半径,对应于在收听者头 中心前面的点。如前面所提到的,术语“高度”和“仰角”在这里一般是可互换的。在本实 施例中,方位角在顺时针方向增加,而180度在收听者的正后面。方位角范围从0度到359 度。如图1所示,可替代的实施例可以在逆时针方向增加方位角。相似地,如图2所示,高 度范围可以从90度(收听者头的正上方)到-90度(收听者头的正下方)。图3描述了这 里所使用的高度坐标系统的侧视图。应当注意到,在本文前面提到的坐标系统的讨论中,假定收听者面对主要的或前 方的一对扬声器110,120。因此,如图1所示,对应于前面的扬声器的安置,方位角的半球 范围从0度到90度以及从270度到359度,而对应于背后的扬声器的安置,方位角的半球 范围从90度到270度。在本事例中,收听者关于前面的扬声器110,120改变其旋转平面图 (rotational alignment),坐标系统不变化。换言之,仰角和高度依赖于扬声器,并独立于 收听者。然而,当空间化的音频由收听者所带的耳机交叉播放时,甚至在耳机随着收听者移 动时,参考坐标系统独立于收听者。为了这里讨论的目的,假定收听者相对地保持在一对前 面的扬声器110,120之间的中心,且与它们等距。后面的或另外周围的扬声器130,140是 可选择的。坐标系统的原点160近似地对应于收听者的头250的中心,或者在图1的扬声器 配置内的“最佳听音位置”("sweet spot")。然而,应当注意到,本实施例可以采用任何 球形坐标的符号。现在使用的符号仅仅为了方便,而不是作为限制。此外,当通过扬声器或 其他播放设备交叉播放时,音频波形的空间化以及相应的空间化效果,不必取决于占有“最 佳听音位置”或相对于播放设备的任何其它位置的收听者。所空间化的波形可以通过标准 音频播放装置播放,以在播放期间,创造发源自虚拟声音源位置150的已空间化的音频的 空间感。3.软件架构图4描述了高层软件架构的视图,其用于本发明的一个实施例,利用客户_服务器 软件架构。在几个不同的形式内,这种架构使得本发明的例示包括,但不限于,用于4D音 频后期处理的专业音频工程师应用,用于在2-通道立体声输出中,模拟多_通道呈现格式 (例如,5. 1音频)的专业音频工程师工具,用于热衷于家庭音频混合的人以及使3D定位后 期处理均衡的小的独立工作室的“专业-消费者”(例如,“专业型消费者”)应用,以及,把 给定了一组预先选择的虚拟立体声扬声器位置的立体声文件实时地定位的消费应用。所有 这些应用常常利用同样的基本处理原理和编码。如图4所示,在一个示范的实施例中,有几个服务器端的库(server side libraries)。主机系统改编库400提供多个适配器和接口,其允许主机应用和服务器端的 库直接通信。数字信号处理库405包括滤波器和音频处理软件程序(routines),其把输入 信号变换成定位的3D及4D信号。信号播放库410提供用于一个或多个已处理音频信号的 基本播放功能,比如播放、暂停、快放、倒退以及录音。曲线建模库415对空间内用于虚拟声 音源的静态3D点建模,以及对空间内的随时间移动的动态4D路径建模。数据建模库420 对输入和系统参数建模,典型地,系统参数包括音乐仪器数字化接口设置、用户喜好设置、 数据加密以及数据复制保护。一般使用库425为所有的库提供通用函数,比如坐标转换,字
10符串操作,时间函数和基本数学函数。在不同的主机系统,包括视频游戏控制台430,混合平台435,基于主机的插件包 括,但不限于,实时音频套件接口 440,TDM音频接口,虚拟演播技术接口 445,以及音频单元 接口,或者在独立应用中运行在个人计算机设备(比如桌式或膝上电脑),基于Web的应用 450,虚拟环绕应用455,膨胀立体声应用(expansivestereo application)460,iPod或其 它MP3播放设备,SD无线电接收机,蜂窝电话,个人数字助理或其它手持计算机设备,光盘 (“CD")播放器,数字多用光盘(“DVD")播放器,其它消费及专业音频播放或管理电子 系统或应用,等等,可以采用本发明不同的实施例,以在所处理的音频文件通过扬声器或耳 机播放时,提供出现在空间任意位置的虚拟声音源。也就是说,所空间化的波形可以通过标准音频播放装置来播放,在播放期间,不需 要特别的编码设备来创建来源于虚拟声音源地点的空间化的音频的空间感。换言之,不像 当前的音频空间化技术比如杜比,L0GIC7, DTS,等等,播放装置不需要包括任何准确再现输 入波形的空间化的特殊的程序或硬件。相似地,从任何扬声器配置,包括耳机、两-通道音 频、三或四-通道音频、五-通道音频或更多的、等等,具有或不具有亚低音扬声器,可以准 确地体验到空间化。图5描述了用于单耳500或立体声505音频源输入文件或数据流(来自插件卡比 如声卡的音频信号)的信号处理链。因为信号源通常被放置在3D空间,在由数字信号处理 器(“DSP" )525处理之前,多-通道音频源比如立体声被混降到单个的单耳通道510。注 意DSP可以在特别目的的硬件上被执行,或在通用目的的计算机的CPU上被执行。输入通 道选择器515使立体声文件的通道,或两个通道,能够被处理。单个的单耳通道随后被分裂 成两个相同的输入通道,其可以被路由到DSP 525用于进一步处理。本发明的一些实施例能够使多个输入文件或数据流被同时处理。通常,图5被复 制用于每一个正被同时处理的另外的输入文件。全局旁路开关520使所有的输入文件绕过 DSP 525。这对于输出的〃 A/B"比较(例如,把已处理的与未处理的文件或波形比较)是 有用的。此外,每一个个体的输入文件或数据流能够被直接路由到左输出530,右输出535 或中心/低频率发射输出540,而非通过DSP525。例如,当多个输入文件或数据流被并发地 处理且一个或多个文件将不被DSP处理时,这是可以被使用的。例如,如果只是左前和右前 通道将被定位,可能需要用于上下文(context)的非-定位的(non-localized)中心通道, 以及该中心通道将被绕过DSP路由。此外,具有极低频率(例如,中心音频文件或数据流通 常具有在20-500HZ范围内的频率)的音频文件或数据流,可能不需要被空间化,这种情况 下,典型地,大多数收听者难以查明低频起源。尽管具有这样的频率的波形,可以藉由HRTF 滤波器的使用来空间化,大多数收听者在检测相关联的声音定位线索时将体验到的困难, 使这种空间化的可用性最小化。因此,这样的音频文件或数据流可以绕过DSP路由,以降低 在本发明的计算机_实施的实施例中所需要的计算时间和处理功耗。图6是用于本发明一个实施例的高层软件处理流程的流程图。该处理以操作600 开始,其中,本实施例初始化该软件。然后,执行操作605。操作605从插件导入待处理的音 频文件或数据流。执行操作610,如果该音频文件将被定位或当音频文件不是正被定位时 将选择贯通(pass-through),则为该音频文件来选择虚拟声音源位置。在操作615,进行核
11查,以确定是否有更多待处理的输入音频文件。如果其它的音频文件被导入,则又一次执行 操作605。如果没有更多的音频文件被导入,那么本实施例继续操作620。操作620为每一个音频输入文件或数据流,配置播放选项。播放选项可以包括, 但不限于,循环播放以及待处理的通道(左,右,两者,等等)。然后,执行操作625,以确定 用于音频文件或数据流的声音路径是否正在被创建。如果声音路径正在被创建,执行操作 630,以载入声音路径数据。声音路径数据是一组HRTF滤波器,其被用于随时间,沿着声音 路径在不同的三维空间地点定位声音。声音路径数据可以由用户实时输入,存储在持久存 储器中或在其它适当的存储装置内。操作630之后,本实施例如以下所描述的,执行操作 635。然而,在操作625中,如果本实施例确定声音路径没有正被创建,则访问操作635,而不 是操作630 (换句话说,操作630被跳过)。操作635播放正在被处理的输入信号的音频信号段(segment)。然后,执行操作 640,以确定输入音频文件或数据流是否将由DSP处理。如果文件或流将由DSP处理,执行 操作645。如果操作640确定出没有待执行的DSP处理,则执行操作650。操作645通过DSP处理音频输入文件或数据流段,以产生定位的立体声的声音输 出文件。然后,执行操作650,而本实施例输出音频文件段或数据流。即,在本发明的一些实 施例中,输入音频可以被大体上实时地处理。在操作655,该实施例确定是否到达输入音频 文件或数据流的末端。如果还没有到达文件或数据流的末端,执行操作660。如果已经到达 音频文件或数据流的末端,那么处理停止。操作660确定用于输入音频文件或数据流的虚拟声音位置是否将被移动,以创建 4D声音。注意,在初始化配置期间,用户指定声音源的3D地点,并可以提供另外的3D地点, 以及声音源何时在那个地点的时间戳.如果声音源正在移动,那么执行操作665。否则,执 行操作635。操作665设定新的用于虚拟声音源的地点。然后,执行操作630。应注意到,典型地,对正在被并发处理的每一个输入音频文件或数据流,操作625, 630,635,640,645,650,655,660,以及665被并行地执行。就是说,每一个输入音频文件或 数据流,一段接一段,与其它输入文件或数据流一起被并发地处理。4.指定声音源地点以及双耳滤波器插值图7示出了本发明一个实施例采用的基本过程,用于在3D空间内指定虚拟声音源 的地点。执行操作700,以获得3D声音地点的坐标。典型地,用户通过用户接口输入3D源 地点。可替代地,通过文件或硬件设备,能够输入3D地点。可以在矩形坐标(x,y,z)或在 球形坐标(r,theta, phi)内指定3D声音源地点。然后,执行操作705,以确定声音地点是 否在矩形坐标内。如果3D声音地点是在矩形坐标内,执行操作710,以把矩形坐标转换成球 形坐标。执行操作715,以便以合适的数据结构存储3D地点的球形坐标,和增益值一起用于 进一步处理.增益值提供信号“音量”的独立控制。在一个实施例中,使独立的增益值能够 用于每个输入音频信号流或文件。如前面所讨论的,本发明的一个实施例存储7,337个预先定义的双耳滤波器,每 一个在单位球面上的离散地点处。每一个双耳滤波器具有两个组件,HRT&滤波器(一般由 冲击响应滤波器近似,例如,FI&滤波器)和HRTFk滤波器(一般由冲击响应滤波器近似, 例如,FIRk滤波器),共同地,滤波器组。每一个滤波器组被提供作为位于单位球面上HRIR形式的滤波器系数。这些滤波器组可以围绕单位球面均勻或非均勻分布,用于不同的实施 例。其它实施例可以存储更多或更少的双耳滤波器组。操作715后,执行操作720。当所指 定的3D地点没有被预先定义的双耳滤波器之一所覆盖时,操作720选择最近的N个相邻的 滤波器。执行操作725。操作725通过三个最近的相邻的滤波器的插值来为所指定的3D地 点产生新滤波器。其它实施例可以使用更多或更少预先定义的滤波器,形成新的滤波器。应理解到,HRTF滤波器不是特定波形的。也就是说,对任何输入波形的任何部分, 每一个HRTF滤波器可以使音频空间化,使它在通过扬声器或耳机播放时,显然来源于虚拟 声音源地点。图8描述了几个预先定义的位于单位球面上的HRTF滤波器组,每一个由X表示, 利用它们,以插入在地点800处的新的HRTF滤波器。地点800是期望的3D虚拟声音源地 点,其由它的方位角和仰角(0.5,1.5)指定。这个地点没有被预先定义的滤波器组中的一 个所覆盖。在这个示意中,三个最近的相邻的预先定义的滤波器组805,810,815被用来为 地点800插入滤波器组。选择用于地点800的适当的三个相邻滤波器组,是通过最小化所 期望的位置和所有已存储的在单位球面上的位置之间的距离D来达成,距离D按照勾股定 理的距离关系=D = SQRT((ex-ek)2+(ax-ak)2))求出,其中,ek和ak是在已存储地点k处的 仰角和方位角,而ex和ax是所期望地点χ处的仰角和方位角。因此,滤波器组805,810,815可以被一个实施例使用,以获得用于地点800的插入 滤波器组。在插值操作期间,其它实施例可以使用更多或更少预先设定的滤波器。插值操 作的准确性取决于,在正被定位的源地点的附近内,预先设定的滤波器的网格的密度,处理 的精确度(例如,32位浮点,单精度)以及所使用的插值类型(例如,线形,正弦,抛物线)。 因为滤波器的系数表示带限信号(band limited signal),带限括值(正弦插值)可以提供 创建新的滤波器系数的最佳途径。插值能够通过预先确定的滤波器系数之间的多项式或带限插值完成。在一个实施 例中,使用一阶次多项式(order on印olynomial),S卩,线形插值,来进行两个最近的邻居之 间的插值,以最小化处理时间。在这个特殊的实施中,每一个插入的滤波器系数,可以通过 设置α =x-k以及计算ht(dx) = aht(dk+1) + (l-a)ht(dk)来获得。其中,ht(dx)是在地点 χ处插入的滤波器系数,ht(dk+l)和ht(dk)是两个最近的相邻的预先定义的滤波器系数。当插入滤波器系数时,一般必须考虑耳间时差(“ITD")。每一个滤波器具有内 部延迟,如图9所示,其取决于各个耳朵通道和声音源之间的距离。这个ITD出现在HRIR 内,作为在实际滤波器系数前面的非零偏移。所以,根据已知的位置k和k+Ι,在所期望的位 置X,创建类似HRIR的滤波器一般是困难的。当网格由预先设定的滤波器密集地构成时,因 为误差很小,所以由ITD引入的延迟可以被忽略。然而,当存储有限时,这可能不是一个选 择。当存储受到限制时,分别用于右耳通道和左耳通道的ITD905,910,应被预估,使得 ITD对延迟的贡献、右和左滤波器的 和队,在插值操作期间可以分别地被去除。在本发明 的一个实施例中,通过检查偏移,可以确定ITD,其中,在该偏移处,HRIR超过HRIR最大绝对 值的5%。这个预估不精确,因为ITD是延迟时间D超过采样间隔的分辨率(resolution) 的分数延迟。使用抛物线插值与HRIR内的波峰交叉,来确定实际上延迟的分数,以预估波 峰的实际地点T。这一般通过找到通过三个已知点的拟和抛物线的最大值来完成,其可以数学性地表示为pn= |hT|-|hT_Jpm = |hT|-|hT+1D = t+ (Pn-Pm) / (2* (pn+pm+ ε ))其中,ε是小数字,以确保分母不为零。然后,在频域内,通过计算修正的相位频谱Φ ‘ {HJ = Φ {Hk} + (D*Ji*k)/N,,使用 相位频谱从每一个滤波器减去延迟D,其中,N是用于FFT的频仓(frequency bins)的变换 次数。可替代地,使用h' t = ht+D,在时域上,HRIR可以被时移。插值之后,以通过分别以Dk或的量来延迟右和左通道,的方式,ITD被加回。 根据正在被描绘的声音源的当前位置,该延迟也被插入。也就是说,对每一个通道D = aDk+1+(l_a)Dk,其中,a = χ-k.5.数字信号处理以及HRTF滤波一旦已经确定了用于所指定的3D声音地点的双耳滤波器系数,便能够处理每一 个输入音频流,以提供定位的立体声输出。在本发明的一个实施例中,DSP单元被再分成三 个独立的子过程。这些是双耳滤波,多普勒频移处理以及背景处理。图10示出了本发明的 一个实施例的用于声音源定位的DSP软件处理流程。最初,执行操作1000,以用于音频输入通道的音频数据块用于由DSP进一步处理。 然后,执行操作1005,处理该块以用于双耳滤波。然后,执行操作1010,处理该块以用于多 普勒频移。最后,执行操作1015,处理该块以用于空间模拟。其它实施例可以以其它顺序, 进行双耳滤波1005,多普勒频移处理1010以及场所模拟处理1015。双耳滤波操作1005期间,执行操作1020,以读入用于所指定的3D地点的HRIR滤 波器设置。然后,执行操作1025。操作1025把傅立叶变换应用到HRIR滤波器组,以获得滤 波器组的频率响应,一个用于右耳通道且一个用于左耳通道。一些实施例可以通过在他们 的转换状态中存储并读入滤波器系数,跳过操作1025,以节省时间。然后,执行操作1030。 操作1030调整用于幅度、相位和白化的滤波器。然后,进行操作1035。在操作1035中,实施例对数据块进行频域卷积。在这个操作期间,所变换的数据 块与右耳通道的频域响应以及与左耳通道的相乘。然后,执行操作1040。操作1040对数据 块进行傅立叶变换的逆变换,以把它变回时间域。然后,执行操作1045。操作1045处理音频数据块,用于高频和低频调整。在音频数据块的空间模拟处理期间(操作1015),执行操作1015。操作1050处理 音频数据块,适合于空间的形状和大小。然后,执行操作1055。操作1055处理音频数据块, 以适合于墙、地板和天花板材料。然后,执行操作1060。操作1060处理反映从3D声音源 地点到收听者耳朵的距离的音频数据块。根据声音线索与环境的各种各样的交互作用以及包括外耳与耳廓的人类听觉系 统,人类的耳朵推导声音线索的位置。来自不同地点的声音,在人类的听觉系统,创建了不 同的共振和消除,其使得大脑能够确定空间内声音线索的相对位置。这些由声音线索与环境的交互作用所创建的共振和消除,耳朵以及耳廓在本质上 基本是线性的,且能够被通过把已定位的声音表达为线性时不变(“LTI")系统对外部刺 激的响应来捕获,其可以通过本发明的不同实施例计算。(一般地,计算,计算公式和在此列出的其它操作可以,以及典型地,通过本发明的实施例来执行。因此,例如,示范的实施例表 现为近似地-配置计算机硬件或软件,其可以执行任务、计算、操作等等此处所揭示的。据 此,这样的任务、公式、操作、计算等等(共同地,“数据”)的讨论,应被理解将被列在示范的 包括、进行、访问或相反地使用这样的数据的具体化的上下文中。)对单冲击响应的任何离散LTI系统的响应被称作系统的“冲击响应”。如果给出 这样的系统的冲击响应h(t),它对任意输入信号s(t)的响应y(t)能够通过实施例,经由 被称为在时域内卷积的处理来构建。就是说,y(t) = s(t)化⑴,其中 代表卷积。然而, 就计算量而言,时域内的卷积一般是非常高的,因为用于标准时间域卷积的处理时间,随滤 波器内点的数目而呈指数型增加。因为时域内的卷积对应于频域内的乘法,使用称作快速 傅立叶变换("FFT")卷积的技术在频域内对长滤波器进行卷积,可能更有效。就是说, y(t)户伤⑴相⑴},其中,F—1是傅立叶变换的逆变换,S(f)是输入信号的傅立叶变换, 而H(f)是系统冲击响应的傅立叶变换。应注意到,用于FFT卷积所需要的时间增加的非常 慢,仅仅像滤波器内点的数目的算法输入信号s (t)的离散时间、离散频率的傅立叶变换由下式给出
N-、7-JT^外=S(k)=树,ω =其中,k称为“频率仓指数(frequency bin index) ”,ω是角频率,而N是傅立叶 变换框(或窗)大小。所以,FFT卷积可以被表达为y(t) zFlSGOfflGO},其中,F—1是傅 立叶变换的逆变换。因此,通过用于实数值的输入信号s (t)的实施例,在频域的卷积需要 两个FFT和N/2+1个复数乘法。对于长h(t),即,有许多系数的滤波器,可以通过使用FFT 卷积取代时域卷积来达成在处理时间方面的可观的节省。然而,当进行FFT卷积时,FFT框 的大小一般应足够长,使得循环卷积不会发生。通过使FFT框的大小等于或大于由卷积产 生的输出段的大小,可以避免循环卷积。例如,当长度为N的输入段与长度为M的滤波器卷 积时,产生的输出数据段具有N+M-1的长度。因此,可以使用大小N+M-1或更大的FFT框。 通常,为了计算效率和实施FFT的便捷性的目的,可选择N+M-1作为2的乘方。本发明的一 个实施例,使用数据块大小N = 2048以及具有M= 1920个系数的滤波器。所使用的FFT 框的大小是4096,或下一个最高的2的乘方,其能够保持大小为3967的输出段,以避免循环 卷积效应。通常,在它们被傅立叶变换之前,滤波器系数以及数据块两者被以零填充到大小 为N+M-1,与FFT框的大小一样。本发明的一些实施例,利用了对于实数值的输入信号FFT输出的对称性。傅立叶 变换是复数值操作。严格说来,输入和输出值具有实部和虚部。一般地,音频数据通常是实 数信号。对于实数值输入信号,FFT输出是共轭对称函数。就是说,它的值的一半将是冗余。 这可以数学地表示为S(一,=S(ejMt)0通过本发明的一些实施例,冗余可以被利用,以使用单FFT在相同的时间来变换 两个实数信号。因而发生的变换是两个由两个输入信号(一个信号是纯实数,而另一个是 纯虚数)引起的对称变换的结合。实数信号是厄米对称(Hermitian symmetric),而虚数 信号是逆厄米对称(anti-Hermitian symmetric)。为了分开两个变换,Tl和T2,在每一个 频率仓f,f范围从O到N/2+1,实数和虚数部分在f和-f处的和或差被用于生成两个变换, Tl和T2。这可以数学性的表达为
rel\ (f) = rel\ (-f) = 0. 5* (re (f) +re (-f))ImT1 (f) = 0. 5* (re (f) -re (-f))
ImT1 (-f) = -0. 5* (re (f) -re (-f))reT2 (f) = reT2 (-f) = 0. 5* (im (f) +im (-f))imT2 (f) = -0. 5* (re (f) -re (-f))imT2 (-f) = 0. 5* (re (f) -re (-f))其中,仪的,加江),1^(-0和im(-f)是在频率仓f和_f处的初始变换的实部和 虚部;reTl (f),imTl (f),reTl (_f)和imTl (_f)是在频率仓f和-f处的转换Tl的实部和 虚部;而reT2 (f),imT2 (f),reT2 (_f)和imT2 (_f)是在频率仓f和-f处的变换T2的实部 和虚部。由于HRTF滤波器的本性,典型地,如图11所示,它们在高频和低频端都具有固有 的频率滚降(intrinsic roll-off)。对单独的声音(比如,语音或单个仪器)而言,这个滤 波器滚降可能不是显著的,因为大多数单独声音具有可忽略的低和高频内容。然而,当通过 本发明的实施例来处理整个混和时,滤波器滚降的效应可能更加显著。如图12所示,本发 明的一个实施例,通过在大于上限截止频率,Cuppct,以及低于下限截止频率,C1otct的频率处, 箝位幅度和相位,来消除滤波器滚降。这是图10的1045操作。此箝位效果可以数学地表达为if (k > Cupper) SkI = ScupperI. Φ {SJ = Φ {Scupper}if(k < Clower) SkI = |Scl。wer|. Φ {SJ = Φ {Sclower}箝位是有效地零阶保持插值。其它实施例可以使用其它插值方法,来扩展低和高 频通带,比如使用最低和最高感兴趣频段(highest frequency band of interest)的平均 幅度和相位。本发明的一些实施例,可以调整HRTF滤波器的幅度和相位(图10的操作1030), 以调整引入的定位数量。在一个实施例中,定位的数量在0-9的标度上是可调整的。定位 调整可以被分开成两个部分,HRTF滤波器对幅度频谱的影响以及HRTF滤波器对相位频谱 的影响。相位频谱定义了到达并与收听者和他的耳廓交互的声波的频率相关的延迟 (frequency dependent delay)。对相位项最大的贡献一般是ITD,其导致了大的线性相位 偏移。在本发明的一个实施例中,通过把相位频谱和标量α相乘并可选地加上偏移β来 修改 ITD,使得 Φ {SJ = Φ {Sk} * α +k* β。—般地,为了相位调整恰当地工作,相位应沿着频率轴展开。当在连贯的频仓之间 有大于η弧度的绝对跳跃时,通过增加或减去2 π的倍数,相位展开纠正了弧度相位角。 即,的倍数改变了在频仓k= 1处的相位角,使得频仓k和频仓k= 1之间的相位差被 最小化。对任何近域对象和收听者的头由在给定频率处声波的共振和消除产生已定位的 音频信号的幅度频谱.典型地,幅度频谱包括几个峰值频率,在该频率处,共振作为声波与 收听者的头和耳廓的相互作用的结果出现。对所有的收听者,一般地,由于在头、外耳以及 身体大小方面的低差异,典型地,这些共振的频率大约相同。共振频率的地点可以影响定位 效果,使得共振频率的变更可以影响定位的效果。
滤波器的陡度,决定它的选择性、分离、或“品质”,由1/Q = 2sinh(ln⑵λ/2)所 给出的品质因子(unitless factor)Q通常所表达特性,其中,λ是滤波器在倍频程方面的 带宽。越高的滤波器分离导致更显著的共振(滤波器坡越陡)其反过来增强或衰减定位效^ ο在本发明的一个实施例中,对所有的幅度频谱项应用非线性算子,以调整定位效 果.数学性地,这可以表示为IskI = (l-a)*|Sk| + a*|Sk|e ; a = 0到1,[ β ] = 0至Ij η。在这个实施例中,α是幅度定标的密度,而β是幅度定标指数。在一个特殊的实 施例中β =2,以把幅度定标减少到可有效计算的形式IskI = (l-a)*|Sk| + a*|Sk|*|Sk| ; a = 0 至 Ij 1。音频数据块已经被双耳滤波后,本发明的一些实施例可以进一步处理音频数据 块,以计算出或创建多普勒频移(图10的操作1010)。音频数据块被双耳滤波前,其它的实 施例可以处理用于多普勒频移的数据块。如图13所说明的,作为声音源关于收听者相对移 动的结果,多普勒频移是关于可感知的声音源的间距的变化。如图13所说明,静止的声 音源的间距不变化。然而,向收听者移动的声音源1310被感知具有较高的间距,而向远离 收听者方向移动的声音源被感知具有较低的间距。因为声音的速度是334米/秒,比移动 源的速度高少许倍,即使对于慢慢移动的源而言,多普勒频移很明显的。因此,可以配置本 发明,使得定位处理可以计算出多普勒频移,以使收听者能够确定移动的声音源的速度和 方向。使用数字信号处理,通过本发明的一些实施例,可以创建多普勒频移效应。创建在 大小上与声音源和收听者之间的最大距离成比例的数据缓冲器。现在,参考图14,音频数据 块,在“进入抽头”1400处,被输送到缓冲器内,其可以在缓冲器的0索引处并对应于虚拟声 音源的位置。“输出抽头” 1415对应于收听者的位置。如图14内所示的,对静止的虚拟声 音源,收听者和虚拟声音源之间的距离将被感知为简单的延迟。当虚拟声音源沿着路径移动时,通过移动收听者抽头或声音源抽头,可以引入多 普勒频移效应,以改变所感知的声音的间距。例如,如在图15内所说明的,如果收听者的抽 头位置1515向左移动,其意味着朝声音源1500移动,声波的波峰和波谷将更快地击中收听 者的位置,其相当于间距的增加。可替代地,向远离声音源1500的方向移动收听者抽头位 置1515,以减少所感知的间距。本实施例可以分别为左耳和右耳创建多普勒频移,以模仿不仅快速移动而且关 于收听者循环地移动的声音源.当源正在接近收听者时,因为多普勒频移能够创建在频 率上更高的间距,且因为输入信号可能被临界采样,间距的增加可能导致一些频率落在奈 奎斯特频率外面,因此造成混叠。当以速度Sr所采样的信号包括在或大于奈奎斯特频率 =Sr/2(例如,以44. IkHz采样的信号具有22,050Hz的奈奎斯特频率,则信号应具有小于 22. 050Hz的频率内容,以避免混叠)时,混叠出现。大于奈奎斯特频率的频率出现在更低的 频率地点,会引起不期望的混叠效应。在多普勒频移处理之前或处理期间,本发明的一些实 施例可以采用抗-混叠滤波器,使得间距的任何变化,在所处理的音频信号内将不会创建 出与其它频率混叠的频率。因为左耳和右耳的多普勒频移被彼此独立地处理,在多处理器系统上执行的本发明的一些实施例可以使用分开的处理器,用于每一个耳朵,以最小化音频数据块的全部处 理时间。本发明的一些实施例可以在音频数据块上进行环境处理(图10的操作1015)。环 境处理包括计算出空间特征的反射处理(图10的操作1050和1055)以及距离处理(图10 的操作1060)。声音源的响度(分贝度)是声音源和收听者之间的距离的函数。在到收听者的途 中,由于摩擦力和消散(空气吸收),声波内的一些能量被转变成热。同样,当收听者和声音 源相隔更远时,由于在3D空间内的波传播,声波的能量被通过更大的空间量散布开(距离 衰减)。在理想地环境中,在相距d2的收听者和声音源之间的声音压力级别内的衰减 A (以dB为单位),可以被表达为A = 20 IoglO (d2/dl),其中,其参考级别在距离dl处被测量。一般地,仅仅对在完美的、没有任何干预对象的空气中的点源,这个关系才是有效 的。在本发明的一个实施例中,这个关系被用来为在距离d2处的声音源,计算衰减因子。一般地,声波与环境中的对象互相作用,它们被从这些对象反射,折射或绕射 (diffract)。离开表面的反射导致离散的回声被加到信号,而折射和绕射一般更依赖频率 并造成随频率变化的时间延迟。所以,本发明的一些实施例并入关于直接环境的信息,以增 强声音源的距离感知。有几种本发明的实施例可以利用的方法来建模声波和对象的相互作用,包括声线 跟踪(ray tracing)和使用梳状及全通滤波的混响处理。在声线跟踪中,虚拟声音源的反 射,被从收听者的位置反追溯到声音源。因为该操作对声波的路径建模,所以其考虑到了真 实场所的逼真近似。在使用梳状及全通滤波的混响处理中,典型地,实际环境没有被建模。反而,替 代地,逼真的环境效果被再现。如在论文“Colorless artificial reverberation,”Μ. R. Schroeder 和 B. F. Logan, IRE Transactions, Vol. AU-9,pp. 209-214,1961,所描述的,一 个广泛使用的方法,涉及在连续的和并行的配置内安排梳状和全通滤波器,其被作为参考 并入这里。像图16所示的,全通滤波器1600可以被实施为有前馈1610和反馈1615路径的 延迟元件1605。在全通滤波器的结构中,滤波器i由Si(Z) = (k.+z^/d+kjz-1)给出传输 函数。理想的全通滤波器创建具有长时统一幅度响应(long-termunity magnitude response)(因此叫全通)。同样地,全通滤波器仅对长时相位频谱具有影响。如图17所 示,在本发明的一个实施例中,全通滤波器1705,1710可以被嵌套,以达成通过对象所增加 的多反射的音响效果,其中,所述对象在正被定位的虚拟声音源的附近。在一个特殊的实施 例中,16个嵌套的全通滤波器的网络被实施跨接共享的存储块(累加缓存器)。另外的16 个输出抽头、每音频通路八个,模拟围绕虚拟声音源和收听者的墙、天花板、地板的存在。进入累加缓存器的抽头,可以某种方式被隔开,该方式使得它们的时间延迟,对应 于收听者的两个耳朵和场所内的虚拟声音源之间的路径长度以及第一级反射时间。图18 描述了全通滤波器模型的结果,较佳波形1805 (直接入射声音),和从虚拟声音源到收听者
18
权利要求
用于为空间点模拟双耳滤波器的计算机实施的方法,该方法包括访问多个预先定义的双耳滤波器;从所述多个预先定义的双耳滤波器,选择至少两个最近的相邻的双耳滤波器;以及在所述最近的相邻的双耳滤波器中,进行插值,以获得新的双耳滤波器。
2.根据权利要求1所述的方法,其中,每一个预先定义的双耳滤波器位于单位球面上。
3.根据权利要求1所述的方法,其中,所述最近的相邻的双耳滤波器比其它预先定义 的双耳滤波器,空间地更靠近所述空间点。
4.根据权利要求3所述的方法,其中,每一个最近的相邻的双耳滤波器的选择是至少 部分地基于所述最近的相邻的双耳滤波器与所述空间点之间的距离。
5.根据权利要求4所述的方法,其中,所述距离是最小的勾股定理距离。
6.根据权利要求1所述的方法,其中,每一个双耳滤波器进一步包括左耳头相关传输 函数滤波器和右耳头相关传输函数滤波器。
7.根据权利要求6所述的方法,其中,左头相关传输函数滤波器是由具有第一多个系 数的冲击响应滤波器近似的左头相关传输函数,以及所述右头相关传输函数滤波器是由具 有第二多个系数的冲击响应滤波器近似的右头相关传输函数。
8.根据权利要求6所述的方法,其中,在所述最近的相邻的双耳滤波器中进行插值的 操作进一步包括确定用于每一个最近的相邻的头相关传输函数滤波器的耳间时差;在所述插值之前,去除每一个最近的相邻的头相关传输函数滤波器的所述耳间时差;对所述最近的相邻的滤波器的所述耳间时差进行插值,以获得新的耳间时差;以及把所述新的耳间时差引入所述新的双耳滤波器。
9.根据权利要求8所述的方法,其中,所述耳间时差包括左耳间时差和右耳间时差。
10.根据权利要求8所述的方法,进一步包括当确定所述耳间时差时,计算出所述空间 点位置。
11.根据权利要求1所述的方法,其中,从由同步插值、线性插值以及抛物线插值组成 的组中选择所述插值。
12.根据权利要求2所述的方法,其中,所预先定义的双耳滤波器围绕单位圆均一地被 隔开。
13.根据权利要求1所述的方法,其中,所述多个预先定义的双耳滤波器包括7,337个 预先定义的双耳滤波器,每一个双耳滤波器在单位球面上的离散地点处。
14.根据权利要求2所述的方法,其中,把所述单位球面定标成0到100个单位,以及其 中0代表虚拟空间的中心而100代表所述虚拟空间的外围。
15.用于在正相对于收听者移动的定位的声音源中引入多普勒频移的计算机实施方 法,所述方法包括确定所定位的声音源相对于收听者的位置;确定所定位的声音源的速度;创建在大小方面与所定位的声音源和所述收听者之间的最大距离成比例的数据缓冲器;把音频数据段输送到所述数据缓冲器的第一抽头内;自所述数据缓冲器的第二抽头取得所述音频数据段;以及其中,从所述第二抽头向所述第一抽头,在所述音频数据段内,由所述数据缓冲器引入 与所述收听者和所定位的声音源之间的距离成比例的延迟。
16.根据权利要求15所述的方法,其中,所述第一抽头位置对应于所述收听者的所述位置。
17.根据权利要求15所述的方法,其中,所述第二抽头位置对应于所述声音源的所述位置。
18.根据权利要求1所述的方法,进一步包括 计算所述新的双耳滤波器的离散傅里叶变换;当所述频率小于下限截止频率或大于上限截止频率时,把所述频率响应设置为固定幅 度;以及当所述频率小于下限截止频率或大于上限截止频率时,把所述相位响应设置为固定相位。
19.用于定位数字音频文件的计算机实施的方法,该方法包括 确定代表虚拟声音源地点的空间点;形成对应于所述空间点的双耳滤波器;把所述音频文件分割成多个重叠的音频数据块,每一个重叠对应于多个步幅因子; 计算所述多个音频数据块的第一个的离散傅里叶变换,以产生第一变换的音频数据块;所述第一变换的音频数据块与已进行傅里叶变换的双耳滤波器相乘,以产生第一变换 的定位的音频数据块;以及计算所述第一变换的定位的音频数据块的离散傅里叶变换的逆变换,以产生第一空间 化的音频波形段。
20.根据权利要求19所述的方法,进一步包括计算所述多个音频数据块的第二个的离散傅里叶变换,以产生第二变换的音频数据块;所述第二变换的音频数据块与所述变换的双耳滤波器相乘,以产生第二变换的定位的 音频数据块;计算所述第二变换的定位的音频数据块的离散傅里叶变换的逆变换,以产生第二空间 化的音频波形段;以及使用所述步幅因子把所述第二空间化的音频波形段和所述第一空间化的音频波形段 相加来模拟所述第二和第一空间化的音频波形段之间的交叉衰落。
21.根据权利要求19所述的方法,其中,所述傅里叶变换是框大小为N的短时傅里叶变换。
22.根据权利要求21所述的方法,其中N是2的乘方。
23.根据权利要求21所述的方法,其中,每一个数据块包括2048个邻近的数据采样点, 以及所述双耳滤波器包括1920个系数。
24.根据权利要求23所述的方法,其中N是4096。
25.根据权利要求24所述的方法,其中,在被变换之前,所述数据块和所述双耳滤波器系数每一个被以零填充到大小为N。
26.根据权利要求19所述的方法,其中窗被应用到所述数据块,使得所述数据,在所述 数据块的开始和结束处,逐渐地变到零。
27.根据权利要求26所述的方法,其中,从由Hann窗、Hamming窗口、Gauss窗以及 Kaiser窗组成的群中选择所述窗。
28.根据权利要求19所述的方法,其中所述步幅因子是50%。
29.根据权利要求19所述的方法,其中,所述数字音频文件包括来自音频文件单元的 输出。
30.根据权利要求20所述的方法,进一步包括把所结合的空间化的音频波形段保存到 文件。
31.根据权利要求30所述的方法,其中,所述文件是从由MP3音频格式、aif音频格式、 au格式、wav音频格式、wma音频格式、CD音频格式、DVD音频格式、HD音频格式以及VHS音 频格式所组成的群中所选择的文件格式。
32.根据权利要求19所述的方法,进一步包括 确定代表第二虚拟声音源地点的第二空间点; 形成对应于所述第二空间点的第二双耳滤波器;计算所述多个音频数据块的第二个的离散傅里叶变换,以产生第二变换的音频数据块;所述第二变换的音频数据块与已变换的第二双耳滤波器相乘,以产生第二变换的定位 的音频数据块;计算所述第二变换的定位的音频数据块的离散傅里叶变换的逆变换,以产生第二空间 化的音频波形段;以及使用所述步幅因子把所述第二空间化的音频波形段和所述第一空间化的音频波形段 相加来模拟所述第二和第一空间化的音频波形段之间的交叉衰落。
33.用于把多通道音频输入信号转变成定位的音频输出信号的信号处理系统,所述系 统包括至少一个信号处理块,所述块包括 多通道音频输入端口;可操作地耦接到所述多通道音频输入端口的下混频器,所述下混频器被配置以输出单 耳音频信号;可操作地耦接到所述下混频器的选择器元件,所述选择器元件被配置以把单耳信号路 由到数字信号处理器,所述数字信号处理器被配置以把所述单耳音频信号修改成定位的音 频信号;以及多个输出端口。
34.根据权利要求33所述的系统,进一步包括,可操作地耦接到所述输入端口和所述 下混频器的输入选择器,所述输入选择器被配置以选择所述多通道输入信号中的一个通道。
35.根据权利要求33所述的系统,进一步包括可操作地耦接到所述选择器元件的单耳 信号输入端口。
36.根据权利要求33所述的系统,其中,所述选择器元件进一步被配置,以向至少一个 输出端口提供环绕所述数字信号处理器的信号旁路路径。
37.用于白化被用于定位音频文件的双耳滤波器的计算机实施方法,所述方法包括 计算具有多个系数的双耳滤波器的离散傅里叶变换,以创建已变换的具有幅度频谱和相位频谱的双耳滤波器;计算所述滤波器幅度频谱的算术平均值; 把所述滤波器幅度频谱分割成多个重叠频带;计算多个平均频谱幅度,每一个平均频谱幅度对应于所述多个频带中的一个; 通过短时增益因子,定标所述多个平均频谱幅度,使得所述多个频带的算术平均值近 似于所述滤波器幅度频谱的所述算术平均值;以及使用加权函数合并所述多个定标的频带,以创建具有改善的频谱平衡的修改的滤波器 幅度频谱。
38.根据权利要求37所述的方法,其中,所述加权函数是Harm窗函数。
39.用于在空间化的音频波形上进行环境处理的计算机实施方法,所述方法包括 确定自声音源到收听者的第一距离dl ;确定距离所述声音源的第二距离d2,其中,在所述声音源处测量所述声音源的参考声 音压力级别;计算衰减因子A (以dB为单位)=201og 10(dl/d2);以及 把所述衰减因子应用到所空间化的音频波形。
40.根据权利要求39所述的方法,进一步包括把所空间化的音频波形输送到具有输出抽头的多个嵌套的全通滤波器中; 从所述输出抽头取出已滤波的空间化的音频波形;以及 其中,所述输出抽头模拟反射面。
41.根据权利要求40所述的方法,其中,从由墙、地板和天花板组成的群中选择所述反射面。
42.根据权利要求40所述的方法,其中,当自所述反射面被反射到所述收听者时,所述 输出滤波器抽头形成对应于第一级反射时间以及所述声音源的路径长度的时间延迟。
43.当通过多个扬声器播放时,用于去相关立体声输入信号,以形成具有改善的声音映 像的定位的音频信号的计算机实施的方法,该方法包括把所述立体声信号分开成左单耳通道和右单耳通道; 通过带通滤波器输送所述立体声信号,以形成中心通道; 通过用所述左单耳通道梳理所述中心通道,形成最左方面的通道; 通过用所述右单耳通道梳理所述中心通道,形成最右方面的通道; 把最左方面的通道与左耳头相关传输函数滤波器卷积,以创建最左定位通道; 把最右方面的通道与右耳头相关传输函数滤波器卷积,以创建最右定位通道; 把最左定位通道与衰减的中心通道结合;以及 把最右定位通道与衰减的中心通道结合。
44.根据权利要求43所述的方法,其中,所述带通滤波器具有2KHz的上限截止频率, 300Hz的下限截止频率,以及12dB每倍频程的滚降。
全文摘要
用于处理音频声音源以创建四维空间化声音的方法和装置。可以在指定的时期内,沿着三维空间内的路径移动虚拟声音源,以达成四维声音定位。用于所期望空间点的双耳滤波器被应用到音频波形,以产生空间化的波形,在从一对扬声器播放已空间化的波形时,声音似乎来源于所选择的空间点而不是扬声器。通过插入从多个预先定义的双耳滤波器所选择的最近的相邻的双耳滤波器,来模拟用于空间点的双耳滤波器。使用短时傅里叶变换,音频波形能被以重叠的数据块的形式数字化处理。所定位的声音能被进一步处理用于多普勒频移和空间模拟。
文档编号H04R5/02GK101960866SQ200880014407
公开日2011年1月26日 申请日期2008年3月3日 优先权日2007年3月1日
发明者加里·史密斯, 斯蒂芬·M·伯恩西, 杰里·马哈布比 申请人:杰里·马哈布比;斯蒂芬·M·伯恩西;加里·史密斯
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1