声音合成和空间化方法

文档序号:2821483阅读:804来源:国知局
专利名称:声音合成和空间化方法
技术领域
本发明涉及音频信号的合成,特别用于编辑音乐、视频游戏甚至于移动电话的铃声。
更特别地,本发明涉及声音的合成技术和三维(3D)声音技术。
背景技术
为了提供基于声音合成(创作铃声,甚至移动电话的游戏内容)的新服务,现在人们致力于改进声音合成的方法。然而,由于受终端的存储器和计算能力的限制,现在迫切需要既有效,复杂度又低的方法。
*声音合成技术近年来,涌现出许多声音合成技术。需要指出的是,实际上并没有能产生所有声音的通用技术。在实践中,迄今为止所有的生产模式都有其局限性。Julius Smith在″Viewpoints on the History of Digital Synthesis″(SmithJ.O;Keynote paper,Proc.Int.Comp.Music Conf.1991,Montreal)一书中建立了一种分类,归纳如下。
技术分为四类计算技术(调频FM,波形成形,等等);采样及其它记录方法(例如波表合成,等等);基于频谱模型的技术(例如附加合成,甚至是所谓的“声源过滤器”,等等);基于物理模型的技术(例如模态合成,波导合成,等等)。
某些技术根据用途的不同,可以分成很多类别。
对适合某种终端或某种播放系统的合成技术的选择是基于三类标准,特别将赫尔辛基大学信号声学及信号处理实验室提出的标准作为对不同合成法进行检验的一部分″Evaluation of Modern Sound SynthesisMethods″,Tolonen T.,Vlimki,V.,Karjalainen M;Report 48,Espoo 1998.
上述第一类标准使用下列参数直觉;可感知性;物理感觉;行为。
产生的声音的质量和多样性决定了第二类标准,其参数如下声音特性的强度;声音制模的范围;需要时具有预分析阶段。
最后,第三类标准处理执行方案,其参数如下计算成本;所需存储器;控制、等待时间和多任务分配方法。
最近发现,基于频谱模型(复制听者感觉的频谱图象)或物理模型(模拟物理声源)的技术最令人满意,和为未来系统提供广泛的潜力。
然而,目前使用最广泛的是基于波表合成的方法。该技术的原理如下。首先,所有的自然声音信号可分解成四个部分敲击、衰减、持续和释放,通常根据术语“ADSR包络”(敲击、衰减、持续、释放包络)分组,下文将对此详述。
波表合成的原理是,先选取一个或多个信号段(对应一段记录的声音或一段合成信号),然后对其进行处理(用循环、改变基本频率,等等),最后对其使用上述的ADSR包络。这种非常简单的合成方法可以获得令人满意的结果。一种与波表合成相似的技术称为“取样”,其中的区别是后者用自然信号的记录来取代合成信号。
另一个简单合成的例子是调频,更多地被称为“FM合成”。在这种情况,为了调节信号和载波信号(fm和fc)的频率在可听见的范围内(20到21000Hz),进行频率调节。该和声相对于基调的振幅可以决定音色。
提供给声音合成器使用的信息具有不同的传输格式。第一,乐谱可以用MIDI格式或MPEG-4结构的声音标准来传输,然后用所选择的声音合成技术来合成。在一些系统中,也可以在合成器所用的乐器上传输信息,例如使用DLS格式,该格式使波表声音合成必须的信息得以被传输。同样地,“Csound”或“MPEG-4 SAOL”类的算法语言能用声音合成技术来表示声音。
本发明涉及声音合成与来自该合成的声音的空间化方法的结合。下面列举了几个公知的声音空间化技术。
*声音空间化技术这些是处理用于模拟声学或心理声学现象的音频信号的方法。这些技术的目的是产生传输到喇叭或耳机上的信号,从而使听者感到声源就在环绕着他的某个位置。这些技术在用于虚拟声源和声像方面具有优势。
在众多的声音空间化技术主要分成两类。
基于物理原理的方法主要包括在有限的空间内复制声场如原来的声场。这些方法不考虑听觉系统的优先感知特性,特别是有关声学位置的特性。依靠上述系统,听者就能进入和真实感受一模一样的声场,他就能如同在真实的听觉条件下一样对声源定位。
基于心理声学的方法更注重开发3D声音感知机理,从而简化声音复制过程。例如,该方法并不在整个区域复制声场,而是在听者的两耳进行复制。相似地,该方法可以在一段频谱上完美复制声场,以消除对其余频谱的限制。该方法的目标是考虑听觉系统的感知机理,以便识别所要复制的最少量的信息,从而获得与原声场一致的心理声场,由于耳朵功能的限制,所以耳朵无法分辨两者的区别。
在第一类方法中,存在不同的技术全声(holophony),由于其是一种声学上的全息摄影术,所以这是一种物理重建声场的技术。这种技术基于平面(空心球或其它)上的记录来复制声场。更多的细节可参考″Restitution sonore spatialisée sur une zone étendueApplication àlatéléprésence″Spatialized acoustic reproduction over a wide areaApplicationto telepressence,R.Nicol;University of Maine Thesis,1999;立体混响声技术,这是声场物理重建的另一例子,其基于称为“球形谐函数”的特定的函数来分解声场。
第二类方法的例子有
立体声,其利用时间或强度的差别,基于耳之间的时间和强度差别(其确定水平面内声源定位的感知标准),将声源定位于两个喇叭之间;双耳声技术,只在听者耳朵处重建声场,这样耳膜感知的声场与真实声源一致。
每种技术的特征都是以合适的音频信号格式,对空间化信息进行编码和解码的特定方法。
不同的声学空间化技术的区别还在于其所提供的空间化的程度。通常,诸如立体混响声编码、全声、双耳声或转声合成(转声合成是一种双耳声技术在两个远离的喇叭上进行变换的技术)之类的3D空间化包括空间的所有方向。另外,立体声之类的二维(2D)空间化,或限制在2D的全声或立体混响声,都被限制在水平面内。
最后,不同技术的区别还在于其可能的传输系统,例如双耳声或立体声技术使用头戴式耳机来传输;立体声或转声技术使用两个喇叭来传输;全声或立体混响声复制中使用两个以上的喇叭组成的网络,在扩展的听觉区域(特别针对多听众)进行传输。
现有很多设备具备声音合成功能。这些设备包括乐器(比如键盘、节奏器或其它)、移动终端、PDA(个人数字助理),甚至包括装有音乐编辑软件的计算机,或装有MIDI界面的便携式设备。声音复制系统(头戴式耳机、立体声喇叭或多喇叭系统)和声音合成系统的质量,特别是根据计算能力和系统使用的环境有较大差别。
普遍了解系统借助于声音合成工具和空间化工具的级串联将预合成的声音空间化。先将不同的声源混合,然后对来自合成器的输出信号(单声道或双立体声道)进行空间化。这种将来自合成器的声音空间化的方案的实现是公知的。
更加广为人知的应用是3D播放工具,其可以用于任何类型的数字声音信号,不论信号是否是合成的。例如,不同的MIDI乐谱(传统的声音合成格式)乐器可以被设置在一个声学空间。然而,为了获得上述的空间化,先要将MIDI信号转换成数字音频信号,然后对后者进行空间化处理。
这种实现过程在处理时间和处理的复杂性方面,非常昂贵。

发明内容
本发明的一个目的是提供一种声音合成方法,其能直接对合成声音进行空间化。
更特别地,本发明的一个目的是与高质量的声音合成及空间化工具结合。但是由于声音合成及空间化的结合增加复杂性,这种空间化的声音合成难以在非常有限的终端(即具有相对有限的计算能力和存储器终端)上实现。
本发明的另一目的是根据终端的容量,对空间化的声音合成的复杂度进行优化。
为此,本发明首先提出了一种声音合成和空间化的方法,其中,要产生的合成声音的特征是由一种虚拟声源的特性和声源的相对于一选择的原点位置表示。
本发明的方法包括一联合的步骤,该步骤包括参数,该参数包括至少一个放大系数,从而同时确定表示声源特性的响度;相对于预定原点的声源位置。
因此,本发明使声源空间化技术和声源合成技术整合到一起,以使用两种技术实现的共同参数,获得整体的处理。
在一个实施例中,对虚拟声源空间化是在立体混响声的条件下进行的。本方法因此包括计算与基本的球形谐函数中的立体混响声成份有关的放大系数。
在另一实施例中,在全声、或双耳声、或转声的条件下,在若干复制声道中,对合成声源进行复制。特别要注意的是“若干复制声道”在双耳声或转声的条件指两条复制声道,或者在全声条件下指大于两条的复制声道。在上述联合步骤中,还确定了复制声道之间的延迟,以便同时确定表示声源特性的声源触发时刻;相对于预定原点的声源位置。
在本实施例中,虚拟声源的性质由一段时间内至少被一个临时的响度变量来参数化表示,该变量包括一个声源触发时刻。在实用中,优选用上述的ADSR包络来表示该临时变量。
该变量优选至少包括乐器的敲击阶段;衰减阶段;持续阶段;释放阶段。
当然,可设想更加复杂的包络变量。
优选用基于转移函数的线性分解的双耳声合成对虚拟声源进行空间化,用基于声源频率的项的线性组合来表述这些转移函数,而用基于声源方向的项来加权这些转移函数。当虚拟声源的位置随时间变化和/或需要对很多虚拟声源空间化的时候,上述方法尤其有利。
优选地,用至少一个偏置角(对单一平面的空间化)来确定方向,以及用一个偏置角和一个仰角(对三维空间化)来确定方向。
在基于转移函数的线性分解的双耳声合成中,虚拟声源的位置至少用下列参数来表述基于声音频率的滤波数量;每个都和一个滤波相关的加权放大系数的数量;每个“左”声道和“右”声道的延迟。
优选地,通过将所选的相对响度和对应于声音音调的频率的和声结合,至少用一个声音音质参数化虚拟声源的性质。在实践中,优选用上述的FM合成进行建模。
在优选的实施例中,提供相对于预定原点的声音合成工具,专用于产生空间化声音。
优选地,在音乐编辑的环境下使用合成工具,同时也提供一种人机界面,将虚拟声源放到相对预定原点的选择的位置。
为了合成并空间化若干虚拟声源,每个声源都被分配到一个各自的位置,如上所述,优选在双耳声环境下通过使用转移函数的线性分解。
本发明的目的还在于提供一种产生合成声音的模块,包括一个处理器,还特别包括一个存储运行上述方法的指令的工作存储器,这样就能根据本发明,同时对声音进行合成和空间化。
综上所述,本发明还提供了一种计算机程序产品,该产品存储在中央处理器或终端(特别是移动终端)的存储器内,或存储在与该中央处理器的驱动器协同的移动介质上,该产品包括执行上述方法的指令。


本发明的其他特征和优点将通过检验以下详细说明和附图变得明显,其中图1说明在三维空间内的声源位置i和话筒位置j;图2表示根据本发明同时进行声音的空间化和合成处理;图3表示将转移函数HRTFs应用到信号Si,在双耳声或转声合成模式中进行空间化,图4表示使用HRTFs的线性分解,在双耳声或转声合成模式中应用一对延迟(一个延迟用于每个左或右声道),以及几个放大系数(一个放大系数用于每个方向滤波器),图5表示在若干合成声音产生器内用于在一个步骤中进行声音的空间化和合成的空间化处理的集成,图6表示在声音合成模式中的ADSR包络模型,图7表示在FM合成模式中的声音产生器。
具体实施例方式
本发明将声音空间化技术和声音合成技术整合到一起,获得一种通用的、优化的空间化的声音合成处理。证明在非常受限的终端的条件下,一方面进行声音合成的操作,和另一方面进行声音空间化的操作的集成,特别值得注意。
通用的法则是,声音合成工具(典型地是“合成器”)的作用是基于声音合成模型来产生一个或多个合成信号,在参数集合(下文称为“合成参数”)的基础上驱动该模型。合成工具合成的信号对应于不同的声源(声源可以是播放乐谱的不同乐器)或者与同一个声源联系在一起,例如从同一个乐器而来的不同的音符。因此,在下文中术语“声音产生器”表示产生音符的模块。由此可知,合成器由一组声音产生器组成。
另一个通用的法则是,声音空间化工具能接收一定数量的声音信号作为输入信号,这些信号代表声源,理论上并未经过任何空间化处理。实际上,如果这些信号已经经过空间化处理,在这里也不考虑这些在先的处理。空间化工具的作用是根据特定于所选择的空间化技术的方案处理输入信号,产生一给定数量的输出信号,其定义在所选择的空间化格式中代表空间化的信号的声音场面。空间化处理的特性和复杂性,根据其是否是考虑以立体声、双耳声、全声或立体混响声格式的播放,而明显取决于所选的技术。
更特别地,对于很多空间化技术来讲,处理可以简化到一个编码阶段和一个解码阶段,详见下述。
编码对应于在一给定的时刻由不同声源产生的声场中所收集的声音。这个“虚拟”声音收集系统根据所用的空间化技术,可以较复杂或较简单。这样就可以模拟由更多或更少量的具有不同位置和方向的话筒所收集的声音。在任何情况下,用于计算声源分布的编码至少等于所用的放大系数,更多的是延迟(通常在全声或双耳声或转声合成中),成为由声源发出的声音的不同拷贝。对于每个虚拟话筒,每个声源有一个放大系数(需要时有一个延迟)。这个放大系数(及这个延迟)取决于声源相对于话筒的位置。如果虚拟声音收集系统配备K个话筒,则编码系统输出K个信号。
参见图1,信号Ej代表所有在话筒j上的声源分布的总和,另外Si代表来自声源i的声音;Ej代表在话筒j的输出端的编码信号;Gji代表声音Si由于声源i和话筒j之间的距离、该声源的方向、声源i和话筒j之间的障碍物以及话筒j的方向而发生的衰减;tji代表声音Si由于声源i向话筒j传播而产生的延迟;x、y、z代表声源位置的笛卡尔坐标,假定随时间变化。
编码信号Ej用下式表示Ej(t)=Σi=1Lδ(t-tji(x,y,z))*Gji(x,y,z)Si(t)]]>在上式中,假定必须处理L个声源(i=1,2,……,L),其中向K个信号(j=1,2,……,K)提供编码格式。放大系数和延迟取决于声源i在时刻t相对话筒j的位置。因此编码代表了声源在时刻j产生的声场。在此,在立体混响声条件下(包含在球形和声基础上的声场分解),实际上延迟并不影响空间化处理。
当声源在室内的情况,必须增加映像源。这是通过房间墙壁反射的声源的映像。这些映像源再在墙壁上反射,产生了更高等级的映像源。在上式中,L不再代表声源的数量,而是增加映像源的声源的数量。映像源的数量是无限的,这就是在实践中只保留听得见的映像源以及那些方向已知的映像源的原因。可听见,但方向无法获知的映像源被分组,和其影响通过人工混响器将其影响被合成。
解码步骤的目的是在一给定的设备上复制编码信号Ej,该设备包括一预定数量T的声音转换器(头戴式耳机、喇叭)。这个步骤包括将滤波器的一T×K矩阵应用到该编码的信号。这个矩阵只取决于播放设备,不受声源影响。根据所选的编码和解码技术,该矩阵可以非常简单(例如全同)或非常复杂。
图2是表示上述各个步骤的流程图。第一步ST包括一个启动步骤,其中用户定义需要合成和空间化的声音命令C1,C2,……CN(例如,提供一个人机界面来定义一个音符,在空间内播放此音符的乐器)。另一种情况是,例如对于具有移动终端的声音的空间化,可以用平行于合成声音流的数据流,或甚至直接在合成声音流内传输空间化信息。
那么应该指示的是,本发明方便地提供了声音的合成和空间化结合的单一步骤ETA。通用的法则是,至少用下列参数来定义声音声音基本模式的频率,表示音调特征;持续时间;响度。
这样,对于具有灵敏键盘的合成器,如果用户播放强音,和命令Ci相关的响度会高于和弱音符相关的响度。更具体地讲应注意,根据本发明的优选实施例之一,如下文所述,通用规则是响度参数会考虑到空间化处理条件下的空间化放大系数gi。
另外,声音当然也由其触发时刻定义。通常若所选的空间化技术不是立体混响音处理,而是双耳音或转音合成、全音或其它技术,也可以用空间化延迟τi(见下文详述)来控制声音的触发时刻。
再来看图2,声音合成和空间化设备D1包括一个合成模块M1,能够根据指令Ci,至少定义与指令Ci有关的频率fi和声音i的持续时间Di;一个空间化模块M2,至少能定义放大系数gi(特别是在立体混响声条件下),以及在全声或双耳声或转声合成中定义空间化延迟τi。
如上所述,当响度(或立体声中的全景)和声音的触发时刻得到定义时,则后两种参数gi和τi可一起用于空间化,也可用于声音的合成。
一般,应注意在优选的实施例中,两个模块M1和M2被归为一类相同的模块,以允许合成和空间化的信号si的所有的参数可以在同一的步骤中定义尤其是频率、持续时间、空间化放大系数、空间化延迟。
然后将这些参数用于声音合成和空间化的设备D1的编码模块M3。通常,例如在双耳声或转声合成中,这个模块M3对信号si(特别包括空间化放大系数)进行线性组合,如下所述。该编码模块M3也能将压缩模式编码应用到信号si,从而准备将编码数据传输到复制设备D2。
然而应注意的是在一个优选的实施例中,该编码模块M3直接结合到上述的模块M1和M2,从而直接在只包括一个声音合成和空间化工具的单一的模块D1中产生信号Ei,就好像信号如同上文所述由话筒j传输。
因此,声音合成和空间化工具D1在输出端产生K个声音信号Ei,这些信号代表虚拟的声场的编码,这样制造出来的不同的人造声源就像真的一样。在这里描述了在一给定的编码格式中的声音场面。
当然,可以向上述声音场面加入(或“混合”)其它真实的声音或其它声音处理模块的输出,只要两者具有相同的空间化格式。这些不同的场面的混合虽然进入一个特殊的解码系统M′3,该系统位于复制设备D2的输入端。在图2所示的例子中,该复制设备D2包括两个声道,在这种情况用于两个声道L和R的双耳声复制(在立体声头戴式耳机上复制)或转声复制(在两个喇叭上复制)。
接下来介绍本发明的一个优选实施例,在应用于移动终端的情况以及通过双耳声声音空间化的条件。
特别是在电信终端、手机上,通常设有带立体声头戴式耳机的声音播放功能。优选的声源定位技术就是双耳声合成。该技术对于每个声源,包括通过称为HRTFs(用于头部相关的转移函数)的声音转移函数,过滤单声信号,该技术对听到来自声源的信号的听众的胸部、头部和外耳产生的变化进行建模。对于空间中的每个位置,可以测量一对上述函数(一对右耳函数,一对左耳函数)。于是HRTFs就成了位置[θ,](其中θ代表偏置角,代表仰角)和声音频率f的函数。因此对于特定的物体,就能获得代表每个耳朵空间位置的2M声音转移函数的数据库(M代表所测方向的数量)。通常以所谓的“双声道”形式来实施该技术。
特别当多个声源被空间化,或当声源位置随时间变化时,另一种基于HRTFs的线性分解的双耳声合成能更加有效地实施。在这种情况使用了术语“动态双耳声合成”。
下面描述双耳声合成的两个实施例*“双声道”双耳声合成参见图3,双声道双耳声合成包括过滤来自每个声源Si(i=1,2,……,N)的信号,这些信号借助对应于相应方向[θi,i](步骤31)的左右声音转移函数(HRTF_1和HRTF_r),在空间中定位于位置[θi,i]。获得的两个信号被加入来自其它声源空间化的左右信号(步骤32),从而向头戴耳机的目标的左右耳发送L和R信号。
在上述实用中,并没有感觉声源的位置随时间变化。如果需要使声源的空间位置随时间变化,则优选改变所用的滤波器,对左右HRTFs进行建模。然而,由于这些滤波器要么是有限脉冲响应(FIR)滤波器,要么是无限脉冲响应(IIR)滤波器,所以会在左右输出信号中出现不连贯的问题,导致听到“滴答声”。解决该问题的技术方案是转动两组平行的双耳声滤波器。第一组在时刻t1模拟第一位置[θ1,1],第二组在时刻t2模拟第二位置[θ2,2]。从第一和第二过滤过程中获得的左右信号的持续减弱,造成了信号在第一和第二位置间移动的假相。因此,相对静态时,声源定位系统的复杂度加倍了。另外,所用的滤波器的数量与需要空间化的声源的数量成比例。
若考虑N个声源,则所需滤波器的数量在静态双耳声合成时是2.N,而在动态双耳声合成时是4.N。
下文给出另一个优选的情况。
*基于HRTFs线性分解的双耳声合成首先,该方法的复杂度不再取决于在空间中定位的声源的数量。在实践中,这些技术在正交函数的基础上分解HRTFs,这适用于空间中的所有位置,不再仅仅取决于频率f。因此,减少了所需滤波器的数量。更具体地讲,滤波器的数量得以固定,不再依赖于要定位的声源数量,为此添加一个额外的声源只须使用一次延迟,然后乘以几个放大系数和做一次加法,系数取决于位置[θ,],详见图4。在动态双耳声合成(声源位置随时间变化)时,这种线性分解技术很有用。在实践中,滤波器的系数不再变化,发生变化的只是取决于位置的放大系数的值。
HRTFs的线性分解的目的是分开空间和频率与转移函数间的关系。首先,提取HRTFs的过量的相位,然后以纯延迟的形式进行建模。然后对HRTFs的最小相位成分进行线性分解,用P个空间函数Cj(θ,)和重构滤波器Lj(f)之和来表达每个HRTF 图4中描述了基于HRTFs线性分解的双耳声合成的实施方案。首先向来自每个声源的需要空间化的信号Si(i=1,2,……,N)加入和声源相关的耳间延迟τ(步骤41)。然后将每个声源的信号分解成P条声道,对应于线性分解的P个基本向量。然后向每条声道加入来自HRTFs的线性分解的方向系数Cj(θi,i)(表示为Ci,j)。这些空间化参数τi和Ci,j的特性是只取决于声源位置[θi,i],而与声源频率无关。对于每个声源,这些系数的数量相应于HRTFs的线性分解用的基本向量的数量P。
对于每条声道,通过对应于第j个基本向量的滤波器Lj(f)来添加N个声源的信号(步骤43)然后对其进行过滤(步骤44)。
对于右声道和左声道独立使用相同的方案。图4中分开了左声道延迟(τLi)和右声道延迟(τRi),还分开了左声道方向系数(Ci,j)和右声道的方向系数(Di,j)。最后,在步骤44和45中加和和过滤的信号又经过一次加和(图4中的步骤45),就像图3中的步骤32一样,用于在立体声头戴式耳机上复制。步骤41、42和43对应于双耳声合成中的空间编码,然而步骤44和45对应于复制前的空间解码,由上述可知,可由图2中的模块M′3完成。特别地,来自加法器的信号,在图4的步骤43之后可能通过一个通讯网络,以便在上述步骤44和45的移动终端上进行空间解码和复制。
与“双声道”双耳声合成不同的该方案的好处在于,加入额外的声源不需要两个附加的滤波器(FIR或IIR型)。换句话说,所有的声源共享P个基本滤波器。另外,在动态双耳声合成中,可以改变系数Cj(θi,i),而不在设备输出端引发听得见的滴答声。这里只须2.P个滤波器,然而上述动态双声道方案需要4.N个滤波器。
换句话说,构成空间化参数的延迟和放大系数C和D根据声源的位置特定于每个声源,在执行基于HRTFs线性分解的双耳声合成中,可与方向滤波器L(f)分开。因此方向滤波器共用于N个声源,而不计其位置、数量或移动。相对于声源本身的信号的空间化参数的使用,表示适合的空间编码,然而,方向滤波器根据基于声源频率而不再基于声源的位置的复制完成实际空间解码处理。
参见图5,通过在声音合成器内结合空间化延迟和放大系数,能有效利用空间化参数和方向滤波器间的分离。针对要产生的每个声源信号(或音乐编辑中的音符)(步骤51),声音合成以及偏置和仰角所驱动的空间编码(延迟和放大系数)能在同一模块,如声音产生器内完成。然后如上所述(步骤52),由方向滤波器Li(f)执行空间解码。
参见图6和7,现在描述声源合成中产生信号的步骤。特别地,图6表示上述常用于不同声音合成技术的ADSR包络的主要参数。特别地,图6表示合成的声音信号包络的临时变量,例如钢琴奏出的音符,具有敲击参数,由上升的斜坡61建模,对应于,例如,琴锤敲击琴弦的持续时间;衰减参数,由下降的斜坡62建模,对应于,例如,琴锤离开琴弦的持续时间,剧烈下降;持续参数(自由振动),由略微下降的斜坡63建模,由于固有的声音阻尼,对应于,例如,按下的琴键发出声音的持续时间;释放参数,由下降的斜坡64建模,对应于,例如,当施加到琴弦时产生感觉的快速声音阻尼。
当然,可设想更加复杂的包络变量,包括多于四个部分。
然而大多数的合成的声音可以用上述的包络变量来建模。优选地,由于涉及的时间变量,在执行空间化处理的过滤之前确定ADSR包络参数。
可以用空间化处理来确定最大的声音振幅(在图6中用任意单位),然后针对每个左右声道,绘制到上述放大系数Cij和Dij上。相似地,声音的触发时刻(斜坡61的起始)可以通过延迟τLi和τRi来确定。
参见图7,图中描绘了一种使用频率调节的简单的声音合成操作器(“FM合成”)。首先确定载波频率fc(通常是基础模式的频率),该频率定义了音符的调。然后用一个或多个振荡器OSC1来定义一个或多个和声fm(该频率理论上对应于载波频率fc的倍数),与之相关的是相对响度Im。例如,对于金属音(例如由新的吉他弦产生的音),响度Im比基础模式的响度高。作为通用法则,FM合成确定了合成音的音色。来自振荡器OSC1的信号(正弦曲线)被加入模块AD从载波频率fc中获取的信号中,该模块向输出的振荡器OSC2传输信号,该振荡器OSC2接受信号作为声音振幅Ac相对于载波频率fc的给定值。在此,给定值Ac由空间化处理通过放大系数C和D直接定义(在双耳声合成中),如上文所述。最后,振荡器OSC2传输信号S′i,对该信号中加入图6所述的ADSR包络,以及针对每个图4所示的左右声道的一对延迟Li和Ri,还有几个放大系数Cij和Dij,最后获得信号,如图5中的声音产生器所传输的信号之一。
因此,上述方法就不用和公知的方法一样,先从MIDI格式的乐谱中产生标准音频复制格式的声音(例如“声波”格式),然后再次对其进行编码使声音空间化。
本发明使声音的空间化和合成步骤直接同步进行。任何需要定义响度(有时还需要声音的触发时刻)的声音合成处理可以和空间化处理一起进行,为每个复制声道提供放大系数(需要时也包括延迟)。
作为一个普遍的规则,声音合成器在读谱的基础上工作,乐谱上集成了需要合成的乐器信息、演奏声音的时刻、这些声音的调、强度,等等。如上所述和图5所示,读谱时,每个声音都分配到一个声音产生器。
首先考虑相同的声源同时播放很多音符的情况。这些来自相同声源的音符在相同的位置空间化,所以具有相同的参数。因此,优选将与同样的声源有关的声音产生器的空间化处理结合到一起。在这些条件下,优选地,首先将与来自同一个声源的音符有关的信号加和,这样就能总地对合成信号进行空间化处理,这样一方面减少了实施成本,另一方面,保证了声音场面的连贯性。
另外,可以利用合成器的结构来应用放大系数和延迟。一方面,以延迟线的形式来实施空间化延迟(左右声道),另一方面,对于合成器而言,根据乐谱,延迟由声音产生器的触发时刻所控制的。对于空间化声音合成,两个前述的步骤(延迟线和控制触发时刻)被结合在一起,从而优化处理。因此通过调节声音产生器的触发时刻,对于每个声源,就节约了一条延迟线。为此,提取了空间化左右声道延迟之间的差别。然后准备将两个延迟中较小的加入产生器的触发时刻。然后向两个声道中的一个应用左右声道之间的时间差,这种延迟差可以是正值或者负值。
对于放大系数,不再需要和立体声系统有关的平衡参数(即“全景(pan)”参数)了。因此也能消除与平衡有关的放大系数。另外,如上说述,可以将声音产生器的音量参数应用于对应空间编码的各种放大系数水平。
由于空间化工具被结合到声音合成工具的核心中,所以本发明可以允许声音空间化一个声源一个声源地被应用。反之,若所选的方法只是将合成工具和空间化工具串接,则无法实现上述功能。这种情况在实践中,空间化可以总地应用于所有的声音场面。
根据本发明另一个优点,特别是考虑至少一个空间化放大系数和/或延迟,或甚至一个空间化滤波器,可以明智地将声音合成和空间化工具结合到一起,产生一个声音合成工具的,特别具有合成和空间化操作组合的最优化的设备。
当合成参数已经用到下述参数中的一个或多个(放大系数、延迟、滤波器),空间化滤波器优选考虑简单地修改合成参数,而不修改合成模式本身。
另外,通过简单地向声音合成工具加入放大系数和延迟,在需要用滤波器互补时,可以获取一个基于不同空间化技术的空间化声音合成。这些空间化技术(双耳声/转声合成、全声、立体混响声等等)可以具有不同的复杂度和效率,但总体上提供了一个比立体声更加丰富和更加全面的空间化,对声音场面能进行自然的,引人入胜的播放。在实践中,本发明的声音空间化保留了三维声音播放的所有潜力,特别是具有真实的3D空间化的融入感觉。
当然,也可以以至少一个放大系数和/或一个延迟(需要时加入滤波器),以及一个用于延迟混响的人造混响器的简化形式,将空间化和室内效果处理整合在一起。
权利要求
1.一种声音合成和空间化的方法,其中,要产生的一种合成声音的特征是通过一种虚拟声源的特性和其相对于一选择的原点的位置表示,其特征在于,所述方法包括一联合的步骤,其包括确定至少包含一个放大系数的参数,用于同时确定表示所述声源的特性的响度;相对于预定原点的声源位置。
2.根据权利要求1所述的方法,其中,对所述虚拟声源的所述空间化是在立体混响声的条件下进行的,其特征在于,包括计算步骤,计算与球形谐函数基本成分中的立体混响声成份有关的放大系数。
3.根据权利要求1所述的方法,其中,合成声音用于在全声、或双耳声、或转声的条件下,在若干复制声道中进行复制,其特征在于,在所述的联合步骤中,还确定复制声道之间的延迟,以便同时确定表示声源特性的声音触发时刻;相对于预定原点的声源的位置。
4.根据权利要求3所述的方法,其特征在于,所述虚拟声源的所述特性至少由在一选择的持续时间上的一个临时响度变量来参数化表示,该变量包括一个声源触发时刻。
5.根据权利要求4所述的方法,其特征在于,所述变量包括至少乐器的敲击阶段;衰减阶段;持续阶段;释放阶段。
6.根据权利要求3到5中的任一项所述的方法,其特征在于,所述虚拟声源的所述空间化是由基于转移函数的线性分解的双耳声合成进行,这些转移函数由取决于所述声音的所述频率(L(f))的项的线性组合来表示,以及由取决于所述声音的所述方向(τR,τL,C,D)的项加权。
7.根据权利要求6所述的方法,其特征在于,所述方向由至少一个偏置角(θ)来确定,以及优选由用一个偏置角(θ)和一个仰角()来确定。
8.根据权利要求6和7中的任一项所述的方法,其特征在于,所述虚拟声源的所述位置至少由滤波的数量,取决于所述声源频率(Li(f));加权放大系数的数量,每个系数都和一个滤波相关;每个“左”声道和“右”声道的延迟;参数化。
9.根据前述权利要求中的任一项所述的方法,其特征在于,所述虚拟声源的所述特性,通过将所选的相对响度与一个对应于所述声音音调的频率和声结合,由至少一个声源音质参数化。
10.根据前述权利要求中的任一项所述的方法,其特征在于,提供声音合成工具专门用来产生相对于预定原点的空间化声音。
11.根据权利要求10所述的方法,其中,所述合成工具在音乐编辑的环境下工作,其特征在于,所述方法还提供一种人机界面,以将所述虚拟声源置于相对于预定原点的一选择的位置。
12.根据权利要求11和6所述的方法,其中,提供需要合成和空间化的若干虚拟声源,其特征在于,每个声源都被分配到一个各自的位置。
13.一种产生合成声音的模块,包括一个处理器,其特征在于,还包括一个工作存储器,专用于存储实现上述方法的指令。
14.一种计算机程序产品,存储在中央处理器或终端,特别是移动终端的存储器内,或存储在专用于与所述中央处理器的驱动器协同的移动媒介中,其特征在于,所述产品包括指令,所述指令实现权利要求1到12中任一项所述的方法。
全文摘要
本发明涉及发自虚拟声源的声音的合成和相关联的空间化。根据本发明,提供一步骤(ETA),该步骤包括确定一个参数,该参数包括至少一个放大系数(g
文档编号G10H1/00GK1886780SQ200380110958
公开日2006年12月27日 申请日期2003年12月15日 优先权日2003年12月15日
发明者罗泽恩·尼科尔, 达维德·维雷特, 马克·埃默里 申请人:法国电信
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1