声音合成的制作方法

文档序号:2830006阅读:1298来源:国知局

专利名称::声音合成的制作方法声音合成本发明涉及声音的合成。更具体地,本发明涉及一种合成声音的设备和方法,其中声音由参数集表示,每个集合包括表示声音的噪声分量的噪声参数和表示其他分量的其他参数。用参数集表示声音是众所周知的。所谓的参数编码技术被用于高效地编码声音,用一系列参数表示声音。合适的解码器能够利用这一系列参数充分地重建原始声音。这一系列参数可被划分为集合,每个集合对应于个别的声音源(声道),诸如(人)说话者或乐器。流行的MIDI(乐器数字接口)协议允许音乐通过乐器指令的集合表示。将每个指令分配给特定乐器。每个指令能够利用一个或更多声道(在MIDI中称作"声部(voices),,)。将可以同时使用的声道数目称作复调级(polyphonylevel)或复调(polyphony)。MIDI指令可被高效传输和/或存储。合成器通常包括声音定义数据,例如声音库(soundbank)或音色(patch)数据。在声音库中,乐器声音的样本被存储为声音数据,而音色数据为声音发生器定义控制参数。MIDI指令使合成器从声音库中检索声音数据,并合成由该数据表示的声音。正如普通的波表(wavetable)合成一样,这些声音数据可以是实际的声音样本,是数字化的声音(波形)。然而,声音样本通常需要大量存储器,这在相对较小的设备中是不可行的,特别是在诸如移动(蜂窝)电话的手持用户设备中。可替换地,声音样本可以由包括振幅、频率、相位和/或包络形状参数的参数以及允许重建声音样本的参数表示。存储声音样本参数所需要的存储量通常大大低于存储实际的声音样本所需要的存储量。然而,声音的合成可能具有庞大的计算量。当需要对表示不同声道(MIDI中的"声部")的很多参数集合进行同时合成(高度的复调)时,尤其是这样。计算负担通常随着要被合成的通道("声部")数量而线性增长,也就是说,随着复调的程度线性增长。这就使得在手持设备中使用这种技术非常困难。由M.Szczerba,W.Oomen和M.KleinMiddelink完成的论文"ParametricAudioCodingBasedWavetableSynthesis",AudioEngineeringSocietyConventionPaperNo,6063,柏林(德国),2004年5月,公开了一种SSC(正弦编码)波表合成器。SSC编码器将音频输入分解为瞬时、正弦和噪声分量,并为这些分量的每一个生成参数表示。这些参数表示被存储在声音库中。SSC解码器(合成器)利用该参数表示重建原始音频输入。为了重建噪声分量,个别声道的时间包络与各自的增益结合并相加,然后将白噪声与该组合的时间包络相混合,以产生在时间上整形的噪声信号。利用个别声道的频谱包络参数产生滤波器系数,该滤波器系数用于对时间上整形的噪声信号进行滤波,从而产生在时间上和频谱上均被整形的噪声信号。尽管这种已知的配置非常有效,然而,为很多声道确定时间包络和频镨包络需要大量的计算负荷。在很多现代的声音系统中,能够使用64声道,并且正在设想数量更多的声道。这就使得该已知的配置不适宜用在计算能力有限的相对较小的设备中。另一方面,对在诸如移动电话的手持用户设备中实现声音合成的需求正在增加。消费者现在希望他们的手持设备可以产生范围较广的声音,诸如不同的铃声。因此,本发明的目的是克服现有技术的这些和其他问题,并提供一种合成声音的噪声分量的设备和方法,该设备和方法更高效,并能降低计算负荷。因此,本发明提供一种合成声音的设备,其中声音由参数集表示,每个集合包括表示声音的噪声分量的噪声参数,该设备包括-选捧装置,基于感知相关值(perceptualrelevancevalue),从全部集合中选择有限数目的集合,-合成装置,只利用所选择集合的噪声参数合成噪声分量。通过选择有限数目的参数集并只利用这些有限数目的参数集进行合成,有效地丢弃剩余集合,能够大大降低合成的计算负荷。通过利用感知相关值选择集合,没有使用某些参数集的感知效果惊人地小。应该预料到,仅仅利用例如64个参数集中的5个,将严重影响到所重建(即,合成)声音的感知质量。然而,发明人已经发现,如在本实例中,通过适当选择五个集合,声音质量没有受到影响。当集合数目进一步减少时,造成声音质量下降。然而,这种下降是逐渐的,并且选择三个集合的数目仍然可以接受。除了表示声音的噪声分量的噪声参数以外,参数集合还可以包括表示声音其他分量的其他参数。因此,每个参数集合可以包括噪声参数和其他参数,诸如正弦和/或瞬时参数。然而,集合只包括噪声参数也是可能的。注意到,噪声参数集的选择优选地与其他任意参数无关,诸如正弦和瞬时参数。然而,在某些实施例中,选择装置还被配置为基于表示其他声音分量的一个或更多其他参数,从全部集合中选择有限数目的集合。也就是说,可以包括集合的任意正弦和/或瞬时分量参数,并且由此影响集合噪声参数的选择。在优选实施例中,该设备包括用于判决要选择哪个参数集的判决部分,以及用于基于判决部分提供的信息选择参数集的选择部分。然而,可以设想这样的实施例,其中,判决部分和选择部分组成一个单独的整体单元。可替换地,该设备可以包括用于基于包含在参数集中的感知相关值来选择参数集的选择部分。如果参数集中包含感知相关值或者任何无需任何另外的判决过程而确定选择的其他值,那么就不再需要判决部分了。本发明的合成设备可以包括单一的对所有被选择集合的噪声进行频谱整形的滤波器,以及用于确定滤波器滤波参数的莱文森-德宾(Levinson-Durbin)单元,其中该单一滤波器优选地由拉格里(Laguerre)滤波器构成。以这种方式,可以实现非常高效的合成。有益地,本发明的设备可以进一步包括增益补偿装置,用于对所选择的噪声分量针对任何由于被拒绝(rejected)的任意噪声分量造成的能量损失进行增益补偿。由于被拒绝的任意噪声分量的能量分布在所选择的噪声分量上,因此该增益补偿装置允许噪声的总能量基本保持不受选择过程影响。此外,本发明提供一种利用参数集来表示声音的编码设备,每个参数集包括表示声音的噪声分量的噪声参数,该设备包括相关(relevance)检测器,用于提供表示各个噪声参数的感知相关的相关值。该相关参数优选地被添加到各个集合中,并可以基于感知模型而被确定。得到的参数集可由上述定义的合成设备重新转换为声音。本发明还提供一种包括上述定义的合成设备的用户设备。该用户设备优选但不必须是便携的,更优选是手持的,可以由移动(蜂窝)电话、CD播放器、DVD播放器、MP3播放器、PDA(个人数字助理)或其他适当的设备构成。本发明进一步提供一种合成由参数集表示的声音的方法,每个集合包括表示声音的噪声分量的噪声参数,该方法包括如下步骤-基于感知相关值,从全部集合中选择有限数目的集合,-只利用所选择集合的噪声参数合成噪声分量。在本发明的方法中,感知相关值可以指示噪声振幅和/或噪声能参数集可以只包含噪声参数,但是也可以包含表示声音其他分量的其他参数,诸如正弦和/或瞬时。本发明的方法可以包括进一步的步骤对所选择的噪声分量针对任何由于被拒绝的任意噪声分量造成的能量损失进行增益补偿。通过应用该步骤,噪声总能量基本不受选择过程的影响。本发明额外还提供一种计算机程序产品,用于执行上述定义的方法。计算机程序产品可以包括存储在诸如CD或DVD的光或磁载体上,或者存储并可以例如经由因特网从远程服务器上下载的计算机可执行指令的集合。下面将参考附图所示的示例性实施例,对本发明进行进一步解释,其中图1示意性地示出了根据本发明的噪声合成设备。图2示意性地示出了用于本发明中的表示声音的参数集。图3更详细地示意性示出了图1中设备的选择部分。图4更详细地示意性示出了图1中设备的合成部分。图5示意性地示出了合并了本发明设备的声音合成设备。图6示意性地示出了音频编码设备。仅通过图1中非限制性实例所示的噪声合成设备1包括选择单元(选择装置)2和合成单元(合成装置)3。根据本发明,选择单元2接收噪声参数NP,选择有限数量的噪声参数,并将这些选择的参数NP,传递给合成单元3。合成单元3仅利用选择的噪声参数NP,来合成整形噪声,即时间和/或频谱包络已经被整形的噪声。下面将结合图4,更详细地讨论合成单元3的一个示例性实施例。噪声参数NP可以是声音参数集ShS"…,Sn的一部分,如图2所示。在所示的实例中,参数集Si(i=l...N)包括表示瞬时声音分量的瞬时参数TP、表示正弦声音分量的正弦参数SP和表示噪声声音分量的噪声参数NP。集合Si可以已经利用如上所述的SSC编码器或其他适当的编码器产生。将会了解,一些编码器可以不产生瞬时参数(TP)而其他编码器可以不产生正弦参数(SP)。这些参数可以遵循MIDI格式,也可以不遵循MIDI格式。每个集合Si可以表示一个激活的声道(或者MIDI系统中的"声部")。图3中更详细地示出了噪声参数的选择,其示意性地示出了设备l的选择单元2的实施例。图3的该示例性选择单元2包括判决部分21和选择部分22。判决部分21和选择部分22都接收噪声参数NP。判决部分21只需要适当的选择判决所基于的组成参数。适当的组成参数是增益g"在优选实施例中,gi是噪声集Si(参见图2)时间包络的增益。然而,还可以使用个别噪声分量的振幅,或者可以由参数导出能量值。将会清楚,振幅和能量指示了噪声的感知,因此它们的幅值组成了感知相关值。有益地,使用感知模型(例如包括人耳的声学和心理学感知)来确定并(可选择地)加权适当的参数。判决部分21判决要将哪些噪声参数用于噪声合成。利用应用到感知相关值上的优化准则来作出判决,例如从可用增益gi中找到五个最高增益。相应的集合号(例如2、3、12、23和41)被馈送到选择部分22。在一些实施例中,选择参数(即相关值)可以已经被包括在噪声参数NP中了。在这些实施例中,判决部分21可以省略。选择部分22被配置为用于选择由判决部分21指示的集合的噪声参数。丢弃剩余集合的噪声参数。结果,只有有限数目的噪声参数被传递到合成单元(图1中的3)并接下来被合成。因此,大大降低了合成单元的计算负荷。发明人已经意识到,用于合成的噪声参数的数量可以大大减少,而对声音质量没有实质性损失。被选择集合的数目可以相对较小,例如从总共64个中选5个(7.8%)。通常,尽管至少10%是优选,被选择集合的数目至少应该是总数目的4.5%,以防声音质量有任何可感知到的损失。如果被选择集合的数目进一步减少到低于大约4.5%,则被合成的声音质量逐渐下降,但是对于某些应用来说还可以接受。将会明白,也可以使用诸如15%、20%、30%或40%的更高百分比,尽管这样将增加计算负荷。包括哪个集合、不包括哪个集合的判决是由判决部分21基于感知相关值做出的,例如噪声分量的振幅(等级)、从声音库(控制包络发生器、低频振荡器等)中得到的清晰度数据(articulationdata)和从MIDI数据中得到的信息,例如有记录的(note-on)速度和与清晰度相关的控制器。还可利用其他的感知相关值。一般地,具有最大相关值、例如最高的噪声振幅(或增益)的M个集合被选择。另外,或可替代地,判决部分21可以使用来自每个集合的其他参数。例如,可使用正弦参数来减少噪声参数的数目。利用正弦(和/或瞬时)参数,可以构造掩蔽曲线,从而振幅低于掩蔽曲线的噪声参数可被忽略。集合的噪声参数因此可以与掩蔽曲线比较。如果它们落到曲线以下,则拒绝该集合的噪声参数。将会明白,集合Si(图2)和噪声的选择和合成通常在每个时间单元中进行,例如每个时间帧。因此,噪声参数和其他参数可以仅仅指某个时间单元。诸如时间帧的时间单元可以部分重叠。图4中更详细地示出了图1的合成单元3的示例性实施例。在该实施例中,利用时间(时间域)包络和频谱(频率域)包络来产生噪声。时间包络发生器311、312和313接收分别对应于被选择集合Si的包络参数bi(i-l…M)。根据本发明,被选择集合的数目M小于可得到的集合数目N。时间包络参数bi定义由发生器311-313输出的时间包络。乘法器331、332和333用各自的增益gi乘以时间包络。作为结果得到的增益已调整的时间包络被加法器341相加,并被馈送到下—个乘法器339,在那里与噪声发生器305生成的(白)噪声相乘。作为结果得到的已经被在时间上整形但通常具有实际上均衡的频i瞽的噪声信号i皮馈送到(可选的)重叠再相加(overlap—and—add)电路360。在该电路中,随后时间帧的噪声片断被组合,形成连续信号,其被馈送到滤波器390。如上所述,增益g'到gM对应于被选择的集合。由于有N个可得到的集合,因此增益gw到gw对应于被拒绝的集合。在图4所示的优选实施例中,不丟弃增益gM+,到gN,而是用它们调节增益g,到gM。这种增益补偿用来减小或甚至消除噪声参数选择对被合成噪声的等级(即振幅)的影响。因此,图4的实施例额外还包括加法器343和缩放(scaling)单元349。加法器343将增益gw+,到gw相加,并将作为结果得到的累积增益馈送到应用缩放系数1/M的缩放单元349,以产生补偿增益g"其中M是如上所述被选择的集合数目。然后将该补偿增益ge通过加法器334、335…加到每个增益g,到gM,加法器数目等于M。通过将被拒绝分量的累积增益分布在被选择分量上,噪声能量保持基本不变,由于噪声分量选择导致的声级变化被避免了。将会明白,加法器343、缩放单元349和加法器334、335…是可选的,在其他实施例中,这些单元可以不出现。如果出现,缩放单元349可以可替换地被安排在加法器341和乘法器339之间。滤波器390在优选实施例中是拉格里(Laguerre)滤波器,用来对噪声信号频谱整形。从被选择集合Si导出的频谱包络参数ai被馈送到自相关单元321,自相关单元321计算这些参数的自相关。加法器342将作为结果得到的自相关相加,并将其馈送到单元370,以便确定频谱整形滤波器390的滤波器系数。在优选实施例中,单元370被配置为根据公知的莱文森-德宾(Levinson-Durbin)算法确定滤波器系数。然后由转换单元380将作为结果得到的线性滤波器系数转换为拉格里(Laguerre)滤波器系数。然后利用拉格里(Laguerre)滤波器390来整形(白)噪声的频谱包络。作为确定每组参数ai自相关函数的替代,可使用更高效的方法。计算被选择集合(即,被选择的激活通道或"声部")的功率谱,然后通过对相加的功率谱进行傅立叶逆变换来计算自相关函数。然后将作为结果得到的自相关函数馈送到莱文森-德宾(Levinson-Durbin)单元370。将会明白,参数ai、b"gi和入都是图1和图2中用NP表示的噪声参数的一部分。在图3的选择单元实施例中,判决部分22只使用增益参数gi。然而,可以设想这样的实施例,其中参数ai、b"gi和入的某些或全部以及可能还有其他参数(例如关于正弦分量和/或瞬时)也可以被判决部分22使用。需要注意,参数入可以是不变的,并且不需要是噪声参数NP的一部分。图5示意性地示出了本发明所用于的声音合成器。合成器5包括噪声合成器51、正弦合成器52和瞬时合成器53。输出信号(合成的瞬时、正弦和噪声)由加法器54相加,形成合成的音频输出信号。噪声合成器51有益地包括如上所定义的设备(图1中的1)。合成器5可以是音频(声音)解码器(未示出)的一部分。音频解码器可以包括解复用器,用于对输入比特流解复用,并分离出瞬时参数(TP)、正弦参数(SP)和噪声参数(NP)的集合。仅通过图6中非限制性实例所示的音频编码设备6以三个阶段来编码音频信号s(n)。第一阶段中,利用瞬时参数提取(TPE)单元61对音频信号s(n)中的任意瞬时信号分量进行编码。将该参数提供给多路复用(MUX)单元68和瞬时合成(TS)单元62。当多路复用单元68对参数进行适当地组合并多路复用以便发送到诸如图5中设备5的解码器时,瞬时合成单元62重建编码的瞬时(transients)。在第一组合单元63中将这些重建的瞬时从原始音频信号s(n)中减去,以形成基本上消除了瞬时的中间信号。第二阶段中,中间信号中的任意正弦信号分量(即正弦和余弦)由正弦参数提取(SPE)单元64编码。作为结果得到的参数被馈送到多路复用单元68和正弦合成(SS)单元65。在第二组合单元66中,从中间信号中减去由正弦合成单元65重建的正弦,得到残留(residual)信号。第三阶段中,利用时间/频率包络数据提取(TFE)单元67,对残留信号进行编码。需要注意,由于第一和第二阶段中去除了瞬时和正弦,因此假定残留信号是噪声信号。因此,时间/频率包络数据提取(TFE)单元67用适当的噪声参数来表示残留噪声。根据现有技术关于噪声建模和编码技术的综述在美国斯坦福大学的S.N-Levine于1999年发表的论文"AudioRepresentationsforDataCompressionandCompressedDomainProcessing"的第5章中有所表述,其全部内容在这里被结合到本文献中。从所有三个阶段得到的参数被适当组合,并由多路复用(MUX)单元68多路复用,该多路复用单元68还执行附加的参数编码,例如霍夫曼编码或时间差分编码,以便减少传输所需的带宽。注意到,参数提取(即编码)单元61、64和67可以对所提取的参数进行量化。可替换地或附加地,可以在多路复用(MUX)单元68中进行量化。进一步注意到,s(ii)是数字信号,n表示样本数,集合Si(n)被作为数字信号发送。然而,也可以应用到模拟信号。当已经在MUX单元68中进行组合和多路复用(以及可选地编码和/或量化)之后,经由传输介质来传输参数,传输介质诸如是卫星链路、玻璃纤维电缆、铜缆以及任意其他适当的介质。音频编码设备6进一步包括相关检测器(RD)69。该相关检测器69接收预先确定的参数,诸如噪声增益gi(如图3中所示),并确定它们的声学(感知)相关。作为结果得到的相关值被反馈到多路复用器68,在那里它们被插入到集合Si(n)形成输出比特流。然后解码器可以使用包括在该集合中的相关值来选择适当的噪声参数,而不必确定它们的感知相关。这样,解码器可以更简单和快速。尽管相关检测器(RD)69在图6中所示为连接到多路复用器68,相关检测器69也可以代替为被直接连接到时间/频率包络数据提取(TFE)单元67。相关检测器69的操作可以与图3中所示的判决部分21的操作相似。图6中所示音频编码设备6有三个阶段。然而,音频编码设备6还可以由少于三个的阶段组成,例如只有产生正弦和噪声参数的两个阶段,或者多于三个阶段,产生额外的参数。因此可以设想这样的实施例,其中不出现单元61、62和63。图6的音频编码设备6可以有益地被安排为产生可以由图1中所示合成设备解码(合成)的音频参数。本发明的合成设备可以用于便携式设备,特别是手持用户设备,诸如蜂窝电话、PDA(个人数字助理)、手表、游戏设备、固态音频播放器、电子乐器、数字电话答录机、便携式CD和/或DVD播放器等。从上面可以清楚地看到,本发明还提供一种合成由参数集表示的声音的方法,其中每个参数集包括表示声音的噪声分量的噪声参数,可选地还包括表示其他分量的其他参数,诸如瞬时和/或正弦。本发明的方法本质上包括如下步骤-基于感知相关值,从全部集合中选择有限数目的集合,-只利用所选择集合的噪声参数合成噪声分量。本发明的方法可以额外包括下列可选步骤对所选择的噪声分量针对任何由于拒绝噪声分量造成的能量损失进行增益补偿。进一步可选的方法步骤可以从上面的描述中导出。附加地,本发明提供一种用参数集表示声音的编码设备,每个参数集包括表示声音的噪声分量的噪声参数,优选地还包括瞬时和/或正弦参数,该设备包括相关检测器,用于提供表示各个噪声参数的感知相关的相关值。本发明基于这样的认识,即当合成声音的噪声分量时,选择有限数目的声道实际上可以不会导致被合成声音发生降质。本发明得益于进一步的认识,即基于感知相关值来选择声道最小化或消除了被合成声音的失真。注意到,该文献中使用的任何术语不应被理解为限制本发明的范围。特别地,词语"包括"和"包含"不意味着排除没有特别声明的任何元素。一个(电路)元件可以由多个(电路)元件或它们的等价物代替。本领域技术人员将会明白,本发明不限于上面解释的实施例,可以在不偏离如所附权利要求所定义的本发明范围的情况下,做出很多修改和添加。权利要求1、一种用于合成声音的设备(1),其中声音由参数集表示,每个集合包括表示声音的噪声分量的噪声参数(NP),该设备包括-选择装置(2),基于感知相关值,从全部集合中选择有限数目的集合,-合成装置(3),只利用所选择集合的噪声参数合成噪声分量。2、根据权利要求1所述的设备,其中所述感知相关值指示噪声分量的振幅和/或能量。3、根据权利要求1所述的设备,其中一个参数集进一步包括表示声音的瞬时分量和/或正弦分量的其他参数(SP;TP)。4、根据权利要求3所述的设备,其中选择装置(2)还被配置为基于表示声音的其他分量的一个或更多其他参数(SP;TP),从全部集合中选择有限数目的集合。5、根据权利要求1所述的设备,其中噪声参数(NP)定义噪声的时间包络和/或频谱包络。6、根据权利要求1所述的设备,其中每个参数集对应于一个声道,优选地是MIDI声部。7、根据权利要求1所述的设备,包括用于判决要选择哪个参数集的判决部分(21),以及用于基于判决部分(21)提供的信息选择参数集的选择部分(22)。8、根据权利要求1所述的设备,包括用于基于被包含在参数集中的感知相关值来选择参数集的选择部分(22)。9、根据权利要求1所述的设备,其中合成装置(3)包括对所有被选择集合的噪声进行频谱整形的单个滤波器(390),以及确定滤波器(390)滤波参数的莱文森-德宾单元(370),其中该单个滤波器(390)优选地由拉格里滤波器构成。10、根据权利要求1所述的设备,进一步包括增益补偿装置(343、349),用于对所选择的噪声分量针对任何由于被拒绝的任意噪声分量造成的能量损失进行增益补偿。11、一种音频合成器(5),诸如MIDI合成器,包括根据权利要求1所述的合成设备(1)。12、一种用户设备,诸如蜂窝电话,包括根据权利要求1所述的合成设备(1)。13、一种合成声音的方法,其中声音由参数集表示,每个集合包括表示声音的噪声分量的噪声参数(NP),该方法包括如下步骤-基于感知相关值,从全部集合中选择有限数目的集合,-只利用所选择集合的噪声参数合成噪声分量。14、根据权利要求13所述的方法,其中所述感知相关值指示噪声分量的振幅和/或能量。15、根据权利要求13所述的方法,其中一个参数集进一步包括表示声音的瞬时分量和/或正弦分量的其他参数(SP;TP)。16、根据权利要求15所述的方法,其中还基于表示声音的其它分量的一个或更多其他参数(SP;TP),执行从全部集合中选择有限数目的集合的步骤。17、根据权利要求13所述的方法,其中噪声参数定义噪声的时间包络和/或频谱包络。18、根据权利要求13所述的方法,其中每个参数集对应于一个声道,优选地是MIDI声部。19、根据权利要求13所述的方法,进一步包括对所选择的噪声分量针对任何由于被拒绝的任意噪声分量造成的能量损失进行增益补偿的步骤。20、根据权利要求13所述的方法,其中每个参数集对应于一个声道,优选地是MIDI声部。21、根据权利要求13所述的方法,其中每个参数集包含感知相关值。22、一种计算机程序产品,用于执行根据权利要求13至21中任意一项所述的方法。全文摘要一种被配置为合成声音的设备(1),其中声音由参数集表示,每个集合包括表示声音的噪声分量的噪声参数(NP),可选地还包括表示其他分量的其他参数,诸如瞬时和正弦。每个参数集可以对应一个声道,诸如MIDI声部。为了减少计算负载,该设备包括选择单元(2),基于诸如振幅或能量的感知相关值(perceptualrelevancevalue),从全部集合中选择有限数目的集合。该设备进一步包括合成单元(3),只利用所选择集合的噪声参数合成噪声分量。文档编号G10H7/00GK101116135SQ200680004643公开日2008年1月30日申请日期2006年2月1日优先权日2005年2月10日发明者A·C·登布林克,A·J·格里茨,A·W·J·乌门,M·克莱恩米德林克,M·施泽尔巴申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1