声音合成的制作方法

文档序号：2830005阅读：402来源：国知局

专利名称：：声音合成的制作方法
技术领域：
：本发明涉及声音的合成。更特别的是，本发明涉及用于使参数集合表示的声音合成的设备和方法，每个参数集合包括表示声音正弦分量的正弦参数以及表示其它分量的其它参数。
背景技术：
：利用参数集合表示声音是公知的。过去常常利用所谓的参数编码技术来有效地编码由一系列参数表示的声音。合适的解码器能够利用该一系列参数基本上重建原始的声音。该一系列参数可以分成多个集合，每个集合对应于诸如(人类的)扬声器或者乐器之类的单独声音源(声道)。流行的MIDI(乐器数字接口)协议可以使音乐由乐器的指令集合表示出来。每个指令分配给特定的乐器。每种乐器能够使用一个或多个声道(称作MIDI"音，，)。可以同时使用的声道数量称作多音级或者多音。能够有效地发送和/或存储该MIDI指令。合成器通常使用预先确定的定音数据，例如声音库或者音色数据。在声音库中，存储了作为声音数据的乐器声音样本，而音色数据限定发声器的控制参数。MIDI指令使该合成器从声音库中检索声音数据，并且合成由这些数据表示的声音。如常规波表合成的情况一样，这些声音数据可以是实际的声音样本，即数字化声音(波形)。然而，声音样本通常需要大的存储空间，在比较小的设备中是不可行的，尤其是在诸如移动(蜂窝)电话之类的手持消费设备中。可选的是，可以由参数表示声音样本，这些参数可以包括振幅、频率、相位和/或包络线状参数，并且这些参数可以重建声音样本。存储声音样本的参数通常比存储实际的声音样本需要小得多的存储空间。然而，声音合成的计算量繁重。特别是在必须同时(多音)合成表示不同声道(MIDI"音")的不同参数集合时。计算量通常随着所要合成的声道(音)的数量而线性增加。这使得难以在手持设备中使用这些技术。2004年5月柏林(德国)音频工程协会会议论文集No.6063，由M.Szczerba、W.Oomen和M.KleinMiddelink撰写的论文《基于参数音频编码的波表合成(ParametricAudioCodingBasedWavetableSynthesis)》披露了一种SSC(正弦编码)波表合成器。SSC编码器将音频输入分解成瞬态、正弦波和噪声分量，并且针对这些分量中的每个分量生成参数表示。将这些参数表示存储在声音库中。该SSC解码器(合成器)使用该参数表示来重建原始的音频输入。为了重建该正弦分量，该论文提出了将每个正弦波的能量语收集到信号的谱线图像中，然后利用单一反转傅立叶变换合成该正弦波。这种重建过程的计算量仍然相当大，尤其是在必须同时合成大量声道的正弦波时。在许多现代声音系统中，能够使用64个声道并且设想更多的声道。这使得已知的配置不再适合于计算能力有限的较小设备中。另一方面，对于手持消费设备中声音合成的要求越来越高，例如移动电话。如今的消费者希望其手持设备能够产生宽范围的声音，例如不同的铃声。
发明内容因此，本发明的目的是克服现有技术的这些及其它问题，并且提供一种用于合成声音正弦分量的设备和方法，该设备和方法会更加有效并且减小了计算量。相应地，本发明提供了一种用于合成包含正弦分量的声音的设备，该i殳备包括-选择装置，利用感知相关值从多个频带的每一个中选择有限数量的正弦分量，以及-合成装置，仅合成选定的正弦分量。通过仅合成选定的正弦分量，可以实现计算量的显著减小，同时基本上保持合成后声音的质量。选定并合成的有限数量的正弦分量优选比可获得的数量小的多，例如1600中的110个，但是实际选定的数量通常取决于该设备的计算能力、所希望的声音质量和/或所关心的频带内可获得的正弦成分的数量。所要进行选择的频带数量还可以变化。优选的是，在所有可获得的频带中进行选择程序，从而实现最大可能的减少。然而，还可以在一个或仅仅少数频带中选择有限数量的正弦分量。该频带的宽度还可以从几赫兹变化到几千赫兹。该感知相关值优选包括各个正弦成分的振幅和/或能量。任意的感知相关值可以基于心理声学模型，该模型考虑到参数(例如振幅、能量和/或相位)对于人耳的感知相关性。这种心理声学模型本身可以是公知的。该感知相关值还可以包括各个正弦分量的位置。表示声源在(二维)平面或者(三维)空间中的位置的位置信息可以与一部分或者全部正弦分量相关，并且可以包含在选择决定中。可以利用^^知的^支术收集位置信息，并且该位置信息可以包括坐标(X，Y)或者(A，L)的集合，其中A是角度，L是距离。当然，三维位置信息应包括坐标(X，Y，Z)或者(A1，A2，L)的集合。尽管其它标度也是可以的，例如线性标度或者Bark标度，但是优选基于感知相关标度的频带，例如ERB标度。在本发明的设备中，优选由参数表示正弦分量。这些参数可以包括振幅、频率和/或相位信息。在一些实施例中，还由参数表示其它成分，例如瞬态和噪声。这些参数可以包括振幅参数和/或频率参数，并且可以基于量化值。也就是说，可以将量化的振幅和/或频率值用作参数，或者可以用于由这些值获得参数。这样就无需解量化任何量化值。进一步优选的是，将所有有源音的参数收集在一起。由选择程序将所有有源音的所有正弦波考虑在内。不进行音的选择(如常规合成器中那样做的)，而对正弦分量进行选择。这样做的优点是不必降低音，并且可以在不增加计算量的情况下获得更高的多音。该设备可以包括根据包含在参数集合中的感知相关值选择参数集合的选择部件。如果相关参数是预定的，也就是说该参数是在编码器处确定的，则该选择部件特别有效。在这些实施例中，编码器可以生成比特流，在该比特流中插有感知相关值。优选的是，该感知相关值包含在其各自的参数集合中，而这些参数集合反过来可以作为比特流来发送。作为替换，或者在此基础上继续，该设备可以包括才艮据由该设备的决定部件生成的感知相关值选择参数集合的选择部件，该决定部件根据包含在这些集合中的参数生成所述感知相关值。本发明还提供了一种消费装置，其包括如上所述的合成设备。本发明的消费装置优选但不并不一定是便携的，更优选的是手持的，并且其可以由移动(蜂窝)电话、CD播放器、DVD播放器、固态播放器(例如MP:3播放器)、PDA(个人数字助理)或者任何其它适当的装置构成。本发明还提供了一种合成包含正弦分量的声音的方法，该方法包括以下步骤-利用感知相关值从多个频带的每一个频带中选择有限数量的正弦分量，以及-仅合成选定的正弦分量。该感知相关值可以包括各个正弦分量的振幅、相位和/或能量。本发明的方法还可以包括针对没有选择的正弦分量的能量损失补偿选定正弦分量的增益的步骤。本发明还提供了一种计算机程序产品，其用于实施上述的方法。计算机程序产品可以包括存储在光学或磁性载体(例如CD或DVD)上或者存储在远程服务器上并且可以从远程服务器上下载(例如通过互联网)的计算机可执行指令集合。参照以下的实例性实施例，对本发明做进一步阐述，其中图1示意性表示了根据本发明的正弦合成设备。图2示意性表示了本发明中使用的表示声音的参数集合。图3更详细地示意性表示了图l设备的选择部件。图4示意性表示了根据本发明的正弦分量的选择。图5示意性表示了包括本发明设备的声音合成设备。图6示意性表示了音频编码设备。具体实施例方式图1中仅仅是以非限定性实例的方式表示了正弦分量合成设备1，该设备包括选择单元2和合成单元3。根据本发明，该选择单元2接收正弦分量参数SP，选择有限数量的正弦分量参数，并且将这些选定的参数SP，传递到合成单元3。该合成单元3仅使用选定的正弦分量参数SP，来按照常规方式合成正弦分量。如图2所示，该正弦分量参数SP可以是声音参数集合SbS2........Sn的一部分。在所示实例中，该集合Si(i-l……N)包括表示瞬态声音分量的瞬态参数TP、表示正弦声音分量的正弦参数SP以及表示噪声声音分量的噪声参数NP。可以利用如上所述的SSC编码器或者任何其它的适当编码器生成该集合S"可以理解，某些编码器不能生成瞬态参数(TP)或者噪声参数(NP)。每个集合Si可以表示单一的有源声道(或者MIDI系统中的"音，，)。图3更详细地表示了正弦分量参数的选择，该图示意表示了设备l的选择单元2的实施例。图3的示例性选择单元2包括决定部件21和选择部件22。决定部件21和选择部件22均接收正弦参数SP。然而，该决定部件21仅需要接收选择决定所依据的适当组成参数。适当的组成参数是增益gi。在优选实施例中，gi是由集合Si(参见图2)表示的正弦分量的增益(振幅)。可以利用相应的MIDI增益放大每个增益gi，从而生成组合增益(每个声道)，该增益可以用作选择决定所依据的参数。然而，不使用增益，还能够使用由这些参数获得的能量值。该决定部件21决定将使用哪些参数进行正弦分量合成。该决定是利用最优化原则做出的，例如找5个最大增益gi，假设将选择5个正弦波中的最大正弦波。可以根据总频带能量或者整个频带中正弦波的总数，预先确定每个频带将要选择的实际正弦波数量，或者也可以由其它因素确定该数量。例如，如果一个频带中的正弦波数量小于预定数值，则其它频带能够使用更多的可转移分量。将与选定集合相对应的集合数(例如2、3、12、23和41)提供到选择部件22。将该选择部件22设置为选择由决定部件"表示的集合的正弦分量参数。对其余集合的正弦分量参数不进行处理。因此，仅将有限数量的正弦分量参数传递到合成单元(图1中的3)，并且随后进行合成。相应的，比较于合成全部正弦分量，该合成单元的计算量已经显著减本发明人已经发现，用于合成的正弦分量参数的数量能够显著减少，而声音质量没有大幅损失。选定集合的数量可以比较少，例如总共l600(64个声道，每个声道25个正弦波)个中的110个，即大约6.9%。一般而言，选定集合的数量应当至少为总数的约5.0%，以防止任何可感知的声音质量的损失，优选至少6.0%。如果进一步减少选定集合的数量，合成声音的质量会逐渐降低，但是对于某些用途而言，仍然是可以接受的。由决定部件21作出的包括哪些集合以及不包括哪些集合的决定是根据感知值、例如正弦分量的振幅(电平)作出的。还可以利用其它的感知值，即影响声音感知的值，例如能量值和/或包络值。还可以使用位置信息，从而允许根据正弦分量的(相对)位置来选择正弦分量。相应地，正弦分量的选择除了包括表示例如各个正弦分量的振幅、能量等的感知相关值之外，还可以包括(空间)位置信息(注意，可以将位置信息视为附加感知相关值)。可以利用公知技术收集位置信息。对于某些而不是全部正弦分量而言，可以具有相关的位置信息，可以将"中性"位置信息分配给不具有位置信息的部分。为了确定感知相关值，可以使用量化的频率、振幅和/或其它参数，从而消除对解量化的需求。这将在后面更详细的进行阐述。可以理解，通常在每个时间单位内对集合Si(图2)和正弦分量进行选择和合成，例如每个时帧或者子帧。因此，该正弦分量参数以及其它参数可以仅涉及某个时间单位。时间单位、例如时帧可以部分重叠。图4所示的示例性曲线图40示意性地表示了所要合成的声道(或"音")的频率分布。将正弦分量的振幅A表示为频率f的函数。尽管为了清楚说明仅表示了3个正弦分量(在&、f2和f3),但是实际上正弦分量的数量可以更多，通常为在任意给定时刻每个声道25个正弦分量。当某些用途中存在64个声道时，需要合成64x2S-1600个正弦分量，这对于较小和廉价的设备而言是明显不可行的，例如手持消费设备。根据本发明，将该频率分布细分成频带41。在本实例中，表示了6个频带，但是可以理解频带多一些或少一些都是可以的，例如单一频带、2个频带、3个，10个或20个。尽管每个频带41原本包含多个正弦分量，例如10个或20个，但是某些频带41可以根本不包含正弦分量，而其它频带可以包含50个或更多的正弦分量。根据本发明，将每个频带的正弦分量数量减少到某个有限数量，例如3个、4个或5个。所选定的实际数量可以取决于该频带中原本存在的正弦分量数量、该频带的宽度(频率范围)、频带的总数和/或该一个或多个频带中正弦分量的感知相关值。在图4的实例中，假设在每个频带中原本存在多于3个的正弦分量，而将要选择的是3个最相关的(即具有最大感知相关值)。在图4中的一个示例性频带中，在频率fbf2和f3处示出了选定的正弦分量42。根据本发明，仅选择了这3个正弦分量，并且将其用于合成声音。所关心的频带中的任何其它正弦成分均不用于合成，并且可以删除。然而，可以将废弃的正弦分量用于增益补偿。也就是说，可以计算由于删除正弦分量而造成的能量损失，并且将其用于提高所选定的正弦分量的能量。由于这种能量补偿，声音的总能量基本上没有受到选择程序的影响。能够如下进行能量补偿。首先，计算频带41中全部(选定的和废弃的)正弦分量的能量。在选择了所要合成的正弦分量(图4实例中频率fl、f2和f3处的正弦分量)之后，计算废弃的正弦分量与选定的正弦分量的能量比。然后，将该能量比用于按比例地提高所选定的正弦成分的能量。因此，该频带的总能量不受选择的影响。相应地，可以包含在图3的选择部件22中的增益补偿装置例如可以包括第一和第二加法单元，用于将废弃的和选定的正弦分量的能量值分别相加，还包括比例单元，用于确定废弃的和选定的正弦分量的能量比，以及标度单元，用于标度选定的正弦分量的能量或振幅值。如上所述，频带41的数量可以改变。在优选实施例中，这些频带基于ERB(等价常规带宽)标度。应当注意，ERB标度是本领域公知的。取代ERB标度，可以使用Bark标度或者类似的标度。这表示每个ERB频带中选择有限数量的正弦波。如上所述，可以在编码器中进行频率和振幅的量化，该编码器将声音分解成正弦分量，这些正弦分量反过来又可以由参数表示。例如，可以利用以下公式，将作为浮点值获得的频率转变为ERB(等价矩形<formula>formulaseeoriginaldocumentpage11</formula>(1)其中f是声道ch的子帧sf中第n个正弦波的频率(单位弧度)，并且fn[sf][ch[n是每个ERB具有91.2个表达电平的ERB标度中的(整数)表达电平(rl)(注意，括号表示四舍五入运算)，并且其中<formula>formulaseeoriginaldocumentpage11</formula>(2)如果值sa等于声道ch的子帧中第n个正弦波的振幅，则转化为表达电平，编码器在对数标度上以0.187SdB的最大振幅误差量化浮点振幅。由以下公式计算(整数)表达电平sarl[sf<formula>formulaseeoriginaldocumentpage11</formula>(3)其中sab=1.0218。注意，通过试验确定该值以及以上使用的值91.2和其它值，并且本发明不限于这些特定的值，而也可以使用其它值。发送和/或存储将要利用本发明的合成设备合成的量化值fri和arl。根据本发明，可以将这些量化值用于正弦分量的选择。可以如下实现这些量化值的解量化。可以利用以下公式将量化频率转变为解量化(绝对)频率fq(弧度)<formula>formulaseeoriginaldocumentpage11</formula>根据以下公式将解码值转变为解量化(线性)振幅值saq:<formula>formulaseeoriginaldocumentpage12</formula>(6)其中sab=1.0218是对应于(U875dB的最大误差的对数量化基数。避免所有频率和振幅的解量化可以很大程度上减少合成设备的计算复杂性。相应地，在本发明的优选实施例中，设置用于选择量化的正弦分量的选择装置(图1中的选择部件22和/或决定部件21)。通过对量化值进行选择，仅需要解量化选定的值，并且相当大地减少了解量化运算的数量。图5示意性地表示了其中可以应用于本发明的声音合成器。该合成器5包括噪声合成器51、正弦合成器52和瞬态合成器53。加法器54把输出信号(合成瞬态、正弦波和噪声)相加，从而形成合成的音频输出信号。该正弦合成器52优选包括如上所述的设备。该合成器5比现有技术的合成器更有效，原因在于其仅合成有限数量的正弦分量，而不会损害声音质量。例如，已经发现将正弦波的最大数量从1600个限制到IIO个不会影响声音质量。该合成器5可以是音频(声音)解码器(未示出)的一部分。该音频解码器可以包括用于多路分解输入比特流并且分离出瞬态参数(TP)、正弦参数(SP)和噪声参数(NP)的集合的多路分解器。图6中仅通过非限定性实例方式表示的音频编码设备6以3个阶段对音频信号s(n)进行编码。在第一阶段中，利用瞬态参数提取(TPE)单元61编码音频信号s(n)中的任意瞬态信号分量。将这些参数提供给多路复用(MUX)单元68和瞬态合成(TS)单元62。当多路复用单元68适当地组合并多路复用用于发送到解码器、例如图5的设备5的参数时，该瞬态合成单元62重建所编码的瞬态。在第一组合单元。处，将这些重建的瞬态从原始音频信号s(n)中减去，从而形成中间信号，从该中间信号中基本上去除了瞬态。在第二阶段中，利用正弦参数提取(SPE)单元64编码中间信号中的任意正弦信号分量(即正弦和余弦)。将所生成的参数提供给多路复用单元68以及正弦合成(SS)单元65。在第二组合单元66处，将由正弦合成单元65重建的正弦波从中间信号中减去，从而产生剩余信号。在第三阶段中，利用时间/频率包络数据提取(TFE)单元67编码剩余信号。注意，将该剩余信号假设为噪声信号，这是因为在第一和第二阶段中去除了瞬态和正弦波。相应地，时间/频率包络数据提取(TFE)单元67由适当的噪声参数表示剩余的噪声。1999年由美国斯坦福大学的S.N.Levine发表的论文《数据压缩的音频表达和压缩域处理(AudioRepresentationforDataCompressionandCompressedDomainProcessing)》的第5章中陈述了现有才支术的噪声建模和编码技术的概况，本文中引入该论文的全部内容。多路复用(MUX)单元68对全部三个阶段生成的参数进行适当组合和多路复用，该单元还可以对参数进4亍附加的编码，例如Huffman编码或者时间差分编码，从而减少发送所需的带宽。注意，参数提取(即编码)单元61、64和67可以对所提取的参数进行量化。可选的是或此外，可以在多路复用(MUX)单元68中进行量化。还应当注意，s(n)是数字信号，n表示样本数量，并且将集合Si(n)作为数字信号进行发送。然而，相同的概念也适用于模拟信号。在MUX单元68中进行了组合和多路复用(以及可选的是编码和/或量化)之后，经由发送媒质发送这些参数，例如卫星链路、玻璃纤维光缆、铜缆和/或任何其它适当的媒质。音频编码设备6还包括相关性探测器(RD)69。该相关性探测器69接收预定的参数，例如正弦增益&(如图3所示)，并且确定其声学(感知)相关性。将所生成的相关值反馈到多路复用器68，在该多路复用器中，将这些相关值插入集合Si(n)中，从而形成输出比特流。然后解码器可以利用包含在这些集合中的相关值选择适当的正弦参数，而不必确定其感知相关性。因此，该解码器能够更简单并更快捷。尽管图6所示的相关性探测器(RD)69与多路复用器68相连，但是换一种方式，该相关性探测器69还可以直接连接到正弦参数提取(SPE)单元64。相关性探测器69的操作类似于图3所示的决定部件21的操作。图6所示的音频编码设备6具有3个阶段。然而，该音频编码设备6还可以由少于3个阶段构成，例如仅生成正弦波和噪声参数的2个阶段，或者生成附加参数的多于3个阶段。因此能够设想到不存在单元61、62和63的实施例。图6的音频编码设备6优选可以设置为生成能够由如图l所示的合成设备进行解码(合成)的音频参数。本发明的合成设备可以用于便携设备，尤其可以用于手持消费设备，例如蜂窝电话、PDA(个人数字助理)、手表、游戏设备、固态音频播放器、电子乐器、数字电话应答机、便携CD和/或DVD播放器等等。本发明基于以下理解，即能够在不损害声音质量的情况下显著减少所要合成的正弦分量数量。本发明得益于以下进一步的理解，即当将感知相关值用作选择标准时，可以获得最有效的正弦分量选择。应当注意，本文中使用的任何术语不应构成对本发明范围的限定。尤其是，词语"包括"和"包含，，并不意味着排除了未具体表述的任何元件。单个(电路)元件可以利用多个(电路)元件或者其它等价物构成。本领域技术人员可以理解，本发明不限于以上所述的实施例，并且可以在不背离所附权利要求书限定的本发明范围的情况下进行各种4务改和添加。权利要求1.一种用于合成包含正弦分量的声音的设备(1)，该设备包括-选择装置(2)，用于利用感知相关值从多个频带(41)的每一个中选择有限数量的正弦分量，以及-合成装置(3)，仅合成选定的正弦分量。2.根据权利要求1所述的设备，其中该感知相关值包括各个正弦分量的振幅、能量和/或位置。3.根据权利要求1所述的设备，其中该正弦分量分别与多个声道之一相关，并且其中该感知相关值包括各个声道的包络。4.根据权利要求l所述的设备，其中该正弦分量由参数(SP)表示。5.根据权利要求5所述的设备，其中该参数包括振幅参数和/或频率参数，这些参数基于量化的值。6.根据权利要求l所述的设备，其中该频带(41)基于感知相关标度，例如ERB标度。7.根据权利要求1所述的设备，进一步包括增益补偿装置，其用于针对任意废弃的正弦分量的任意能量损失补偿选定的正弦分量的增益。8.根据权利要求1所述的设备，包括选择部件(22)，用于根据包含在参数集合中的感知相关值选择参数集合。9.一种消费设备，例如移动电话、游戏设备、音频播放器或者电话应答机，其包括根据权利要求1_8中任一项所述的合成设备(1)。10.—种合成包含正弦分量的声音的方法，该方法包括以下步骤-利用感知相关值从多个频带(41)的每一个频带中选择有限数量的正弦分量，以及-仅合成选定的正弦分量。11.根据权利要求IO所述的方法，其中该感知相关值包括各个正弦分量的振幅、能量和/或位置。12.根据权利要求10所述的方法，其中该正弦分量分别与多个声道之一相关，并且其中该感知相关值包括各个声道的包络。13.根据权利要求10所述的方法，其中该正弦分量由参数(SP)表示。14.根据权利要求10所述的方法，进一步包括针对任意废弃的正弦分量的任意能量损失补偿选定的正弦分量的增益的步骤。15.根据权利要求13所述的方法，其中每个参数集合都包含感知相关值。16.—种计算机程序产品，其用于实施根据权利要求10-l5中任一项所述的方法。全文摘要一种用于合成包含正弦分量的声音的设备(1)，该设备包括选择装置(2)，其利用感知相关值从多个频带(41)的每一个中选择有限数量的正弦分量，以及合成装置(3)，其仅合成选定的正弦分量。该频带可以基于ERB。该感知相关值可以包括各个正弦分量的振幅和/或各个声道的包络。文档编号G10L13/04GK101116136SQ200680004591公开日2008年1月30日申请日期2006年2月1日优先权日2005年2月10日发明者A·J·格里茨,A·W·J·乌门,M·克莱恩米德林克,M·施克泽尔巴申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A.J.格里茨;A.W.J.乌门;M.克莱恩米德林克;M.施克泽尔巴
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人