确定一系列声音模块以合成调性语言的语言信号的方法

文档序号：2824787阅读：327来源：国知局

专利名称：确定一系列声音模块以合成调性语言的语言信号的方法
技术领域：
本发明涉及一种用于确定一系列声音模块以根据预定系列的语言模块来合成调性语言的语言信号的方法。
背景技术：
由计算机执行的、用于合成调性语言-譬如汉语、尤其是官方话或泰语-的自动方法通常是使用一些分别描述一个音节的声音模块，因为调性语言一般具有较少的音节。这些声音模块被链接成一个语言信号，其中需要考虑取决于音调的音节含义。
由于这种已知方法具有一组声音模块，且该声音模块组必须包括不同变体和上下文(Kontext)中的所有音节，所以在计算机内自动地执行时需要较大的计算能力。在应用于移动电话的情况下，经常不具备这种计算能力。
在具有较大计算能力的应用情况下，尽管有足够的计算能力可供使用，但所述已知的用于合成调性语言的方法还是有缺点的，即通过预定的音节组不能正确地合成那些包含有并非存储在该音节组中的音节的特殊词语。
这些已知的方法在实践中被证明是可靠的。但它们并不非常灵活，因为它们经常不能适用于具有小计算能力的应用，而且它们并没有尽量利用由高计算能力提供的可能性。
在论文“Konkatenative Sprachsynthese mit grossenDatenbanken(利用大数据库的链接语言合成)”，MartinHolzapfel，TU Dresden，2000中讲述过一种用于合成语言的方法，它涉及欧洲语言的合成。在该方法中，以声音模块的形式把各个声音寄存在其特有的左/右上下文中。按照“The HTK book，version 2.2(HTK书，版本2.2)”Steve Young，Dan Kershaw，Julian Odell，DaveOllason，Valtcho Valtchev以及Phil Woodland，Entropic Ltd.，剑桥1999，这些声音模块被称作三单音(Triphone)。从该意义上讲，三单音是单个音素的声音模块，但考虑了前面和后面的音素的上下文。
根据该已知的方法，在数据库内给每个通常由一个字母组成的语言模块存储一组声音模块(三单音)。借助适用函数求出相应语言模块的声音模块的适用距离，其中，所述的适用函数定量地描述了相应声音模块对表示所述语言模块或一系列语言模块的适用性。在此，所述的适用距离可以按照如下准则求出-声音模块的代表性；-对声音时延的干扰；-对声音能量的干扰；-对基频的干扰；在测定声音模块的代表性时，可以确定声音模块组的典型的谱矩心，并把一个与相应声音模块离所述矩心的谱间隔间接地成比例的值确定为适用距离。
在链接声音模块时可能干扰所述的基频，由此也影响到所述的声音时延和声音能量。利用相应的适用函数求出所述因干扰而产生的、偏离所述音段(Lautabschnitt)的原始状态的程度。
在DE 197 36 465.9中曾公开过一种用于求取表示语言模块的声音模块(代表)的方法。其中把适用函数称为属性函数，而把适用距离称为选择标准。另外，该方法与在上面的论文中所讲述的方法是一致的。

发明内容
本发明所基于的任务在于创造一种用于确定一系列声音模块以根据预定系列的语言模块来合成调性语言的语言信号的方法。
该任务由具有权利要求1的特征的方法来解决。优选改进方案由从属权利要求给出。
根据本发明的方法来确定一系列声音模块，以根据预定系列的语言模块来合成调性语言的语言信号，其中，-根据预定系列的语言模块分别选择出一个具有音段的组，这个组包含有可分配给所述语言模块的音段，-通过如下方式为每个语言模块分别从相应的声音模块组中选择出一个声音模块，即针对一组内的声音模块分别借助至少一个适用函数确定出至预定语言模块的适用距离，并把预定系列的声音模块的各个适用距离用逻辑相互连接成一个全局适用距离，其中，所述的全局适用距离定量地描述了相应声音模块系列的用于表示相应语言模块系列的适用性，而且把具有最佳适用距离的所述声音模块系列分配给所述预定的语言模块系列，其中，所述的声音模块包括有分别只描述一个具有相应上下文的音素的三单音，而且由一个或多个三单音组成所述调性语言的音节。
因此，利用本发明创造了如下一种方法，它可以用三单音来组成调性语言的音节。在此放弃了为合成调性语言而在常规方法中所采用的原理-即只由描述完整音节的声音模块来组成所述的语言信号-，而是还用三单音来组成音节。由此可以非常灵活地通过声音模块来合成音节。
根据一种优选的实施方案，采用一个描述两个相邻声音模块的可链接性的函数作为适用函数，其中所述适用函数的值在音节边界处被加权时要小于音节内部的区域。由此可以实现在所述的音节边界处对三单音的可链接性进行较小的加权，从而三单音可以在音节边界处以较小的可链接性被相互链接。
根据另一种优选实施例，采用一个对从一个声音模块过渡到相邻声音模块处的音调的一致性进行描述的函数来作为适用函数。由此实现了音调的匹配。

下面借助附图来示例地讲述本发明。图中图1示出了一种用于确定一系列声音模块以合成语言信号的方法，图2简要地示出了局部适用函数和声音模块、语言模块之间的关系，图3-6分别示出了坐标系中的局部适用函数，图7示出了两个相邻的音段的音调曲线，以及图8简要地示出了用于合成语言的装置结构。
具体实施例方式
需要合成的文本通常都是以电子可读的文件形式出现的。该文件包含有诸如满语等调性语言的文字。在第一步骤S1(图1)中把这些文字转换成被分配给它们的音标，其中音标的每个字符都表示一个音素或其类似物。
在步骤S2中给每个音素分配一组声音模块。该声音模块是预先在训练阶段通过对语言样品进行分段来产生的，并被存储下来。分段这种语言样品譬如可以借助“Fast-Viterbi-Alignment(快速维特比对准)”来实现。为每个三单音产生多个合适的声音模块，而这些声音模块被分别综合成一组。这些组随后被分配给相应的三单音。
由此在步骤S2中求出一系列合适的声音模块组，并将其分配给相应的具有左右上下文的音素。这种具有左右上下文的音素被称为三单音，并表示了需合成的文本的语言模块。
在步骤S3中计算局部适用函数，由该适用函数分别得出适用距离。所述的适用距离定量地描述了相应声音模块对于表示接下来的语言模块或语言模块系列的适用性。在图2中简要地示出了三个需要实现的语言模块SB1、SB2、SB3和三个可能的声音模块LB1、LB2、LB3。声音模块LB1是被分配给语言模块SB1的组中的成员。相应地也适用于所述的对SB2、LB2和SB3、LB3。
表示某个语言模块的声音模块的适用性可能取决于不同的准则。这些准则基本上可以划分为两类。第一类准则确定了某个声音模块LB1能表示某个语言模块SB1的适用性。由于语言模块系列必须分别被转换成相应的声音模块系列，而且并不是任意的声音模块都可以相互链接-因为从一个声音模块至另一声音模块的相应过渡处可能会产生不理想的假象-，所以第二类准则描述了各个声音模块的可链接的适用性。从该意义上讲，可以区分为一种位于各个声音模块与语言模块之间的模块目标距离以及一种位于各个声音模块之间的可链接距离。
下面来详细讲述所述的局部适用函数。
在步骤S4中把一系列声音模块的适用距离用逻辑连接成一个全局适用距离。
在本发明的实施例中，所有适用函数的数值范围包括值0～1，其中1对应于最佳的适用，而0对应于最差的适用。因此所述的局部适用函数可以根据如下公式用乘法互相进行逻辑连接根据该公式把每个模块的各个适用函数(准则)的所有局部适用距离E局部相乘，同时又把利用每个模块所得出的乘积相乘以得出全局的适用距离E全局。因此，该全局适用距离E全局描述了一个声音模块系列表示某个语言模块系列的适用性。所述全局适用函数的数值范围也为0～1，其中0对应于最差适用，1对应于最佳适用。
在步骤S5中选出所述可以最合适地表示某个预定语言模块系列的声音模块系列。在该实施例中，它是全局适用距离E全局具有最大值的那个声音模块系列。
如果求出了最合适地表示所述预定语言模块系列的声音模块系列，则可以通过相继地输出该声音模块来产生语言，其中所述的声音模块显然可能以已知的方式被干扰和改变。
下面来详细讲述一些局部的适用函数，它们可以单独或组合地使用。图3示出了一种局部适用函数Es的曲线，由它得出图2的模块目标距离，并由此描述了相应声音模块对预定语言模块的代表性。因此它也是声音模块适合作为代表的一个量度，也就是说需选出的声音模块是一个典型的表达特征的声音模块，并且适合作为相应语言模块的代表。
所采取的适用函数Es线性地位于具有“最坏”(Es＝1-SG)适用距离的音段和具有“最好”(Es＝1)适用距离的音段之间。
图4以适用函数的形式示出了如下一个量度，它描述了因适应某个基频而对相应音段的长度干扰。因此它也是音段的原始时延相对于该音段的合成时延的量度。最多分别偏移一个下限阈值lUG和一个上限阈值lOG都被认为是没有问题的。当超过该阈值、也即小于下限阈值lUG或大于上限阈值lOG时，所述的局部适用函数El_syn会呈指数下降。
该适用函数El_syn利用如下公式来描述
通过把平均长度l标准化为1，所述的偏差便变成了相对的。所述的局部适用函数El_syn也被标准化为1，并得出一个模块目标距离。
图5示出了一个局部适用函数，它描述了所述声音模块的音调与目标基频的偏差。在此，所述的音调相对于所述模块在非干扰状态时所分配的音调的偏差应尽可能地低。该局部适用函数Ef_syn具有如下形式在此所述的频率f也被标准化为平均频率f。所述的适用函数Ef_syn被标准化为1。频率的上限参数由fOG给出，而频率的下限参数由fUG给出。
利用图6所示的局部适用函数来描述因音段对基频的适应而产生的、音段的能量同平均值的偏差。该局部适用函数用以下公式来描述在此，E为能量E的平均值(期望值)，EUG为能量的下限阈值，EOG为能量的上限阈值，以及σE为能量的方差。适用函数EE_al被标准化为1。
为替代所述的能量，也可以使用音段的长度l作为准则。象图5那样产生一个局部适用函数El_al，以用于求取音段因适应基频而发生的长度变化的偏差。同样预定一个上限阈值lOG、一个下限阈值lUG和长度的方差σl，以便能利用下式来描述所述的适用函数El_al。上述的局部适用函数总是能得出一个模块目标距离。为了评价所述的音段，可以单独或组合地考虑该适用函数。
利用上述的局部适用函数Ef_syn来评价所述声音模块的基频f相对于目标基频f的偏差。为了合成调性语言，优选地采用一个从此变换出的局部适用函数，利用它来评价两个相继的音段在其连接处的频差。在图7中简要地示出了两个相继的音段LBa和LBb的频率曲线。在时间点t0结束音段LBa和开始音段LBb。在该时间点处存在一个频差Δf，因为所述的音段LBa以频率fa在时间点t0处结束，而音段LBb则以频率fb在该时间点处开始。在调性语言中给所述的音调分配一个含义内容。但所述各个音段的音调或频率对于理解合成的语言是最为重要的。此外，在从一个音段过渡到另一音段的过程中，较大的频差便会产生假象。因此，评价两个相继的音段之间的频差是有意义的，其中小的频差将表现出较好的适用性。这类局部适用函数譬如可以用公式表达如下在此也规定了频率的上限参数f’OG和频率的下限参数f’UG由于利用该局部适用函数可以求出两个相继的声音模块之间的适用距离，所以该适用距离描述了图2意义上的可链接距离。
现有技术公开了其它的局部适用函数，以描述相继的音段之间的可链接性(参见论文“利用大数据库的级联语言合成”，MartinHolzapfel，TU Dresden，2000)。该局部适用函数可以结合上述适用函数Ev一起使用，或也可以单独地用于本发明的方法。
但在本发明的范围内如下做法是有利的，即根据链接边界位于哪个范围来加权所述描述链接适用性的适用函数Ev。因此，一个音节的两个音段之间的链接适用性要比音节边界或字边界、句子边界处的链接适用性更为重要。由于在本实施例中所述局部适用函数的数值范围位于0～1之间，所以可以通过把一个加权因子作为未被加权的适用函数Ev的乘方来获得被加权的适用函数EgvEgv＝(Ev)gn(7)在此，gn为加权因子。加权因子选得越大，位于两个相继的音段之间的链接适用性就越重要。合适的加权因子值譬如在句子边界处为g1＝0、在字边界处为g2＝[2，5]、在音节边界处为g3＝[5，100]、以及在音节内为g4＞＞1000。由此用加权因子gn给链接函数值Ev进行乘方，使得在较大的加权因子情况下，较小的Ev值可以得出近似于0的加权适用距离。在上述给定的加权因子值的情况下，只有未加权的、仅稍微小于1的适用距离才被评价为合适于选择相应的音段。
通过采用这种加权，只链接一个音节内“匹配”得非常好的音段。由此用各个音段或三单音来产生一些音节。相反，在音节边界处可以通过较小的加权而使所述未加权的链接适用性保持相应地小。在字边界处再次稍微逐级减小所述的加权。在句子边界处使用所述的加权因子g1＝0的作用在于，在句子边界处不需要链接适用性，也就是说在句子边界处可以跟随两个音段，其链接适用距离等于0。
图8简略地示出了用于执行本发明方法的计算机结构。所述的计算机具有一个数据总线B，在该数据总线上链接了一个CPU和一个数据存储器SP。另外，所述的总线B还与输入/输出单元I/O相连，在该输入/输出单元上连接了扬声器L、屏幕B和键盘T。在所述的数据存储器SP内存放有用于执行本发明方法的程序。另外向所述的数据存储器输入一个文本文件，它包含有需要转换成声音模块的语言模块。然后利用CPU执行本发明的方法，其中，所述的语言模块被转换成声音模块，并经输入/输出单元在扬声器L上输出。此处显然可以根据普通的处理方法来改进和改变所述被链接的声音模块。
如下方面对本发明是主要的，即把描述三单音的声音模块组合成所述的调性语言，以便获得最大的灵活性。在本发明的范围内，显然也可以用声音模块来描述调性语言的全部音节。重要的是也要有描述三单音的声音模块，并能对其进行相应的链接。通过分析从一个音段至另一音段处的频差，可以优选地对调性语言的特有特征作出特殊考虑。
通过本发明对描述链接性能的适用函数进行加权，便相应地在合成时考虑了所述调性语言的结构。
权利要求
1.用于确定一系列声音模块以根据预定系列的语言模块来合成调性语言的语言信号的方法，其中，-根据预定系列的语言模块分别选择出一个具有音段的组，这个组包含有可分配给所述语言模块的音段，-通过如下方式为每个语言模块分别从相应的声音模块组中选择出一个声音模块，即针对一组内的声音模块分别借助至少一个适用函数确定出至预定语言模块的适用距离，并把预定系列的声音模块的各个适用距离用逻辑相互连接成一个全局适用距离，其中，所述的全局适用距离定量地描述了相应声音模块系列的用于表示相应语言模块系列的适用性，而且把具有最佳适用距离的所述声音模块系列分配给所述预定的语言模块系列，其特征在于所述的声音模块是分别只包含一个具有相应上下文的音素的三单音，其中由一个或多个三单音组成所述调性语言的音节。
2.如权利要求1所述的方法，其特征在于借助每个声音模块的多个适用函数分别计算出一个局部适用距离，所述预定系列的声音模块的各个局部适用距离被相乘为所述的全局适用距离。
3.如权利要求1或2所述的方法，其特征在于采用一个描述两个相邻声音模块的可链接性的函数作为适用函数，其中所述适用函数的值在音节边界处被加权时不同于音节内部。
4.如权利要求3所述的方法，其特征在于所述描述可链接性的适用函数还在字和句子边界处被加权。
5.如权利要求3或4所述的方法，其特征在于通过用一个加权因子(g)对相应的适用函数进行乘方来实现所述的加权。
6.如权利要求5所述的方法，其特征在于在音节内部的加权因子(g4)大于1000，而在音节边界处的加权因子(g3)位于5～100之间。
7.如权利要求6所述的方法，其特征在于在字边界处的加权因子(g2)为2～5，而在句子边界处的加权因子(g1)等于0。
8.如权利要求1～7之一所述的方法，其特征在于采用一个描述两个相邻声音模块的音调的一致性的函数来作为适用函数。
9.如权利要求1～8之一所述的方法，其特征在于通过相乘来对预定系列的各个适用距离进行相互逻辑连接，其中所述的适用距离位于数值范围0～1，并且1对应于最佳的适用，而0对应于最差的适用。
全文摘要
本发明涉及一种用于确定一系列声音模块以根据预定系列的语言模块来合成调性语言的语言信号的方法。本发明与已知方法的不同之处在于,所述的声音模块表现为一些分别包含一个具有相应上下文的音素的三单音,其中由一个或多个三单音组成所述调性语言的音节。由此在合成调性语言时实现了高度的灵活性。
文档编号G10L13/06GK1383130SQ02118428
公开日2002年12月4日申请日期2002年4月25日优先权日2001年4月26日
发明者M·霍尔扎普菲尔, B·陶申请人:西门子公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M.霍尔扎普菲尔;B.陶
技术所有人：西门子公司
我是此专利的发明人

上一篇：在弦乐器中将弦振动转换为良好保真度电信号的拾音单元的制作方法
上一篇：防空电声警报器的制作方法