训练时长预测模型、时长预测和语音合成的方法及装置的制作方法

文档序号:2823530阅读:303来源:国知局
专利名称:训练时长预测模型、时长预测和语音合成的方法及装置的制作方法
技术领域
本发明涉及信息处理技术,具体地,涉及利用计算机进行数据驱动的时长预测模型的训练和时长预测的技术,以及语音合成技术。
背景技术
时长预测是通过句子中词语对应的语言和语音属性,预测出相应语音单元的合理的时间长度。现有传统的方法主要包括积和模型(Sum ofProducts,SOP),分类与回归树(Classify and Regression Tree,CART)和人工神经网(Artificial Neural Networks,ANN)。
关于积和模型(SOP),例如,在S.H.Chen,S.H.Hwang等人著的文章“An ANN-based prosodic information synthesizer for Mandarintext-to-speech”(发表于IEEE trans.Speech Audio Processing,Vol.6,No.3,pp226-239,1998)以及Sun Lu,Yu Hu,Reh-Hua Wang著的文章“Polynomial regression model for duration prediction in Mandarin”(发表于INTERSPEECH-2004,pp769-77)中进行了详细的描述。
关于分类与回归树(CART),例如,在Chung,H.and Huckvale,M.A.著的文章“Linguistic factors affecting timing in Korean withapplication to speech synthesis”(发表于In Proceedings of Eurospeech2001,Aalborg,vol.2,pp.815-819)中进行了详细的描述。
关于人工神经网(ANN),例如,在Venditti,Jennifer J.,Santen,JanP.H.van,著的文章“Modeling final duration for Japanese text-to-speechsynthesis”(发表于ICSLP-1998,pp.786-789)中进行了详细的描述。以上文献的全部内容以引用方式包含于此,以供参考。
但是,传统的方法存在以下缺点1)数据稀疏和属性协同作用这两个主要问题困扰着传统的方法。这主要是由于模型复杂度和训练数据样本之间的不平衡导致的。传统模型的系数能通过数据驱动方法计算得到,但是模型的属性和属性组合却是用手工的方法设置的。那么,这种“部分的”数据驱动的方法一定程度上就依赖于人的经验。
2)语速没有被当作属性参与时长建模,但是韵律研究表明,时长明显地受语速的影响。这样,当用户需要调节语速时,只能别无选择地对整段语音的进行线性的缩放。而实际上,语速和其他属性之间对时长影响的关系大不相同,线性的缩放的方法并不够合理。

发明内容
为了解决上述现有技术中存在的问题,本发明提供了数据驱动训练时长预测模型的方法和装置、时长预测方法和装置以及语音合成方法和装置。
根据本发明的一个方面,提供了一种数据驱动训练时长预测模型的方法,包括利用与时长预测相关的多个属性和至少一部分上述属性的组合生成初始时长预测模型,其中每个上述属性或上述属性的组合被作为一项;计算上述时长预测模型中每一上述项的重要性;删除上述计算出的重要性最低的项;利用剩余的项重新生成时长预测模型;判断上述重新生成的时长预测模型是否最优;以及如果上述时长预测模型被判断为不是最优,则重复上述计算每一项的重要性的步骤及其之后的步骤。
根据本发明的另一个方面,提供了一种时长预测方法,包括利用上述的数据驱动训练时长预测模型的方法,训练时长预测模型;获得相应的上述与时长预测相关的多个属性;以及根据上述训练的时长预测模型,计算时长。
根据本发明的另一个方面,提供了一种语音合成方法,包括利用上述的时长预测方法,预测时长;以及根据上述预测的时长,进行语音合成。
根据本发明的另一个方面,提供了一种数据驱动训练时长预测模型的装置,包括初始模型生成单元(initial model generator),其利用与时长预测相关的多个属性和至少一部分上述属性的组合生成初始时长预测模型,其中每个上述属性或上述属性的组合被作为一项;重要性计算单元(importance calculator),其计算上述时长预测模型中每一上述项的重要性;项删除单元(item deleting unit),用于删除上述计算出的重要性最低的项;模型再生成单元(model re-generator),其利用由上述项删除单元删除后剩余的项重新生成时长预测模型;以及优化判断单元(optimizationdetermining unit),其判断由上述模型再生成单元重新生成的时长预测模型是否最优。
根据本发明的另一个方面,提供了一种时长预测装置,包括利用上述的数据驱动训练时长预测模型的方法训练得到的时长预测模型;属性获得单元(attribute obtaining unit),用于获得相应的上述与时长预测相关的多个属性;以及时长计算单元(duration calculator),其根据上述时长预测模型,计算时长。
根据本发明的另一个方面,提供了一种语音合成装置,包括上述的时长预测装置;并且根据由上述时长预测装置预测的时长,进行语音合成。


相信通过以下结合附图对本发明具体实施方式
的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明一个实施例的数据驱动训练时长预测模型的方法的流程图;图2是根据本发明一个实施例的时长预测方法的流程图;图3是根据本发明一个实施例的语音合成方法的流程图;图4是根据本发明一个实施例的数据驱动训练时长预测模型的装置的方框图;图5是根据本发明一个实施例的时长预测装置的方框图;以及图6是根据本发明一个实施例的语音合成装置的方框图。
具体实施例方式
为了便于后面实施例的理解,首先简要介绍一下GLM(GeneralizedLinear Model,广义线性模型)模型和BIC(Bayes Information Criterion,贝叶斯信息准则)的原理。GLM是对多元线性回归模型的一种扩展,SOP则是GLM的一个特例。GLM时长模型通过语音单元s的属性A,预测出时长 ,相应的定义如公式(1)。
di=di^+ei=h-1(β0+Σj=1pβjfj(A))+ei---(1)]]>其中,h表示链接函数。一般地,可以假定d满足指数族分布。为了使d满足不同的指数族分布,只需要设定相应的链接函数。本实施例的GLM模型假定时长服从高斯分布。GLM既能作线性建模,也能作非线性建模。
比较模型的性能需要有判别标准。越简单的模型对集外数据预测的稳定性越高,而越复杂的模型对集内数据的拟合程度越高。BIC是一种常见的评价标准,它综合了以上对拟合精度和模型可靠性的度量,定义如式(2)。
BIC=Nlog(SSE/N)+plogN(2)其中,SSE表示预测误差e的平方和。式(2)的第一项表示模型的拟合精度,第二项表示对模型复杂度的惩罚。当训练样本N一定时,越复杂的模型的参数个数p越大,对训练数据就拟合得越好,相应的SSE就越小,第一项就越小,而第二项就增大。反之亦然。公式中一项的减小总是导致另一项的增大,当两项和最小时,表示模型“最优”。BIC能在模型复杂度和数据规模之间取得一个不错的平衡,这有助于解决属性稀疏和属性协同作用的问题。
下面就结合附图对本发明的各个优选实施例进行详细的说明。
图1是根据本发明一个实施例的数据驱动训练时长预测模型的方法的流程图。利用本实施例的方法训练的时长预测模型将被用于后面结合其它实施例描述的时长预测方法和语音合成方法及装置。
如图1所示,首先在步骤101,生成初始时长预测模型。具体地,利用与时长预测相关的多个属性和这些属性的组合生成初始时长预测模型。如前面所述,与时长预测相关的属性可以包括许多,大致可分为语言类型的属性和语音类型的属性,下面的表1示例性地列举了一些可以作为时长预测相关属性的属性。
表1与时长预测相关的属性

在本实施例中,采用GLM模型来表示这些属性和属性组合。为了便于说明,假定与时长预测相关的属性只有phone(音子)和tone(声调)。初始时长预测模型的形式如下duration~phone+tone+tone*phone,其中,tone*phone表示tone和phone的组合,是一个2阶项。
可以理解,当属性的数量增加时,作为属性组合可以出现多个2阶项、3阶项等等。
另外,在本实施例中,在生成初始时长预测模型时,可以只取其中一部分的属性组合,例如只取到全部的2阶项;当然,也可以取到3阶项或将全部的属性组合加入到初始时长预测模型中。
总之,在初始时长预测模型中包括全部的单独属性(1阶项)和至少一部分的属性组合(2阶项或多阶项)。这样,初始时长预测模型可以利用很简单的规则来自动生成,而不是如现有技术那样,根据经验手工设定。
接着,在步骤105,利用F检验(F-test)计算每一项的重要性。关于F检验,作为一种已知的标准统计方法,在盛骤,谢式千,潘乘毅编的《概率论与数理统计》(2000第二版,高等教育出版社)中已经有详细的说明,在此不再重复。
应当指出,虽然在本实施中使用的是F检验,但是,其它的统计方法也可以使用,例如,Chisq-test等等。
接着,在步骤110,从初始时长预测模型中删除F检验得分最低的项。然后,在步骤115,利用剩余的项,重新生成时长预测模型。
接着,在步骤120,计算重新生成的时长预测模型的BIC值,利用前面所述的方法判断该模型是否为最优。如果步骤120的判断为“是”,则将该新生成的时长预测模型作为最佳模型,并在步骤125结束。
如果步骤120的判断为“否”,则返回到步骤105,再次计算该重新生成的模型的每一项的重要性,删除不重要的项(步骤110),重新生成模型(步骤115),直到获得最佳模型。
通过以上的说明可知,本实施例利用了广义线性模型(GLM)的时长建模方法和基于F检验(F-test)和贝叶斯信息准则(BIC)的逐步回归(stepwise regression)的方法进行属性选择。由于本实施例的GLM模型结构灵活,容易实现对训练数据的自适应,从而解决了数据稀疏问题。进而,通过逐步回归的方法能够自动地选出重要属性协同作用项。
另外,根据本发明的一个优选实施例训练时长预测模型的方法,语速(speaking rate)也被作为与时长预测相关的多个属性之一。由于将语速引入到时长预测的建模中,这给语音合成的语速调整提供了一种新的途径。在语音合成系统输出语音之前,用户或应用可以设定语速;数据库中的语速也是确定的。因此,对时长预测模型的训练和测试,语速都是已知的。时长预测模型的属性集合不仅可以引入语速本身,还能够引入与语速相互作用的协同项,提高时长预测的精度。在语音合成过程中,基于语速的时长预测还可以改善简单的均匀缩放的语速调整方法。已有研究表明,语速的变化引起的不同音素的时长变化并不均匀,这也说明语速与其他属性的确存在相对时长的协同作用引入。
在同一发明构思下,图2是根据本发明一个实施例的时长预测方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图2所示,首先在步骤201,利用前面实施例描述的数据驱动训练时长预测模型的方法,训练时长预测模型。
接着,在步骤205,获得相应的上述与时长预测相关的多个属性。具体地,例如,从输入的文本中可以直接获得,或者经过语法分析、句法分析等获得。需要指出,本实施例可以采用任何已知的和未来的方法来获得这些相应的属性,而并不限于某种特定的方式,并且获得方式还与属性的选择相对应。
最后,在步骤210,根据上述训练的时长预测模型和获得的上述属性,计算时长。
通过以上的说明可知,由于本实施的时长预测方法采用了前面实施例的训练时长预测模型的方法训练的模型来进行时长预测,所以,容易实现对训练数据的自适应,解决了数据稀疏问题,并且能够自动地选出重要属性协同作用项。因此,本实施例的时长预测方法可以更准确并且自动地预测时长。
另外,根据本发明的一个优选实施例的时长预测方法,语速(speakingrate)也被作为与时长预测相关的多个属性之一。这样,通过将语速引入到时长预测的建模中,时长预测模型的属性集合不仅可以引入语速本身,还能够引入与语速相互作用的协同项,从而进一步提高了时长预测的精度。
在同一发明构思下,图3是根据本发明一个实施例的语音合成方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图2所示,首先在步骤201,利用前面实施例描述的时长预测方法,预测时长。
接着,在步骤205,根据上述预测的时长,进行语音合成。
通过以上的说明可知,由于本实施的语音合成方法采用了前面实施例的时长预测方法来预测时长,进而根据预测的结构进行语音合成,所以,容易实现对训练数据的自适应,解决了数据稀疏问题,并且能够自动地选出重要属性协同作用项。因此,本实施例的语音合成方法可以更准确并且自动地进行语音合成,生成的语音更合理、易懂。
另外,根据本发明的一个优选实施例的语音合成方法,语速(speakingrate)也被作为与时长预测相关的多个属性之一。由于将语速引入到时长预测的建模中,这给语音合成的语速调整提供了一种新的途径。在语音合成系统输出语音之前,用户或应用可以设定语速;数据库中的语速也是确定的。因此,对时长预测模型的训练和测试,语速都是已知的。时长预测模型的属性集合不仅可以引入语速本身,还能够引入与语速相互作用的协同项,提高时长预测的精度。在语音合成过程中,基于语速的时长预测还可以改善简单的均匀缩放的语速调整方法。已有研究表明,语速的变化引起的不同音素的时长变化并不均匀,这也说明语速与其他属性的确存在相对时长的协同作用引入。
在同一发明构思下,图4是根据本发明一个实施例的数据驱动训练时长预测模型的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图4所示,本实施例的数据驱动训练时长预测模型的装置400包括初始模型生成单元(initial model generator)401,其利用与时长预测相关的多个属性和至少一部分上述属性的组合生成初始时长预测模型,其中每个上述属性或上述属性的组合被作为一项;重要性计算单元(importancecalculator)402,其计算上述时长预测模型中每一上述项的重要性;项删除单元(item deleting unit)403,用于删除上述计算出的重要性最低的项;模型再生成单元(model re-generator)404,其利用由项删除单元403删除后剩余的项重新生成时长预测模型;以及优化判断单元(optimizationdetermining unit)405,其判断由模型再生成单元404重新生成的时长预测模型是否最优。
与前面描述的实施例相同,本实施例中与时长预测相关多个属性包括语言类型和语音类型的属性,例如,包括从前面表1中选择的任意多个属性。
其中,重要性计算单元402利用F检验(F-test)计算每一项的重要性。优化判断单元405利用贝叶斯信息准则(BIC)判断上述重新生成的时长预测模型是否最优。
另外,根据本发明的一个优选实施例,上述至少一部分上述属性的组合包括上述多个与时长预测相关的属性的全部2阶的属性组合。
另外,根据本发明的另一个优选实施例,上述与时长预测相关多个属性包括语速(speaking rate)。
在此,应当指出,本实施例中的数据驱动训练时长预测模型的装置400及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。并且,本实施例的数据驱动训练时长预测模型的装置400,操作上可以实现前面实施例的数据驱动训练时长预测模型的方法。
在同一发明构思下,图5是根据本发明一个实施例的时长预测装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图5所示,本实施例的时长预测装置500包括时长预测模型(duration predicting model)501,其是利用前面实施例描述的数据驱动训练时长预测模型的方法训练得到的时长预测模型;属性获得单元(attribute obtaining unit)502,用于获得相应的与时长预测相关的多个属性;以及时长计算单元(duration calculator)503,其根据上述时长预测模型501和由属性获得单元502获得的与时长预测相关的属性,计算时长。
在此,关于获得属性的方式,如前面实施例中所述,可以采用任何已知的和未来的方法来获得这些相应的属性,而并不限于某种特定的方式,并且获得方式还与属性的选择有关。例如,用于获得音子(phone)和声调(tone)属性,可以从文本分析(分词)之后的拼音获得;用户获得语法类型的属性,可以采用语法分析器或句法分析器等。
在同一发明构思下,图6是根据本发明一个实施例的语音合成装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图5所示,本实施例的语音合成装置600包括时长预测装置500,其可以使前面实施例中描述的时长预测装置;以及语音合成器601,其可以使现有技术的语音合成器,并根据由上述时长预测装置预测的时长,进行语音合成。
在此,应当指出,本实施例中的语音合成装置600及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。并且,本实施例的语音合成装置600,操作上可以实现前面实施例的语音合成方法。
以上虽然通过一些示例性的实施例对本发明的数据驱动训练时长预测模型的方法和装置、时长预测方法和装置以及语音合成方法和装置进行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。
权利要求
1.一种数据驱动训练时长预测模型的方法,包括利用与时长预测相关的多个属性和至少一部分上述属性的组合生成初始时长预测模型,其中每个上述属性或上述属性的组合被作为一项;计算上述时长预测模型中每一上述项的重要性;删除上述计算出的重要性最低的项;利用剩余的项重新生成时长预测模型;判断上述重新生成的时长预测模型是否最优;以及如果上述时长预测模型被判断为不是最优,则重复上述计算每一项的重要性的步骤及其之后的步骤。
2.根据权利要求1所述的数据驱动训练时长预测模型的方法,其中,上述与时长预测相关多个属性包括语言类型和语音类型的属性。
3.根据权利要求1所述的数据驱动训练时长预测模型的方法,其中,上述与时长预测相关多个属性包括从当前音素、音节中另一个音素、前一个音节相邻的音素、后一个音节相邻的音素、声调、前音节的声调、后音节的声调、词性、到下一个停顿的距离、到前一个停顿的距离、音节在语法词中的位置、前后及当前语法词的长度、语法词中音节的个数、音节在句子中的位置和句中语法词的个数中选择的任意多个属性。
4.根据权利要求1所述的数据驱动训练时长预测模型的方法,其中,上述时长预测模型是广义线性模型(GLM)。
5.根据权利要求1所述的数据驱动训练时长预测模型的方法,其中,上述至少一部分上述属性的组合包括上述多个与时长预测相关的属性的全部2阶的属性组合。
6.根据权利要求1所述的数据驱动训练时长预测模型的方法,其中,上述计算上述时长预测模型中每一上述项的重要性的步骤包括利用F检验(F-test)计算每一项的重要性。
7.根据权利要求1所述的数据驱动训练时长预测模型的方法,其中,上述判断上述重新生成的时长预测模型是否最优的步骤包括利用贝叶斯信息准则(BIC)判断上述重新生成的时长预测模型是否最优。
8.根据权利要求7所述的数据驱动训练时长预测模型的方法,其中,上述判断上述重新生成的时长预测模型是否最优的步骤包括计算下式BIC=Nlog(SSE/N)+plogN其中,SSE表示预测误差e的平方和,N表示训练样本;当上式中的BIC最小时,判断时长预测模型为最优。
9.根据前面任意一项权利要求所述的数据驱动训练时长预测模型的方法,其中,上述与时长预测相关多个属性还包括语速(speaking rate)。
10.一种时长预测方法,包括利用上述权利要求1-9的任意一项所述的数据驱动训练时长预测模型的方法,训练时长预测模型;获得相应的上述与时长预测相关的多个属性的值;以及根据上述训练的时长预测模型和相应的上述与时长预测相关的多个属性的值,计算时长。
11.根据权利要求10所述的时长预测方法,其中,上述与时长预测相关的多个属性包括语速。
12.一种语音合成方法,包括利用上述权利要求10-11的任意一项所述的时长预测方法,预测时长;以及根据上述预测的时长,进行语音合成。
13.一种数据驱动训练时长预测模型的装置,包括初始模型生成单元(initial model generator),其利用与时长预测相关的多个属性和至少一部分上述属性的组合生成初始时长预测模型,其中每个上述属性或上述属性的组合被作为一项;重要性计算单元(importance calculator),其计算上述时长预测模型中每一上述项的重要性;项删除单元(item deleting unit),用于删除上述计算出的重要性最低的项;模型再生成单元(model re-generator),其利用由上述项删除单元删除后剩余的项重新生成时长预测模型;以及优化判断单元(optimization determining unit),其判断由上述模型再生成单元重新生成的时长预测模型是否最优。
14.根据权利要求13所述的数据驱动训练时长预测模型的装置,其中,上述与时长预测相关多个属性包括语言类型和语音类型的属性。
15.根据权利要求13所述的数据驱动训练时长预测模型的装置,其中,上述与时长预测相关多个属性包括从当前音素、音节中另一个音素、前一个音节相邻的音素、后一个音节相邻的音素、声调、前音节的声调、后音节的声调、词性、到下一个停顿的距离、到前一个停顿的距离、音节在语法词中的位置、前后及当前语法词的长度、语法词中音节的个数、音节在句子中的位置和句中语法词的个数中选择的任意多个属性。
16.根据权利要求13所述的数据驱动训练时长预测模型的装置,其中,上述至少一部分上述属性的组合包括上述多个与时长预测相关的属性的全部2阶的属性组合。
17.根据权利要求13所述的数据驱动训练时长预测模型的装置,其中,重要性计算单元(importance calculator)利用F检验(F-test)计算每一项的重要性。
18.根据权利要求13所述的数据驱动训练时长预测模型的装置,其中,优化判断单元(optimization determining unit)利用贝叶斯信息准则(BIC)判断上述重新生成的时长预测模型是否最优。
19.根据权利要求13-18的任意一项所述的数据驱动训练时长预测模型的装置,其中,上述与时长预测相关多个属性包括语速(speakingrate)。
20.一种时长预测装置,包括利用上述权利要求1-9的任意一项所述的数据驱动训练时长预测模型的方法训练得到的时长预测模型;属性获得单元(attribute obtaining unit),用于获得相应的上述与时长预测相关的多个属性的值;以及时长计算单元(duration calculator),其根据上述时长预测模型和相应的上述与时长预测相关的多个属性的值,计算时长。
21.根据权利要求20所述的时长预测装置,其中,上述与时长预测相关的多个属性包括语速。
22.一种语音合成装置,包括上述权利要求20-21的任意一项所述的时长预测装置;并且根据由上述时长预测装置预测的时长,进行语音合成。
全文摘要
本发明提供了数据驱动训练时长预测模型的方法和装置、时长预测方法和装置以及语音合成方法和装置。本发明的数据驱动训练时长预测模型的方法,包括利用与时长预测相关的多个属性和至少一部分上述属性的组合生成初始时长预测模型,其中每个上述属性或上述属性的组合被作为一项;计算上述时长预测模型中每一上述项的重要性;删除上述计算出的重要性最低的项;利用剩余的项重新生成时长预测模型;判断上述重新生成的时长预测模型是否最优;以及如果上述时长预测模型被判断为不是最优,则重复上述计算每一项的重要性的步骤及其之后的步骤。
文档编号G10L13/04GK1953052SQ200510114320
公开日2007年4月25日 申请日期2005年10月20日 优先权日2005年10月20日
发明者易立夫, 郝杰 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1