基于生成参数听感误差最小化的模型自适应方法

文档序号：2837510阅读：600来源：国知局

专利名称：基于生成参数听感误差最小化的模型自适应方法
技术领域：
本发明涉及语音合成中说话人转换的方法，具体涉及在模型自适应训练过程中，将最小化自适应数据对应生成参数的听感误差作为自适应训练的准则，以满足语音合成的实际要求，提高说话人转换效果的方法。
背景技术：
随着语音合成技术的飞速发展，合成语音的音质和自然度都有了很大的提高，人们已经不再满足一个语音合成系统仅可合成单一音色、单一风格的语音的情形。为了使语音合成系统可以合成出多种音色、多种风格的语音，如果使用传统的语音合成技术，则需要录制多个说话人的不同发音风格的音库，然而音库的录制是一个成本非常大且需要很长的时间才能完成的工作。为了实现具有多表现力的语音合成系统，同时又不至于录制更多更大的音库，说话人转换技术被提出和广泛研究。
目前应用较为广泛的说话人转换方法有基于码本映射(Codebook Mapping) 的方法和基于混合高斯模型(Gaussian Mixture Model)的方法。码本映射和基于混合高斯模型的说话人转换方法，一般都需要目标说话人的语音数据和原始说话人的语音数据在文本上相对应，这样就可以利用原始说话人与目标说话人的声学参数之间的对应关系，在参数空间建立起由原始说话人到目标说话人之间的一对一的映射。不过，要求文本和目标说话人语音对应增加了实际系统的使用难度。同时，采用这两种方法转换得到的目标说话人的合成语音中，往往普遍的存在频谱不连续的现象，造成了合成语音音质的降低。基于隐马尔可夫模型(Hidden Markov Model)的方法也是一种较为广泛应用的说话人转换方法。基于隐马尔可夫模型的说话人转换方法，在进行参数生成的时候充分考虑了语音参数的动态特征，可以生成较为平滑的语音频谱，很好的解决合成语音中的不连续现象。但一般的基于隐马尔可夫模型的说话人转换方法，在模型自适应训练过程中是以最大
似然准则来估计原始说话人模型到目标说话人模型转换矩阵的，但是，这和语音合成的实际要求并不相同。在语音合成中更希望的是，能够生成和自然语音最为接近的声学参数，以保证合成语音的自然度与音质。
发明的内容
本发明针对现有技术的缺陷，其目的就是为了提供一种用于说话人转换的基于生成参数听感误差最小化的模型自适应方法，以提高说话人转换效果。本发明的技术方案如下
基于生成参数听感误差最小化的模型自适应方法，所述的方法包括有以下步骤实现
(1) 利用原始说话人的声学模型和原始说话人模型到目标说话人模型的转换矩阵生成对自适应数据的文本进行合成时使用的声学参数；
(2) 利用原始说话人的声学模型和原始说话人模型到目标说话人模型的转换矩阵估计自适应数据的声学参数；根据自适应数据对应的文本以及相关的上下文信息以及原始说话人的声学模型和原始说话人模型到目标说话人模型的转换矩阵，估计与自适应数据的声学参数各帧相对应的用于合成语音的估计的声学参数；
(3) 综合出自适应数据的声学参数与估计的声学参数之间的听感误差计算公式；
(4) 以听感误差计算公式计算由自适应数据文本依据原始说话人的声学模型和
原始说话人模型到目标说话人模型的转换矩阵估计生成的声学参数与自适应数据声学参数之间的听感误差；
(5) 以最大似然线性回归算法得到的转换矩阵为初值，利用梯度下降算法，通过逐次迭代的方法，更新原始说话人模型到目标说话人模型的转换矩阵，以保证每次迭代后自适应数据对应的生成参数听感误差的逐渐降低；得到最小化听感误差；
(6) 最终将得到的转换矩阵应用于原始说话人的声学模型，实现基于生成参数听感误差最小化的模型自适应过程。
基于生成参数听感误差最小化的模型自适应方法，所述的上述步骤(1)中是利用自适应数据，计算原始说话人到目标说话人的转换矩阵。
基于生成参数听感误差最小化的模型自适应方法，所述的原始说话人到目标
说话人的转换矩阵，由最大似然线性回归模型自适应算法计算得出。
基于生成参数听感误差最小化的模型自适应方法，所述的上述步骤(2)中
自适应数据的声学参数，采用下式得出
其中c为自适应数据的声学参数，r为总帧数；所述的步骤(2)中估计的声学
参数，采用下式得出
其中( (;i,M)为估计的声学参数，r为总帧数。
基于生成参数听感误差最小化的模型自适应方法，所述的建模采用的声学参
数为线谱频率参数，艮p:
基于生成参数听感误差最小化的模型自适应方法，所述的自适应数据声学参
数c与估计的声学参数e(;i, M)之间的听感误差由以下公式来计算
d(C(;i,m))=
基于生成参数听感误差最小化的模型自适应方法，所述的步骤(5)中利用梯度下降算法是利用下式计算
其中"为迭代次数，e"为每一步的迭代步长，M(n)表示第"次迭代后的转换矩阵参数。
基于生成参数听感误差最小化的模型自适应方法，使用隐马尔可夫模型作为声学模型。
本发明利用以上算法进行了模型自适应训练与语音合成实验，选择的频谱参数为40阶的线谱频率参数；为了实现对听感误差的有效度量，在计算两组线谱频率之间的距离时，利用阶间差分倒数对各阶线谱频率的欧氏距离进行了加权；使用隐马尔可夫模型作为声学参数模型；在自适应过程中，使用基于最大似然线
c(a,m)= ^，52,…，5〗
6 :[械,1，…,械,JV]
-《p)2 /min(/《p -械,》
性回归模型自适应算法估计得到的原始说话人到目标说话人的转换矩阵作为初始值，再利用最小化生成参数听感误差方法对转换矩阵参数进行迭代调整。从合成语音的效果来看，使用该算法后，合成语音在音质以及与目标说话人的相似度上都有一定程度的提高；在对合成语音的倾向性主观测听中，认为使用该算法的说话人转换的合成语音质量要高于基于最大似然的模型自适应结果的比例占了 60%左右。
实验结果表明，利用以上算法经过10 20次迭代后，生成参数听感误差会得到收敛；对于集外数据的测试表明，使用基于最小化生成参数听感误差模型自适应算法，经过自适应的模型可以取得相对基于最大似然的模型自适应算法10% 左右的听感误差减小。术语解释
语音合成(Text-To-Speech):又称为文语转化。它涉及声学、语言学、数字信号处理、多媒体等多种学科，是中文信息处理领域的一项前沿技术。语音合成技术解决的主要问题是如何将电子化文本的文字信息转化为能够播放的声音信息。近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的，目的是让计算机能够产生高清晰度、高自然度的连续语音。
说话人转换(Voice Conversion):它是近年来语音合成领域中的一个研究热点，主要是对一个人(原始说话人)的语音进行处理，使它听起来像另一个人 (目标说话人)说出来的一样。它可以应用商业、军事、娱乐等多个领域。
最大似然估计(Maximum Likelihood Estimation):假设随机变量X的分
布函数为F(X,0,密度函数为/7(Z")， ^为参数，e =(《,.."m)e€), A,…,J^ 来源于分布族(F(X"):ee0)，定义似然函数丄= [1:是
0 =(《，...。的函数，若g是丄W)的唯一最大值点，则称《为0的最大似然估计。
梯度下降算法(Gradient Descent Algorithm): —种用于求解函数无约束极值问题的基本算法，它选择函数的负梯度方向(最速下降方向)作为迭代时的搜索方向。

附图为模型自适应流程框图。
具体实施例方式
参见附图所示。
基于生成参数听感误差最小化的模型自适应方法，其方法包括以下步骤
(1) . 利用自适应数据，由最大似然线性回归模型自适应算法，计算原始说话人到目标说话人的转换矩阵M 。
(2) . 计算自适应数据的文本信息对应的生成参数听感误差
a)利用原始说话人的声学模型;i和原始说话人模型到目标说话人
模型的转换矩阵M估计自适应数据对应的声学参数，根据自适应数据对应的文本以及相关的上下文信息以及原始说话人的声学模型义和原始说话人模型到目标说话人模型的转换矩阵M，估计与自适应数据的声学参数C各帧相对应的用于合成语音的
声学参数( (;i,m),其中
Ci ， C , ，
r为总帧数，使用隐马尔可夫模型作为声学模型和基于最大似然的
参数生成方法，建模采用的声学参数为线谱频率参数，艮P:
c《
其中W为线谱频率参数的阶数，W为40; b)计算声学参数之间的听感误差
由于使用线谱频率参数进行声学参数建模，因此由以下公式来计算自适应数据声学参数C与生成参数( (zl， M)之间的听感误差(3) . 以最小化听感误差为目标，调整原始说话人模型到目标说话人模型的转换矩阵M。为了求解听感误差最小时，所对应的原始说话人模型到目标说话人模型的转换矩阵M ，采用梯度下降的方法来对转换矩阵中的各参数进行逐步的调整，艮P:
M(n + 1) = M(n) — e ，,) | ( )
具体的参数更新方法可以由上式结合听感误差计算公式进行推导确定，其中"为迭代次数，^为每一步的迭代步长，M(7i)表示第"次
迭代后的转换矩阵参数。
(4) . 对步骤(2)和(3)进行反复迭代，直至生成参数听感误差收敛，则完成了原始说话人模型到目标说话人模型转换矩阵的更新。
(5) . 使用原始说话人的声学模型2和经过迭代更新的原始说话人模型到
目标说话人模型的转换矩阵^，计算得到目标说话人的声学模型"，则
最终完成了基于生成参数听感误差最小化的模型自适应过程。本发明利用以上算法进行了模型自适应训练与语音合成实验，选择的频谱参数为40阶的线谱频率参数；为了实现对听感误差的有效度量，在计算两组线谱频率之间的距离时，利用阶间差分倒数对各阶线谱频率的欧氏距离进行了加权；使用隐马尔可夫模型作为声学参数模型；在自适应过程中，使用基于最大似然线性回归模型自适应算法估计得到的原始说话人到目标说话人的转换矩阵作为初始值，再利用最小化生成参数听感误差方法对转换矩阵参数进行迭代调整。
实验结果表明，利用以上算法经过10 20次迭代后，生成参数听感误差会得到收敛；对于集外数据的测试表明，使用基于最小化生成参数听感误差模型自适应算法，经过自适应的模型可以取得相对基于最大似然的模型自适应算法10% 左右的听感误差减小。
权利要求
1、基于生成参数听感误差最小化的模型自适应方法，其特征在于所述的方法包括有以下步骤实现(1)利用原始说话人的声学模型和原始说话人模型到目标说话人模型的转换矩阵生成对自适应数据的文本进行合成时使用的声学参数；(2)利用原始说话人的声学模型和原始说话人模型到目标说话人模型的转换矩阵估计自适应数据的声学参数；根据自适应数据对应的文本以及相关的上下文信息以及原始说话人的声学模型和原始说话人模型到目标说话人模型的转换矩阵，估计与自适应数据的声学参数各帧相对应的用于合成语音的估计的声学参数；(3)综合出自适应数据的声学参数与估计的声学参数之间的听感误差计算公式；(4)以听感误差计算公式计算由自适应数据文本依据原始说话人的声学模型和原始说话人模型到目标说话人模型的转换矩阵估计生成的声学参数与自适应数据声学参数之间的听感误差；(5)以最大似然线性回归算法得到的转换矩阵为初值，利用梯度下降算法，通过逐次迭代的方法，更新原始说话人模型到目标说话人模型的转换矩阵，以保证每次迭代后自适应数据对应的生成参数听感误差的逐渐降低；得到最小化听感误差；(6)最终将得到的转换矩阵应用于原始说话人的声学模型，实现基于生成参数听感误差最小化的模型自适应过程。
2、根据权利要求l所述的基于生成参数听感误差最小化的模型自适应方法，其特征在于所述的步骤(1)中是利用自适应数据，计算原始说话人到目标说话人的转换矩阵。
3、根据权利要求2所述的基于生成参数听感误差最小化的模型自适应方法，其特征在于所述的原始说话人到目标说话人的转换矩阵，由最大似然线性回归模型自适应算法计算得出。
4、根据权利要求l所述的基于生成参数听感误差最小化的模型自适应方法，其特征在于所述的步骤(2)中自适应数据的声学参数，采用下式得出c =其中c为自适应数据的声学参数，r为总帧数；所述的步骤(2)中估计的声学参数，采用下式得出:<formula>formula see original document page 3</formula>其中e(义,M)为估计的声学参数，r为总帧数。
5、根据权利要求4所述的基于生成参数听感误差最小化的模型自适应方法，其特征在于所述的建模采用的声学参数为线谱频率参数，艮口<formula>formula see original document page 3</formula>
6、根据权利要求4所述的基于生成参数听感误差最小化的模型自适应方法，其特征在于所述的自适应数据声学参数c与估计的声学参数e(;i,M)之间的听感误差由以下公式来计算<formula>formula see original document page 3</formula>
7、根据权利要求l所述的基于生成参数听感误差最小化的模型自适应方法，其特征在于所述的步骤(5)中利用梯度下降算法是利用下式计算<formula>formula see original document page 3</formula>其中"为迭代次数，e"为每一步的迭代步长，M(n)表示第"次迭代后的转换矩阵参数。
8、根据权利要求l所述的基于生成参数听感误差最小化的模型自适应方法，其特征在于使用隐马尔可夫模型作为声学模型。
全文摘要
本发明涉及基于生成参数听感误差最小化的模型自适应方法，其方法包括结合听感实验确定合理的声学参数听感距离计算方式；依据原始说话人的声学模型和原始说话人模型到目标说话人模型的转换矩阵估计的声学参数，计算其相对于自适应数据声学参数的听感距离；基于听感误差最小化对原始说话人模型到目标说话人模型的转换矩阵进行逐次的迭代调整至最佳转换效果。本发明针对现有技术的缺陷，其目的就是为了提供一种用于说话人转换的基于生成参数听感误差最小化的模型自适应方法，减小听感误差，以提高说话人转换效果。
文档编号G10L13/02GK101178895SQ20071019107
公开日2008年5月14日申请日期2007年12月6日优先权日2007年12月6日
发明者凌震华, 刘庆峰, 吴晓如, 王仁华, 龙秦, 郁胡, 胡国平申请人:安徽科大讯飞信息科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：秦龙;凌震华;胡郁;胡国平;吴晓如;刘庆峰;王仁华
技术所有人：安徽科大讯飞信息科技股份有限公司
我是此专利的发明人

上一篇：基于声学统计模型的单元挑选语音合成方法
上一篇：便携式膝筝的制作方法