用音节上的多项式表示音高轮廓的数据库及韵律产生方法

文档序号：9218166阅读：589来源：国知局

用音节上的多项式表示音高轮廓的数据库及韵律产生方法
【专利说明】
[0001] 本专利申请是题为"语音合成系统和方法"的美国专利8719030的部分延续。
技术领域
[0002] 本发明一般地涉及语音合成，尤其涉及用于语音合成的韵律产生方法。
【背景技术】
[0003] 语音合成（TTS)，是用计算机把书面文件转换成可听见的语音的方法和系统。一个良好的TTS系统应该可以产生自然的、高度清晰的语音。最初，TTS系统是以规则为基础的，也叫做共振峰合成法。这些系统产生的语音清晰，但声音像机器人，不自然。
[0004] 为了产生自然的语音，单元选择语音合成系统发明了。该系统需要准备大量讲话的录音。在合成过程中，输入文本首先被转换成语音版本，分割成小块，然后从录制的语音库找到相配的小段语音，拼接在一起。显然，要适应任意的输入文字，语音库必须非常巨大。说话风格也难以改变。因此，几十年来，人们一直在寻找可既有共振峰系统小型和多功能的特点，又有单元选择系统发音自然的优点的语音合成系统。
[0005] 在一个相关的美国专利8719030中，公开了使用音色矢量的语音合成系统和方法。音色矢量是一种高度准确的语音信号的参数化方法。从转化成音色矢量的语音库出发，语音信号可以进行很大程度的修改而再生，而且质量非常接近原始语音。音高轮廓，强度分布，每个音段的长度，都可以任意更动。然而，美国专利8719030中，没有提到韵律产生的系统和方法。本发明公开了根据输入文本产生韵律的系统和方法。

【发明内容】

[0006] 本发明公开的韵律产生方法，是把每个音节中心附近的音高轮廓展开成多项式，用多项式的系数作为音节的音高轮廓参数，叠加在不同类型的短语或句子的整体音高轮廓上，形成完整的音高轮廓的方法。整个短语或句子的音高轮廓是通过对每个音节的中心使用较高阶的音高轮廓多项式表示，生成一个连接邻近音节边界的多项式。音节中心附近的音高轮廓展开的多项式的系数，是从语音数据库中提取。以上所说的语音数据库，是通过朗读一个文本中的多个句子而形成。语音数据库通过将每一个单词的信息和上下文信息与每个音节的所述多项式展开系数相关联形成。为了产生与输入文本对应的韵律，首先对输入文本的每一个单词和上下文进行分析。通过查找相关的数据库，找出每个音节的最佳的音高参数，加上了与句子和短语类型的相应的全局音高轮廓，然后使用内插公式来生成输入文本的完整音高轮廓。每个音节的长度和强度分布也用类似的方法产生。
[0007] 现有技术的韵律生成系统的一个普遍问题是，由于只有浊音段才有音高，清辅音和静音段没有音高，语音数据的句子的音高信号总是不连续的和不完整的。另一方面，在合成步骤中，因为清音段和静音段没有音高值，预测的音高轮廓也是不连续的和不完整的。在本发明中，在音高轮廓预测的数据库中，只有在和靠近每个音节的中心的音高数值才是必需的。为了产生输入文本的音高轮廓，第一步骤是对每个音节中心区段生成多项式展开系数。在这里，音高总是存在的。然后，整个句子的音高值是使用一组数学公式由内插产生。如果音节的端部的辅音是浊音，如N，M，Z，等，音高值的延续自然是有用的。如果辅音在音节的端部是清音，如S，T，K，同样的内插过程也产生一组完整的音高标记。在清音段和静音段中的那些音高标记，对基于音色矢量的语音合成方法很重要，见美国专利8719030。
[0008] 本发明的一个优选实施方案是基于音节的语音合成系统。这个语音合成系统的出发点是从语料库萃取的一套完整的音节的录音。再把音节的录音参数化为音色向量。然后转换成一组有相同音高，相同的长度，两端强度相等的原型音节。在语音合成中，输入的文本被首先转化成音节序列。每个音节的样品是从原型音节的音色矢量数据库萃取。随后根据每个音节的韵律参数，对每个音节的音色矢量进行变换。每个音节被演变成一个根据需要的韵律参数的新音节，然后使用音色熔合方法结合在一起，以产生输出语音。
【附图说明】
[0009] 图1是每个音节中心音高的线性近似的一个例子。
[0010] 图2是整个句子的内插音高轮廓的一个例子。
[0011] 图3示出构成线性音高轮廓和内插音高轮廓的过程。
[0012] 图4示出了句子中每个音节的音高参数的一个例子。
[0013] 图5示出了三种类型的句子和短语的全局音高轮廓。
[0014] 图6示出数据库建造和语音合成中韵律产生的流程图。
【具体实施方式】
[0015] 下面结合说明书附图与【具体实施方式】对本发明做进一步的详细说明。
[0016] 图1，图2和图3示出在每个音节中心的音高轮廓多项式展开系数的概念，以及使用更高阶的多项式对整个短语或句子通过内插产生的总体音高轮廓。本发明中的音高轮廓的这个特殊参数化表示方法，区别于所有现有技术的方法。图1就是一个例子，这句话"He moved away as quietly as he had come?"是 ARCTIC databases 中编号 A0045 的句子，由男性朗读者BDL发音。原始音高轮廓，101，虚线，是通过从声门波仪（EGG)信号生成的。如图所示，音高只存在于浊音段102。清音段103不存在音高标记。在图1中，有6个浊音段和6个清音段。
[0017] 该句子可以被分成12个音节105,每个音节有一个池音段106,每一个池音段有一个音节中心107。
[0018] 对每一个音节105,池音段106的音高轮廓可以在音节中心107用多项式展开。多项式系数是使用最小二乘法得到，例如使用Gegenbauer多项式。这种方法是众所周知的（例如 Abraham and Stegun, Handbook of Mathematical Functions, Dover Publications, New York，第22章，特别是790-791页）。图1表示线性近似，104,具有两个项，常数项和常数斜率（导数）项。在每个音节的浊音段，线性曲线104最小二乘法从音高数据获得。在整个句子上，这些近似曲线是不连续的。
[0019] 图2类似于图1，但各段线性近似曲线通过内插连接在一起，在整个句子上形成一个连续的曲线204。在图2中，201是实验音高数据。202是浊音段，和203是清音段。在每个音节的中心207,连续曲线204的音高值和音高斜率必须与个别线性曲线104匹配。内插的曲线还包括清音段，如203。这些值可应用于以生成清音的段分割点，这是用音色矢量做语音合成时的重要参数，见美国专利8719030。
[0020] 图3表示从实验音高参数出发，提取近似多项式参数的过程，以及连接这些近似多项式成连续曲线的过程。作为一个例子，ARCTIC databases中编号a0045的句的前两个音节，"He"和"move"，如图3。301是声音信号，302是来自声门波信号的音高数据。在声门波信号存在的区域内，基音周期303是两个相邻的音高标记之间的时间（以秒计），表示为A T。音高值p，以MIDI表示，与A T的关系是
[0022] 浊音段的音高轮廓，例如，306和307之间的V，用最小二乘法得到一个近似多项式。在图1中，第n音节中心附近，音高轮廓形成的一个线性近似，
[0023] p=An+Bnt,
[0024] 这里，八"与8"是音节音高参数。为了使在音节边界上曲线连续，使用一个高阶多项式。假设下一个音节中心与第一个的中心的时间差为T。这里的第（n+1)个音节，在中点 t=T附近，音高的线性近似是
[0025] p=An+1+Bn+1 (t-T).
[0026] 用一个三阶多项式可以把两个音节中心线性近似连接起来，如在图3中的308所不〇
[0027] p= An+Bnt+Ct2+Dt3,
[0028] 其中系数C和D是使用下列公式计算：
[0031] 因此，在整个句子上，内插形成的音高轮廓的音高值和音高斜率是连续的，如图2 中的204。
[0032] 对于高度感情化的语音合成，或声调语言如中国国语，用音节中心的音高轮廓方法也可以应用。超过一半的世界的语言都是声调语言，它使用音节中的主元音的音高轮廓来区分语义。声调语言的例子包括中国普通话，广东话，越南语，缅甸语，泰语，一些北欧语言，和一些非洲语言，例如见书"Tone\Moira Yip, Cambridge University Press, 2002。为了更准确地表示每一个音节的音高变化，在第n个音节的中心附近，音高轮廓的多项式展开可以包括二次项，
[0033] p=An+Bnt+Cnt2,
[0034] 在第（n+1)个音节的中心，音高轮廓的二次多项式为
[0035] p=An+1+Bn+1(t-T)+Cn+1(t-T)2,
[0036] 其中的系数是使用最小二乘法获得的。类似于线性近似，采用高阶多项式，一个整体连续的曲线可以把两个音节连接起来，
[0037] p=An+Bnt+Cnt2+Dt3+Et4+Ft5,
[0038] 其中系数D，E和F可使用下列公式计算：
[0042] 这些公式的正确性，可直接进行验证。
[0043] 图4示出整个句子的每个音节的参数的例子。整个连续音高曲线204可以从这个数据表生成。图4中的第一列是音节的名称。第二列是所述音节的开始时间。第三列是在所述音节浊音段

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈成钧;
技术所有人：陈成钧;
我是此专利的发明人

上一篇：新增口说语汇的语音识别系统与方法
上一篇：基于基音同步频谱参数的语音识别系统和方法