用音节上的多项式表示音高轮廓的数据库及韵律产生方法

文档序号:9218166阅读:589来源:国知局
用音节上的多项式表示音高轮廓的数据库及韵律产生方法
【专利说明】
[0001] 本专利申请是题为"语音合成系统和方法"的美国专利8719030的部分延续。
技术领域
[0002] 本发明一般地涉及语音合成,尤其涉及用于语音合成的韵律产生方法。
【背景技术】
[0003] 语音合成(TTS),是用计算机把书面文件转换成可听见的语音的方法和系统。一 个良好的TTS系统应该可以产生自然的、高度清晰的语音。最初,TTS系统是以规则为基础 的,也叫做共振峰合成法。这些系统产生的语音清晰,但声音像机器人,不自然。
[0004] 为了产生自然的语音,单元选择语音合成系统发明了。该系统需要准备大量讲话 的录音。在合成过程中,输入文本首先被转换成语音版本,分割成小块,然后从录制的语音 库找到相配的小段语音,拼接在一起。显然,要适应任意的输入文字,语音库必须非常巨大。 说话风格也难以改变。因此,几十年来,人们一直在寻找可既有共振峰系统小型和多功能的 特点,又有单元选择系统发音自然的优点的语音合成系统。
[0005] 在一个相关的美国专利8719030中,公开了使用音色矢量的语音合成系统和方 法。音色矢量是一种高度准确的语音信号的参数化方法。从转化成音色矢量的语音库出发, 语音信号可以进行很大程度的修改而再生,而且质量非常接近原始语音。音高轮廓,强度分 布,每个音段的长度,都可以任意更动。然而,美国专利8719030中,没有提到韵律产生的系 统和方法。本发明公开了根据输入文本产生韵律的系统和方法。

【发明内容】

[0006] 本发明公开的韵律产生方法,是把每个音节中心附近的音高轮廓展开成多项式, 用多项式的系数作为音节的音高轮廓参数,叠加在不同类型的短语或句子的整体音高轮廓 上,形成完整的音高轮廓的方法。整个短语或句子的音高轮廓是通过对每个音节的中心使 用较高阶的音高轮廓多项式表示,生成一个连接邻近音节边界的多项式。音节中心附近的 音高轮廓展开的多项式的系数,是从语音数据库中提取。以上所说的语音数据库,是通过朗 读一个文本中的多个句子而形成。语音数据库通过将每一个单词的信息和上下文信息与每 个音节的所述多项式展开系数相关联形成。为了产生与输入文本对应的韵律,首先对输入 文本的每一个单词和上下文进行分析。通过查找相关的数据库,找出每个音节的最佳的音 高参数,加上了与句子和短语类型的相应的全局音高轮廓,然后使用内插公式来生成输入 文本的完整音高轮廓。每个音节的长度和强度分布也用类似的方法产生。
[0007] 现有技术的韵律生成系统的一个普遍问题是,由于只有浊音段才有音高,清辅音 和静音段没有音高,语音数据的句子的音高信号总是不连续的和不完整的。另一方面,在合 成步骤中,因为清音段和静音段没有音高值,预测的音高轮廓也是不连续的和不完整的。在 本发明中,在音高轮廓预测的数据库中,只有在和靠近每个音节的中心的音高数值才是必 需的。为了产生输入文本的音高轮廓,第一步骤是对每个音节中心区段生成多项式展开系 数。在这里,音高总是存在的。然后,整个句子的音高值是使用一组数学公式由内插产生。 如果音节的端部的辅音是浊音,如N,M,Z,等,音高值的延续自然是有用的。如果辅音在音 节的端部是清音,如S,T,K,同样的内插过程也产生一组完整的音高标记。在清音段和静音 段中的那些音高标记,对基于音色矢量的语音合成方法很重要,见美国专利8719030。
[0008] 本发明的一个优选实施方案是基于音节的语音合成系统。这个语音合成系统的出 发点是从语料库萃取的一套完整的音节的录音。再把音节的录音参数化为音色向量。然后 转换成一组有相同音高,相同的长度,两端强度相等的原型音节。在语音合成中,输入的文 本被首先转化成音节序列。每个音节的样品是从原型音节的音色矢量数据库萃取。随后根 据每个音节的韵律参数,对每个音节的音色矢量进行变换。每个音节被演变成一个根据需 要的韵律参数的新音节,然后使用音色熔合方法结合在一起,以产生输出语音。
【附图说明】
[0009] 图1是每个音节中心音高的线性近似的一个例子。
[0010] 图2是整个句子的内插音高轮廓的一个例子。
[0011] 图3示出构成线性音高轮廓和内插音高轮廓的过程。
[0012] 图4示出了句子中每个音节的音高参数的一个例子。
[0013] 图5示出了三种类型的句子和短语的全局音高轮廓。
[0014] 图6示出数据库建造和语音合成中韵律产生的流程图。
【具体实施方式】
[0015] 下面结合说明书附图与【具体实施方式】对本发明做进一步的详细说明。
[0016] 图1,图2和图3示出在每个音节中心的音高轮廓多项式展开系数的概念,以及使 用更高阶的多项式对整个短语或句子通过内插产生的总体音高轮廓。本发明中的音高轮廓 的这个特殊参数化表示方法,区别于所有现有技术的方法。图1就是一个例子,这句话"He moved away as quietly as he had come?"是 ARCTIC databases 中编号 A0045 的句子,由 男性朗读者BDL发音。原始音高轮廓,101,虚线,是通过从声门波仪(EGG)信号生成的。如 图所示,音高只存在于浊音段102。清音段103不存在音高标记。在图1中,有6个浊音段 和6个清音段。
[0017] 该句子可以被分成12个音节105,每个音节有一个池音段106,每一个池音段有一 个音节中心107。
[0018] 对每一个音节105,池音段106的音高轮廓可以在音节中心107用多项式展 开。多项式系数是使用最小二乘法得到,例如使用Gegenbauer多项式。这种方法是众 所周知的(例如 Abraham and Stegun, Handbook of Mathematical Functions, Dover Publications, New York,第22章,特别是790-791页)。图1表示线性近似,104,具有两个 项,常数项和常数斜率(导数)项。在每个音节的浊音段,线性曲线104最小二乘法从音高 数据获得。在整个句子上,这些近似曲线是不连续的。
[0019] 图2类似于图1,但各段线性近似曲线通过内插连接在一起,在整个句子上形成一 个连续的曲线204。在图2中,201是实验音高数据。202是浊音段,和203是清音段。在每 个音节的中心207,连续曲线204的音高值和音高斜率必须与个别线性曲线104匹配。内插 的曲线还包括清音段,如203。这些值可应用于以生成清音的段分割点,这是用音色矢量做 语音合成时的重要参数,见美国专利8719030。
[0020] 图3表示从实验音高参数出发,提取近似多项式参数的过程,以及连接这些近似 多项式成连续曲线的过程。作为一个例子,ARCTIC databases中编号a0045的句的前两个 音节,"He"和"move",如图3。301是声音信号,302是来自声门波信号的音高数据。在声 门波信号存在的区域内,基音周期303是两个相邻的音高标记之间的时间(以秒计),表示 为A T。音高值p,以MIDI表示,与A T的关系是
[0022] 浊音段的音高轮廓,例如,306和307之间的V,用最小二乘法得到一个近似多项 式。在图1中,第n音节中心附近,音高轮廓形成的一个线性近似,
[0023] p=An+Bnt,
[0024] 这里,八"与8"是音节音高参数。为了使在音节边界上曲线连续,使用一个高阶多 项式。假设下一个音节中心与第一个的中心的时间差为T。这里的第(n+1)个音节,在中点 t=T附近,音高的线性近似是
[0025] p=An+1+Bn+1 (t-T).
[0026] 用一个三阶多项式可以把两个音节中心线性近似连接起来,如在图3中的308所 不〇
[0027] p= An+Bnt+Ct2+Dt3,
[0028] 其中系数C和D是使用下列公式计算:
[0031] 因此,在整个句子上,内插形成的音高轮廓的音高值和音高斜率是连续的,如图2 中的204。
[0032] 对于高度感情化的语音合成,或声调语言如中国国语,用音节中心的音高轮廓方 法也可以应用。超过一半的世界的语言都是声调语言,它使用音节中的主元音的音高轮廓 来区分语义。声调语言的例子包括中国普通话,广东话,越南语,缅甸语,泰语,一些北欧语 言,和一些非洲语言,例如见书"Tone\Moira Yip, Cambridge University Press, 2002。为 了更准确地表示每一个音节的音高变化,在第n个音节的中心附近,音高轮廓的多项式展 开可以包括二次项,
[0033] p=An+Bnt+Cnt2,
[0034] 在第(n+1)个音节的中心,音高轮廓的二次多项式为
[0035] p=An+1+Bn+1(t-T)+Cn+1(t-T)2,
[0036] 其中的系数是使用最小二乘法获得的。类似于线性近似,采用高阶多项式,一个整 体连续的曲线可以把两个音节连接起来,
[0037] p=An+Bnt+Cnt2+Dt3+Et4+Ft5,
[0038] 其中系数D,E和F可使用下列公式计算:
[0042] 这些公式的正确性,可直接进行验证。
[0043] 图4示出整个句子的每个音节的参数的例子。整个连续音高曲线204可以从这个 数据表生成。图4中的第一列是音节的名称。第二列是所述音节的开始时间。第三列是在 所述音节浊音段
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1