语速相依韵律讯息产生装置及语速相依的阶层式韵律模块的制作方法

文档序号：2825936阅读：133来源：国知局

语速相依韵律讯息产生装置及语速相依的阶层式韵律模块的制作方法
【专利摘要】本案系提供一种可控制语速的韵律讯息产生装置，包含一第一输入端，用以接收一语速；一第二输入端，用以接收一语言参数；一语速相依的韵律生成模块，用以接收该语言参数及该语速，以产生该语速相依的一韵律声学特征参数；及一输出端，用以输出与该语速相依的一韵律声学特征参数。
【专利说明】语速相依韵律讯息产生装置及语速相依的阶层式韵律模块
【技术领域】
[0001]本发明系关于一种韵律讯息产生装置，尤指一种以语速相依的阶层式韵律模块为基础的韵律讯息产生装置。
【背景技术】
[0002]目前对于相异语速语音合成的讨论不少，但始终不能达成一流畅的自然合成语音。其中有以每个语音音框的时间轴进行伸张及压缩，藉以调整说话速度慢及快的研究，但并未考虑到语速对于韵律结构的影响；以线性预估的方式对输入语音进行语速修正，对输入的语音信号以线性插入或移除信号本身的研究，该方法虽简易有效率，但对于语速的考虑过于粗糙；以清化元音(devoiced vowel)的决定中考虑了语速影响,有效地改进清化元音在慢语速的退化程度的研究，但其韵律的产生方法并未考虑语速的影响；以对不同语速语料库建立韵律结构的转换关系，藉以达到语速转换的目的的研究，但该方法并不能掌握到连续语速的转换变化；虽有文献实现了可控制语速的TTSCText-to-Speech)，首先对三种速度(快、正常、慢)各自建立音长模型，对三个音长模型以内插方式来产生目标语速所需的音长，最后结合于HMM为基础的语音合成器，此方法仅考虑韵律之中的音长部份，并未对其它韵律参数进行语速影响调整，且由于不同语速需各自建立自己的音长模型，会使得模型参数量大增；再则它使用内插法去产生音长，无法获得准确的语速控制；另有文献对正常及快速语料分别建立HSMM模型，再以CMLLR对音长模型进行音长平均值的语速调适，该方法仅考虑韵律之中的音长部份，且由于不同语速需各自建立自己的音长模型，会使得模型参数量大增；及有进行大规模主观测试三种语速控制的方法研究，分别为:(I)针对目标语速选取相近语速的语料来训练HMM模型，(2)依比例去伸缩合成语句的发音长度，及
[3]基于ML准则去决定状态长度(stateduration),这些方法都是建立于HMM_based的语音合成系统，实验结果发现方法(2)最适合用于快语速合成语音，而方法(I)较适合慢速语音，不同的语速控制方法都只适于某种语速，并没有一种方法能掌握所有语速的控制。
[0003]因此，可知习知技术大多以等比例拉长或缩短各个合成单元(如音节、词)的长度来达到语速控制，而于韵律结构、音高轨迹、停顿时间长度及停顿出现频率方面较少着墨，并无考虑声学韵律讯息其背后的产生模型，因此并不能以系统化的方式掌握语速对于韵律多层面的影响，进而用以产生韵律讯息；这些韵律讯息可充分应用于语音合成的语速控制，使各种语速的合成语音应用在语音合成的领域听起来都很流利自然。
[0004]爰是之故，申请人:有鉴于习知技术的缺失，乃经悉心试验与研究，并一本锲而不舍的精神，终发明出本案「语速相依的韵律讯息产生器及语速相依的阶层式韵律模块」，用以改善上述习用手段的缺失。

【发明内容】

[0005]本案的一面向系提供一韵律讯息产生装置，包含一第一输入端，用以接收一语速；一第二输入端，用以接收一语言参数；一语速相依的韵律生成模块，用以配合该语言参数及该语速，以产生该语速相依的一韵律声学特征参数；及一输出端，用以输出与该语速相依的韵律声学特征参数。
[0006]本案的另一面向系提供一种语速相依的阶层式韵律模块，包含至少二模型，其中各该模型系选自由一音节韵律声学模型、一停顿声学模型、一韵律状态模型、一停顿语法模型及其组合之一，俾与一语速相依。
[0007]本案的又一面向系提供一种语速相依的阶层式韵律模块，包含至少二参数，其中各该参数系选自由一停顿类型、一韵律状态一音节韵律声学特征参数、一音节间韵律声学特征参数及一音节差分韵律声学特征参数及其组合之一，俾该模块与一语速相依。
【专利附图】

【附图说明】 [0008]图1:本案一较佳实施例的建构语速相依的阶层式韵律模块流程图。
[0009]图2:本案一较佳实施例的产生语速相依的韵律声学特征参数简易流程图。
[0010]图3:本案一较佳实施例的语料库语速统计图。
[0011]图4:本案一较佳实施例的汉语语音阶层式韵律结构示意图。
[0012]图5:本案一较佳实施例的七种停顿类别的停顿时长平均值对语速的关系图。
[0013]图6(ar(b):本案一较佳实施例的不同声调的基频轨迹于不同语速的差异图。
[0014]图7:本案一较佳实施例的产生语速相依的韵律声学特征参数流程图。
[0015]【主要组件符号说明】
[0016]101:语音语料库
[0017]102:语速估计
[0018]103:语速正规化函式的建构
[0019]104:韵律声学特征参数的语速正规化
[0020]105:修正型阶层式韵律模型训练算法
[0021]106:语速相依的阶层式韵律模块
[0022]201:文字分析器
[0023]202:语速相依的韵律参数产生方法
[0024]203:语速正规化函式
[0025]204:语速相依的阶层式韵律模块
[0026]701:语速相依的阶层式韵律模块
[0027]702:停顿标记预估器
[0028]703:韵律状态预估器
[0029]704:语速正规化函式
[0030]705:韵律状态语法模型
[0031]706:语速相依的韵律讯息产生器
[0032]707:语速相依的韵律生成模块
【具体实施方式】
[0033]本发明将可由以下的实施例说明而得到充分了解，使得熟习本技艺的人士可以据以完成之，然本案的实施并非可由下列实施案例而被限制其实施型态。[0034]本发明建立一个可应用于电子有声书、手机、PDA及计算机等装置上的考虑语速对于音长、音高轨迹、停顿时机、停顿出现频率、停顿时长所造成的影响的语速相依的阶层式韵律模块；以及基于语速相依的阶层式韵律模块，可以产生出各种语速的韵律声学特征参数，帮助语音合成达到良好的语速控制效果。其步骤包含两个阶段:模块建立及韵律合成。模块建立阶段请参阅图1，其中是以阶层式韵律模型为基础建立语速相依的阶层式韵律模块。请参阅图2，韵律合成阶段是语速相依的韵律声学特征参数产生方法阶段，其中是以语速相依的阶层式韵律模块为基础，产生语音合成所需要的各种韵律声学特征参数，且满足不同语速的要求。
[0035]如前所述的模块建立阶段的步骤包含对语音语料库101中的每一句话，先做音节切割，再由每一音节抽取韵律声学特征参数；接着由语速估计102求取音节平均长度做为语速SR ;然后由语速正规化函式的建构103依据整个语音数据库各句话的韵律声学特征参数对语速的统计分布来求取正规化函式；接着由韵律声学特征参数的语速正规化104来将韵律声学特征参数做正规化而获得正规化韵律声学特征参数，再由修正型阶层式韵律模型训练算法105使用整个语音语料库每一句话的语速、语言参数、及正规化韵律声学特征参数来训练获得语速相依的阶层式韵律模块106，其中修正型阶层式韵律模型训练算法，考虑语速的进一步影响，修正原本的阶层式韵律模型训练算法，将其中两个子模型:停顿语法模型及韵律状态模型，加入语速考虑，藉此补偿语速对停顿时机(或出现频率)、以及韵律状态转移所造成的影响。
[0036]如前所述的韵律合成阶段的步骤包含:首先由文字分析器201将输入文字做断词及词类标记分析，获得语言参数，再由语速相依的韵律声学特征参数产生方法202使用语言参数、语速、语速相依的阶层式韵律模块204、以及语速正规化函式203来产生四种韵律声学特征参数。语速相依的阶层式韵律模块204主要是决定整个语句的韵律架构(依据语速)及基本韵律参数合成，而语速正规化函式203是将基本韵律参数的统计特性调到指定语速的统计特性。
[0037]请参阅表一及图3，其分别为本发明中使用语料库大小的统计信息及语料库语速的统计分布图。该语料库是以一女性专业播音员依四种语速所录制的平行语音数据库当作实施目标，由该图中可知四种语速所录制的平行语音数据语速分布在0.15-0.3second/syllable 之间。
[0038]表一
[0039]
【权利要求】
1.一种可控制语速的韵律讯息产生装置，包含: 一第一输入端，用以接收一语速；一第二输入端，用以接收一语言参数；一语速相依的韵律生成模块，用以配合该语言参数及该语速，以产生该语速相依的一韵律声学特征参数 '及一输出端，用以输出与该语速相依的该韵律声学特征参数。
2.如权利要求1所述的装置，其中根据所产生的语速相依的韵律声学特征参数，可使用习知的语音合成器来合成出相对应的任一指定语速的合成语音。
3.如权利要求1所述的装置，其中该语言参数至少包含两参数，其中各该参数系选自由包含词类、标点符号、词长、声调、基本音节类型及韵母类型及其组合之一。
4.如权利要求1所述的装置，其中该语速相依的韵律生成模块包含一语速相依的阶层式韵律模块、一语速相依的韵律讯息产生器、以及至少一个预估器，其中各该预估器系选自由包含一停顿标记预估器及一韵律状态预估器。
5.如权利要求4所述的装置，其中该语速相依的韵律讯息产生器，根据一语速正规化函式、该语速相依的阶层式韵律模块的音节韵律声学模型及停顿声学模型、该韵律状态预估结果、该停顿标记预估结果、该输入语速及该语言参数，以产生一对应语速的韵律声学特征参数。
6.如权利要求5所述的装置，其中该语速正规化函式用以调整韵律声学特征参数的统计特性成任一语速的统计特性；其所使用的正规化参数系采用整体语料的统计分布经平滑化而得到。`
7.如权利要求4所述的装置，其中该语速相依的阶层式韵律模块包含一音节韵律声学模型、一停顿声学模型、一韵律状态模型、一停顿语法模型，俾与一语速相依。
8.如权利要求4所述的装置，其中该停顿标记预估器，根据该语速、该语言参数和该语速相依的阶层式韵律模块的停顿语法模型而执行一停顿标记预估操作，以产生一停顿标记预估结果。
9.如权利要求4所述的装置，其中该韵律状态预估器，根据该语速、该语速相依的阶层式韵律模块的韵律状态模型、一韵律状态语法模型和该停顿标记预估结果而执行一韵律状态预估操作，以产生一韵律状态预估结果。
10.一种语速相依的阶层式韵律模块，包含至少二子模型，其中各该子模型系选自由一音节韵律声学模型、一停顿声学模型、一韵律状态模型、一停顿语法模型及其组合之一，俾与一语速相依。
11.如权利要求10所述的模块，其中该语速相依的阶层式韵律模块根据一汉语语音数据库的语言参数、一正规化韵律声学参数及各语句的语速，再以一修正型阶层式韵律模型训练算法来建构。
12.如权利要求10所述的模块，其中该音节韵律声学模型、该停顿声学模型、该韵律状态模型及该停顿语法模型各包含至少两种的子模型来建构。
13.如权利要求10-11所述的模块，其中该正规化韵律声学参数根据各语句的语速，使用语速正规化函式对韵律声学参数做一正规化操作所产生。
14.如权利要求10-11所述的模块，其中该修正型阶层式韵律模型训练算法亦施用于至少一停顿语法子模型与一韵律状态子模型。
15.如权利要求10所述的模块,该语速相依的阶层式韵律模块根据一输入语速、一输入语言参数于该模块中，以产生相对应的一停顿类型机率用以协助停顿标记的预估、一韵律状态机率用以协助韵律状态的预估、一音节韵律声学特征参数机率及一音节间停顿时长的机率用以协助产生一语速相依的韵律声学特征参数。
16.一种语速相依的阶层式韵律模块，包含至少二参数，其中各该参数系选自由一停顿类型、一韵律状态一音节韵律声学特征参数、一音节间韵律声学特征参数及一音节差分韵律声学特征参数及其组合之一，俾该模块与一语速相依。
17.如权利要求16所述的模块，其中该韵律状态包含基频韵律状态时长韵律状态及能量位阶韵律状态。
18.如权利要求16所述的模块，其中该音节韵律声学特征参数包含音苄基频轨迹、音节时长及音节能量位阶；该音节间韵律声学特征参数包含停顿时长及能量低点位阶；及该音节差分韵律声学特征参数包含基频跳跃、时长拉长因子1及时长拉长因子2。
【文档编号】G10L13/08GK103680491SQ201310066969
【公开日】2014年3月26日申请日期:2013年3月1日优先权日:2012年9月10日
【发明者】陈信宏, 王逸如, 江振宇, 谢乔华申请人:财团法人交大思源基金会

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈信宏;王逸如;江振宇;谢乔华
技术所有人：财团法人交大思源基金会
我是此专利的发明人