多语言的文字转语音合成系统与方法

文档序号:2824988阅读:246来源:国知局

专利名称::多语言的文字转语音合成系统与方法
技术领域
:本揭露涉及一种多语言(multi-lingual)的文字转语音(Text-To-Speech,TTS)合成(synthesis)系统与方法。
背景技术
:在文章或句子中出现多种语言的交错使用是很常见的,例如中文与英文夹杂使用。当人们需要将这些文字以语音合成技术转为声音吋,依据使用的情境来决定如何处理非母语的文字是最佳的。例如有的情境以标准的英文读出英文单字就已经是最好的,有的情境则略带母语腔调的方式反而较为自然,例如小说电子书中出现的中英夹杂文句,写给朋友的电子邮件等。目前多语言的文字转语音合成系统普遍以多套语言的合成器进行切换,所以合成的语音在不同语言区块交错吋,常会出现由不同语者发音,或是语句韵律中断而不顺畅等情形。多语言语音合成的现有文献有很多。相关的文献例如美国专利号US6,141,642揭示的处理多种语言的文字转语音装置与方法(TTSApparatusandMethodforProcessingMultipleLanguages),此技术直接以多套语言的合成器来进行切換。有些专利文献掲示的技术是直接将非母语音标完全对应成母语音标,没有将不同语言的语音模型之间的差异纳入考虑。有些专利文献掲示的技术则合并不同语言的语音模型中相似的部分,保留相异的部分,而没有考虑ロ音权重的问题。有些论文如关于基于HMM的混合语言(Mixed-language),如中文-英文,的语音合成所掲示的技术也是没有将ロ音权重纳入考虑。有一篇论又〃ForeignAccentsinSyntneticSpeech!DevelopmentandEvaluation“是以不同的音标对应的方式来处理ロ音问题。另两篇论又“Polyglotspeechprosodycontrol“及“Prosodymodificationonmixed-languagespeechsynthesis〃则处理韵律方面的问题,也没有处理语音模型的部分。而论又"NewapproachtotnepolyglotspeecngenerationbymeansοιanHMM-basedspeakeradaptablesynthesizer"是以语者模型调适的方式来建立非母语(non-nativelanguage)的语音模型,但没有掲示可控制ロ音的轻重。
发明内容本发明揭露一种多语言的文字转语音合成系统与方法,所要解决的技术问题在于使第二语言词汇的发音与韵律,可以在完全維持其原标准发音,到完全以第一语言方式发音的两种极端范围中作调整。在一实施例中,所揭露的是关于一种多语言的文字转语音合成系统。此系统包含ー语音模型挑选模块(speechmodelselectionmodule)、ー语音模型合并模块(speechmodelcombinationmodule)及一语首合成器(speechsynthesizer)。此语首模型挑选娱块对欲合成的含有第二语言的输入文本(text)及对应此输入文本第二语言的部分的一第4CN102543069Aニ语言语音単元序列(phoneticunitsequence),在一第二语言语音模型库中,依序找出该第二语言语音単元序列中各语音单元所对应的一第二语音模型,再查询ー第二语言转第一语言的语音单元转换表,并利用设定的至少一可调控的ロ音权重參数,决定要采用ー转换组合,选择出一相对应的第一语言语音単元序列,并在ー第一语言语音模型库中,依序找出该第一语言语音単元序列中各语音单元所对应的一第一语音模型。此语音模型合并模块将找出的第二与第一语音模型,依照设定的至少一可调控的ロ音权重參数,合并成ー合并语音模型,依序处理该转换组合中所有的转换后,将各合并语音模型依序排列产生ー合并语音模型序列。此合并语音模型序列再套用至此语音合成器,以将输入的文本合成为带有第一语言ロ音的第二语言语音(Ll-accentL2speech)。在另ー实施例中,所揭露的是关于一种多语言的文字转语音合成系统,此多语言的文字转语音合成系统是执行于ー计算机系统中,此计算机系统备有一记忆体装置,用来储存多种语言语音模型库,至少包括一第一与一第二语言语音模型库。此多语言的文字转语音合成系统可包含ー处理器,此处理器备有ー语音模型挑选模块、ー语音模型合并模块、及ー语音合成器。其中,于ー离线阶段吋,建立一语音单元转换表,以提供给此处理器使用。此语音模型挑选模块对欲合成的含有第二语言的输入文本及对应此输入文本第二语言的部分的一第二语言语音単元序列,在该第二语言语音模型库中,依序找出该第二语言语音単元序列中各语音单元所对应的一第二语音模型,再查询该第二语言转第一语言的语音单元转换表,并依照设定的至少一可调控的ロ音权重參数,决定要采用的一转换组合,选择出一相对应的第一语言语音単元序列,并在该第一语言语音模型库中,依序找出该第一语言语音单元序列中各语音单元所对应的一第一语音模型。此语音模型合并模块将找出的第二与第一语音模型,依照设定的至少一可调控的ロ音权重參数,合并成ー合并语音模型,依序处理该转换组合中所有的转换后,将各合并语音模型依序排列产生ー合并语音模型序列。此合并语音模型序列再套用至此语音合成器,以将输入的文本合成为带有第一语言ロ音的■~-曰1ロ—曰‘ο在又一实施例中,所揭露的是关于一种多语言的文字转语音合成方法。此方法是执行于ー计算机系统中,此计算机系统备有一记忆体装置,用来储存多种语言语音模型库,至少包括一第一与一第二语言语音模型库。此方法包含对欲合成的含有第二语言的输入文本及对应此输入文本第二语言的部分的一第二语言语音単元序列,在该第二语言语音模型库中,依序找出该第二语言语音単元序列中各语音单元所对应的一第二语音模型后,再查询ー第二语言转第一语言的语音单元转换表,并依照设定的至少一可调控的ロ音权重參数,决定要采用的一转换组合,选择ー相对应的第一语言语音単元序列,并在该第一语言语音模型库中,依序找出该第一语言语音単元序列中各语音单元所对应的一第一语音模型;依照设定的至少一可调控的ロ音权重參数,将找出的第二与第一语音模型,合并成ー合并语音模型,依序处理该转换组合中所有的转换后,将各合并语音模型依序排列产生ー合并语音模型序列;以及将此合并语音模型序列套用至ー语音合成器,并将欲合成的输入文本以此语音合成器合成为带有第一语言ロ音的一第二语言语音。以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。图1是ー种多语言的文字转语音合成系统的ー个范例示意图,与所揭露的实施范例一致;图2是ー范例示意图,说明语音单元转换表建立模块如何产生语音单元转换表,与所揭露的实施范例一致;图3说明动态编程的细节,与所揭露的实施范例一致;图4是ー范例示意图,说明在线阶段吋,各模块的运作,与所揭露的实施范例一致;图5是ー范例流程图,说明一种多语言的文字转语音合成方法的运作,与所揭露的实施范例一致;图6是多语言的文字转语音合成系统执行于ー计算机系统中的ー范例示意图,与所揭露的实施范例一致。其中,附图标记100多语言的文字转语音合成系统101离线阶段102在线阶段Ll第一语言L2第二语言110语音单元转换表建立模块112带有Llロ音的L2语料库114Ll语音模型库116L2转Ll的语音单元转换表120语音模型挑选模块122输入文本及对应文本的语音单元序列126L2语音模型库128Ll语音模型库130语音模型合并模块132合并语音模型序列140语音合成器142带有Llロ音的L2语音150可调控的ロ音权重參数202声音文件204语音单元序列212自由音节式语音识别214音节识别结果216音节转成语音单元218动态编程300L2转Ll的语音单元转换表的例子511-5133条路径614第一语言模型616第二语言模型622合并语音模型步骤710准备带有第一语言ロ音的一第二语言语料库及ー第一语言语音模型库,来建构ー第二语言转第一语言的语音单元转换表步骤720对欲合成的一含有第二语言的输入文本,及对应输入文本第二语言的部分的一第二语言语音単元序列,在一第二语言语音模型库中,依序找出该第二语言语音单元序列中各语音单元所对应的一第二语音模型后,再查询ー语音单元转换表,并依照设定的一可调控的ロ音权重參数,决定要采用的一转换组合,决定出一相对应的第一语言语音単元序列,并在ー第一语言语音模型库中,依序找出该第一语言语音単元序列中各语音单元所对应的第一语音模型步骤730依照设定的至少一可调控的ロ音权重參数,将找出的两语音模型,合并成一合并语音模型,依序处理该转换组合中所有的转换后,将各合并语音模型依序排列产生一合并语音模型序列步骤740将此合并语音模型序列套用至ー语音合成器,将欲合成的输入文本以此语音合成器合成为带有第一语言ロ音的一第二语言语音800多语言的文字转语音合成系统810处理器890记忆体装置具体实施例方式下面结合附图对本揭露的结构原理和工作原理作具体的描述本揭露实施例欲提供一种音韵模型统合的多语言文字转语音合成技木,并且建立一种调整机制来调整非母语语句所帯的母语ロ音的权重,让合成的语音在跨不同语言区块时,能因应使用的情境来决定如何处理非母语的文字。让合成的语音在跨不同语言区块时韵律更加自然,发音腔调也更符合多数人所习惯的方式。換言之,本揭露实施例将非母语,即第二语言(secondlanguage,L2),的文字转换成带有母语ロ音,即第一语言(firstIanguagel,Li)ロ音,的L2语音。本揭露实施例是可用參数调整语音单元序列的对应以及语音模型的合井,来使非母语文字的发音(pronunciation)与韵律(prosody)可以在两种极端范围中作调整。换句话说,在完全維持其原标准发音至完全改成以母语方式发音之间作调整。以解决目前合成多语言文字吋,韵律或发音不自然的问题,并且可依照喜好的程度进行最佳的调整。图1是ー种多语言的文字转语音合成系统的ー个范例示意图,与所揭露的某些实施范例一致。图1的范例中,多语言的文字转语音合成系统100包含ー语音模型挑选模块120、ー语音模型合并模块130及ー语音合成器140。于ー在线(on-line)阶段102时,语音模型挑选模块120对输入文本及对应文本的语音单元序列122,在L2语音模型库1中,依序找出第二语言语音単元序列中各语音单元所对应的第二语音模型,再查询ーL2转Ll的语音单元转换表116,并依照设定的一可调控的ロ音权重參数150,决定要采用的一转换组合,选择ー相对应的第一语言语音単元序列,并在Ll语音模型库1中,依序找出第一语言语音单元序列中各语音单元所对应的第一语音模型。7语音模型合并模块130,依照设定的可调控的ロ音权重參数150,在L2语音模型库126中找出的各语音单元所对应的模型(即第二语音模型),及Ll语音模型库128中找出的各语音单元所对应的模型(即第一语音模型),依据采用一转换组合,合并成ー合并语音模型,依序处理该转换组合中所有的转换后,将各合并语音模型依序排列产生合并语音模型序列132。此合并语音模型序列132再套用至语音合成器140,合成为Ll语音及带有Llロ音的一L2语音142。多语言的文字转语音合成系统100可再包括一语音单元转换表建立模块110,于ー离线(off-line)阶段101吋,语音单元转换表建立模块110根据带有Llロ音的一L2语料库112及一Ll语音模型库114,产生L2转Ll的语音单元转换表116。在上述中,Ll语音模型库114是供语音単元转换表建立模块110所使用,而Ll语音模型库1则供语音模型合并模块130所使用,两语音模型库114及1可以采用相同的特征參数,也可以采用不同的特征參数,但L2语音模型库1采用的參数与Ll语音模型库1是采用相同的特征參数。欲合成的输入文本122可以是同时包含Ll以及L2的文本,例如中英夹杂的句子他今天感觉很high、Cindy昨天mail给我、这件衣服是M号的。此时Ll为中文语言,L2为英语,而合成语音在Ll的部分維持正常发音不变,L2的部分则合成带有Llロ音的L2语音。输入文本122也可以是只包含L2的文本,例如合成带有台语ロ音的中文语言,此时Ll为台语,L2为中文语言。也就是说,欲合成的输入文本122至少含有L2的文本,对应文本的语音単元序列至少含有L2的语音单元序列。图2是ー范例示意图,说明语音单元转换表建立模块110如何产生语音単元转换表,与所揭露的某些实施范例一致。在离线阶段吋,如图2的范例所示,建构L2转Ll的语音単元转换表的流程可包含如下(1)准备带有Llロ音的L2语料库112,此L2语料库112包含有多个声音文件202以及与声音文件相对应的多个语音単元序列204。(2)从L2语料库112中挑选出ー个声音文件以及与此声音文件的内容相对应的一L2语音单元序列,将此声音文件以Ll语音模型库114来进行自由音节(freesyllable)式语音识别212,产生音节识别结果214;关于音调(pitch)方面也可采取类似的方式以自由声调识别(freetonerecognition)的结果作对应,也就是说,也可再包括进行ー自由声调式识别来产生识别结果214,此时结果为具声调的音节(tonalsyllable)0(3)将Ll语音模型库114产生的音节识别结果214,通过音节转成语音単元216处理,转成ーLl语音单元序列,(4)将步骤O)的L2语音单元序列及步骤C3)转成的Ll语音单元序列利用动态编程(DynamicProgramming,DP)218来进行语音单元校准(alignment),完成动态编程后,即可得到ー笔转换组合。也就是说,利用该动态编程来找出该L2语音单元序列与该Ll语音单元序列的语音单元对应与转换类型。重复上述步骤(、(3)、(4)便可得到众多的转换组合,统计所得到的众多转换组合就可完成L2转Ll的语音单元转换表116。此语音単元转换表可包含三种类型的转换,分别为代换(substitution)、插入(insertion)及删除(deletion),其中代换是一対一的转换,插入是ー对多的转换,删除是多对ー的转换。举例说明,假设从带有Ll(中文)ロ音的L2(英文)语料库112中ー个声音文件为SARS,其L2语音单元序列为Sa:rs(国际音标表示法,语音单元为音素)。而此声音文件由Ll语音模型库114进行自由音节式语音识别212后,产生其音节识别结果214,经音节转成语音单元216处理后,Ll(中文)语音单元序列例如为“sasi(汉语拼音表示法,语音单元为声母/韵母)”。将L2语音单元序列“sa:rs”及Ll语音单元序列“sasi”利用动态编程218进行语音単元校准后,例如找到s-s的代换、a:r-a的删除及sヰsi的插入等转换,此即为得到一笔转换組合。利用动态编程218进行语音単元校准的方法举例说明如下。例如使用五个状态(5-state)的隐马可夫模型(HMM)来描述ー个语音模型,每个状态的特征參数假设为梅尔倒频谱(mel-cepstrum),维度(dimension)假设为25維,特征參数各维度的数值分布为高斯分布(Gaussiandistribution),以高斯密度函数g(μ,Σ)来表示,其中μ为平均值向量(维度为25Χ1),Σ为共变异矩阵(维度为25X25),属于Ll的第一语音模型表示为も(μΣD,属于L2的第二语音模型表示为&(μ2,Σ2)。在动态编程过程中,可利用ー种统计学上计算两离散概率分布之间的距离的巴特查里亚距离(Miattacharyyadistance)来计算两语音模型之间的本地距离,作为动态编程中的本地距离。巴特查里亚距离b如公式⑴所示,权利要求1.一种多语言的文字转语音合成系统,其特征在干,该系统包含ー语音模型挑选模块,对欲合成的-含有一第二语言的输入文本及对应此输入文本的该第二语言的部分的一第二语言语音単元序列,在一第二语言语音模型库中,依序找出该第二语言语音単元序列中各语音单元所对应的一第二语音模型后,再查询ー第二语言转第一语言的语音单元转换表,并利用设定的至少一可调控的ロ音权重參数,决定要采用ー转换组合,选择出一相对应的第一语言语音単元序列,并在该第一语言语音模型库中,依序找出该第一语言语音単元序列中各语音单元所对应的一第一语音模型;ー语音模型合并模块,将找出的该第二语音模型与该第一语音模型,依照设定的该至少一可调控的ロ音权重參数,合并成ー合并语音模型,依序处理该转换组合中所有的转换后,将各合并语音模型依序排列产生ー合并语音模型序列;以及ー语音合成器,该合并语音模型序列被套用至该语音合成器,并且该语音合成器将该欲合成的输入文本合成为带有第一语言ロ音的一第二语言语音。2.根据权利要求1所述的系统,其特征在干,一语音单元转换表建立模块于一离线阶段吋,通过ー语音単元转换表建立模块,根据带有第一语言ロ音的一第二语言语料库及ー第一语言语音模型库,产生该第二语言转第一语言的语音单元转换表。3.根据权利要求1所述的多语言的文字转语音合成系统,其特征在干,该语音模型合并模块将找出的该第二语音模型与该第一语音模型以ー权重方式计算,合并成该合并语音模型。4.根据权利要求1所述的多语言的文字转语音合成系统,其特征在于,该第二语音模型与该第一语音模型至少包含一声学參数。5.根据权利要求1所述的多语言的文字转语音合成系统,其特征在于,该第二语音模型与该第一语音模型还包括一音长參数及一音调參数。6.一种多语言的文字转语音合成系统,执行于ー计算机系统中,该计算机系统备有一记忆体装置,至少储存一第一与一第二语言语音模型库,其特征在于,该文字转语音合成系统包含ー处理器,该处理器备有ー语音模型挑选模块、ー语音模型合并模块、及ー语音合成器,该语音模型挑选模块对欲合成的一含有第二语言的输入文本及对应此输入文本第二语言的部分的一第二语言语音単元序列,在该第二语言语音模型库中,依序找出该第二语言语音单元序列中各语音单元所对应的一第二语音模型,再查询ー第二语言转第一语言的语音単元转换表,并利用设定的至少一可调控的ロ音权重參数,决定要采用ー转换组合,选择出一相对应的第一语言语音単元序列,并在该第一语言语音模型库中,依序找出该第一语言语音单元序列中各语音单元所对应的一第一语音模型,该语音模型合并模块将找出的该第二语音模型与该第一语音模型,依照至少一可调控的ロ音权重參数,合并成ー合并语音模型,处理该转换组合中所有的转换后,将各合并语音模型依序排列产生ー合并语音模型序列,该合并语音模型序列再套用至该语音合成器,以合成为带有第一语言ロ音的第二语7.一种多语言的文字转语音合成方法,执行于ー计算机系统中,该计算机系统备有一记忆体装置,至少储存一第一与一第二语言语音模型库,其特征在干,该方法包含对欲合成的含有第二语言的输入文本,利用对应此输入文本第二语言的部分的一第二语言语音単元序列,在该第二语言语音模型库中,依序找出该第二语言语音単元序列中各语音单元所对应的一第二语音模型后,再查询ー第二语言转第一语言的语音单元转换表,并依照设定的至少一可调控的ロ音权重參数,决定要采用的一转换组合,选择ー相对应的第一语言语音単元序列,并且在该第一语言语音模型库中,依序找出该第一语言语音単元序列中各语音单元所对应的一第一语音模型;依照设定的至少一可调控的ロ音权重參数,将该找出的该第二语音模型与该第一语音模型,合并成ー合并语音模型,处理该转换组合中所有的转换后,将各合并语音模型依序排列产生ー合并语音模型序列;以及将该合并语音模型序列套用至ー语音合成器,并将欲合成的输入文本以该语音合成器合成为带有第一语言ロ音的一第二语言语音。8.根据权利要求7所述的多语言的文字转语音合成方法,该方法还包括建构该语音单元转换表,其特征在干从ー带有第一语言ロ音的第二语言语料库中挑选出多个声音文件以及与声音文件相对应的多个第二语言语音単元序列;对挑选出的该多个声音文件的每一声音文件,由一第一语言语音模型来进行ー自由音节式语音识别,产生ー识别结果并将该识别结果转成一第一语言语音単元序列,并且将与该声音文件相对应的一第二语言语音単元序列及转成的该第一语言语音単元序列利用一动态编程来进行语音単元校准,完成该动态编程后,得到一笔转换組合;以及统计由上述所得到的多笔转换組合,产生该语音单元转换表。9.根据权利要求8所述的多语言的文字转语音合成方法,其特征在干,该动态编程还包括利用一种统计学上计算两离散概率分布之间的距离的巴特查里亚距离来计算两语音単元之间的本地距离。10.根据权利要求7所述的多语言的文字转语音合成方法,其特征在干,该语音单元转换表包含代换、插入、及删除,共三种类型的转换。11.根据权利要求10所述的多语言的文字转语音合成方法,其特征在干,代换是ー对一的转换,插入是一对多的转换,删除是多对ー的转换。12.根据权利要求10所述的多语言的文字转语音合成方法,其特征在于,该方法利用该动态编程,找出该欲合成的输入文本的对应语音単元与转换类型。13.根据权利要求7所述的多语言的文字转语音合成方法,其特征在干,该合并语音模型还包括以一高斯密度函数表示为gnew(y_,ΣnJ,并以下列的形式来表达μnew=w*μi+(l-wフ2Σnew=w*(Σ1+(y1-ynew)2)+(i-w)*(Σ2+(U2-Unew)2)其中,该找出的第一语音模型以高斯密度函数表示为も(μ”Σi),该找出的第二语音模型以高斯密度函数表示为&2,Σ2),μ为平均值向量,Σ为共变异矩阵,0≤w≤1。14.根据权利要求8所述的多语言的文字转语音合成方法,其特征在干,产生该识别结果还包括进行ー自由声调式识別。全文摘要一种多语言的文字转语音合成系统与方法,将欲合成的文本,通过一语音模型挑选模块及一语音模型合并模块处理,利用一离线阶段得到的一语音单元转换表,于一在线阶段时,此语音模型挑选模块,依据输入文本及对应文本的语音单元序列,利用设定的至少一可调控的口音权重参数,选择要采用的一转换组合,找出一第二语音模型及一第一语音模型,此语音模型合并模块依照设定的至少一可调控的口音权重参数,将找出的两语音模型合并成一合并语音模型,处理该转换组合中所有的转换后,产生一对应输入之语音单元序列的合并语音模型序列,然后利用一语音合成器以及此合并语音模型序列将文本合成带有第一语言口音的第二语言语音。文档编号G10L13/08GK102543069SQ20111003469公开日2012年7月4日申请日期2011年1月30日优先权日2010年12月30日发明者李振宇,涂家章,郭志忠申请人:财团法人工业技术研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1