可调适韵律的语音合成方法、装置及其对话系统的制作方法

文档序号:2821274阅读:205来源:国知局
专利名称:可调适韵律的语音合成方法、装置及其对话系统的制作方法
技术领域
本发明是关于一种语音合成方法、装置及其对话系统,特别是关于一种在语音对话中通过撷取用户输入的韵律逐步调适与提升语音合成品质的韵律的语音合成方法、装置及其对话系统。
背景技术
随着时代的脚步,信息技术的进步,信息化与自动化的时代来临,人类与电脑的互动越来越频繁,因此,一种与电脑方便且自然的人性化沟通方式亦随之产生。
请参见图1所示,其是为以语音为沟通介面的对话系统的流程示意图。其中该对话系统10主要是将用户所输入的语音语句通过一语音辨识处理装置11与一语音合成装置15进行处理后产生一语音回复语句,其中该语音辨识处理装置11主要包含有一语音辨识模组12、一语意理解模组13、一对话流程控制模组14,而该语音辨识模组12是将用户所输入的语音语句转为文字输出,而该语意理解模组13将在该语音辨识模组12中所辨识出的文字转为有意义的结构化信息(例如时间、地点或用户的意图等),如此才能做后续的处理。而该对话流程控制模组14则是管理用户产生那些事件,所以相对应要产生那些对话来回应,如果用户所提供的信息仍然不足,对话流程控制模组14会依照其所需要的信息对用户询问或是直接提供对应的答复,在这一问一答的过程中,形成了对话流程,至于,该语音合成装置15则是依照在该对话流程控制模组14所产生的文字语句,通过其中的一文字处理模组16来分析该文字语句的语法与语意后通过一韵律模型17运算出其中各音素的韵律参数,再经过一韵律调整模组18和一音素连结模组19的调整与连结处理,最后产生了回复语句的一语音输出。
此外,一般语音对话系统除了要对用户所输入的语音语句具备强大的理解能力外,在输出回复语句时不仅是要到正确无误的发音,也要提升发音的自然度,即可转换成清晰、流畅、自然的语音输出,而为了进一步提升回复语句在文意上的可理解性以及听觉上的舒适性,这时就更须兼顾语句的韵律(prosody)表现。
以现今的语音合成技术的进展而言,合理可靠的韵律参数值可经由训练精良的模型估测得来。惟,目前的语音对话系统里,专司合成回复语句的装置(即图1中的语音合成装置15)都是独立运作。因此,以图1为例,只要将待回复内容的文字语句输入该语音合成装置15,随即可从输出端取得其语音回复语句。该语音合成装置15在这种运作的模式下,对输入的文字是送往迎来,而和外界的互动也就仅止于此。如此一来,便失去随环境做出适当调适的机会,所以合成语句的韵律参数值,始终就得决定于该语音合成装置15内部的韵律模型17的原始设计,若设计得当,所求得的韵律是不难维持在四平八稳的水准。不过为求韵律的平稳,如此的韵律模型17没有理由要偏爱任何一套对话系统的回复语句,因此对其韵律的估测就不见得能有出色的表现,换句话说,即使该对话系统10在日经月累的使用后,其语音合成装置15对处理该对话系统10内的回复语句仍旧不偏不倚,未曾精进。
纵上所述,由于现今语音对话系统在实际应用上仍具有缺失,因此发明人有鉴于上述习知技术的缺失而发明出本申请「对话系统中可调适韵律的语音合成方法、装置及其对话系统」。

发明内容
本申请的主要目的在于提供一种可调适韵律的语音合成方法、装置及其对话系统,其在对话中通过对用户输入语句中相关韵律信息的撷取,并将其整合在语音合成中的回复语句的韵律参数的计算中,藉以兼顾语句的韵律表现,提升语音合成的自然流畅度。
本申请的另一目的在于提供一种可调适韵律的语音合成方法、装置及其对话系统,可以在与多个用户语音对话后逐步调适语音合成中音素的韵律参数运算以有效提升语音合成品质。
本申请的又一目的为提供一种可调适韵律的语音合成方法,用以在一语音对话系统中产生一语音回复语句,其中该语音对话系统更具有一语音辨识处理程序供一用户输入一语音输入语句经过辨识分析后以产生一文字化的回复语句,该方法是包含下列步骤(a)撷取该语音输入语句中各音素的语音韵律信息;(b)将该语音输入语句中的该等语音韵律信息储存于一数据库中;(c)提供一韵律模型,该韵律模型响应该回复语句的文字组成以计算出对应该文字组成的多个音素的运算韵律信息;(d)响应该回复语句的文字组成,在该数据库中搜寻以撷取出至少部分对应该文字组成的对应音素的语音韵律信息;(e)整合由该韵律模型所取得的运算韵律信息与由该数据库所搜寻出的语音韵律信息以产生对应该文字组成的该等音素的整合韵律信息;以及(f)将对应该文字组成的该等多个音素的整合韵律信息加以连结以产生该语音回复语句。
根据上述构想,该步骤(b)更包含计算该语音输入语句中该等音素的语音韵律信息的韵律参数值。
根据上述构想,该步骤(d)更包含分析该文字组成的语法与语意。
根据上述构想,该步骤(e)的整合方式更包含下列步骤(e1)计算对应该文字组成的其中一音素在该数据库中的出现机率;(e2)依据该出现机率,赋予由该数据库所撷取出的该音素的语音韵律信息一特定权重;(e3)响应该特定权重,赋予由该韵律模型所取得的对应该文字组成的该音素的运算韵律信息一对应权重;以及(e4)根据一加权函数,计算出该音素加权后的整合韵律信息,且其中该特定权重加上该对应权重是等于一定值,其该定值是为1。
根据上述构想,该步骤(f)更包含调整该回复语句中的对应该等多个音素的整合韵律信息。
根据上述构想,该等韵律信息是包含音长、基周轨迹、音量和停顿长度的韵律参数。
根据上述构想,该语音辨识处理程序是包含有一语音辨识步骤、一语意理解步骤和一对话流程控制步骤。
本申请的再一目的为提供一种可调适韵律的语音合成装置,适用于一语音对话系统中以产生一语音回复语句,其中该语音系统更包含一语音辨识处理装置,用以供一用户输入一语音输入语句并经过辨识处理以产生一文字化的回复语句,该语音合成装置包含一韵律模型,响应该回复语句的文字组成以计算出对应该文字组成的多个音素的运算韵律信息;一撷取模组,用以撷取该语音输入语句中各音素的语音韵律信息;一数据库,用以储存由该撷取单元所撷取的语音韵律信息;一控制模组,是与该韵律模型和该数据库分别连结,响应该语音辨识处理装置所产生的该文字化的回复语句的文字组成,分别取得该韵律模型所计算的对应该文字组成的多个音素的运算韵律信息与该数据库中所搜寻出至少部分对应该文字组成的对应音素的语音韵律信息,并加以整合以产生对应该文字组成的该等音素的整合韵律信息;以及一音素连结模组,用以将对应该文字组成的该等多个音素的整合韵律信息加以连结以产生该语音回复语句。
根据上述构想,该语音合成装置更包含一文字处理模组和一韵律调整模组,该文字处理模组用以调整对应该等多个音素的整合韵律信息,而该韵律调整模组用以来分析该回复语句的语法与语意。
根据上述构想,该控制模组更包含一判断单元和一计算单元,其中该判断单元是判断该对应该文字组成的任一音素在该数据库中的出现机率,并赋予由该数据库所撷取的该音素的语音韵律信息一特定权重,同时响应该特定权重,赋予由该韵律模型所取得的对应该文字组成的该音素的运算韵律信息一对应权重,而该计算单元依据该判断单元所决定的该特定权重与该对应权重以计算出该音素加权后的整合韵律信息。
根据上述构想,该语音辨识处理装置是包含一语音辨识模组、一语意理解模组和一对话流程控制模组。
本申请的又一目的为提供一种具可调适韵律语音合成的对话系统,其是包含一语音辨识处理装置,用以供一用户输入一语音输入语句并经过辨识处理以产生一文字化的回复语句;以及一语音合成装置,用以将该回复语句转换成一语音回复语句,该语音合成装置包含一韵律模型和一数据库,该韵律模型是响应该文字化的回复语句的文字组成以计算出对应该文字组成的多个音素的运算韵律信息以及该数据库储存有从该语音输入语句所撷取的语音韵律信息;及其中,响应该文字化的回复语句的文字组成,分别取得该韵律模型所计算的对应该文字组成的多个音素的运算韵律信息与该数据库中所搜寻出至少部分对应该文字组成的对应音素的语音韵律信息,并加以整合以产生对应该文字组成的该等音素的整合韵律信息。
根据上述构想,该语音合成装置更包含一撷取模组,用以撷取该语音输入语句中各音素的语音韵律信息并储存在该数据库中。
根据上述构想,该语音合成装置更包含一控制模组以响应该语音辨识处理装置所产生的该文字化的回复语句的文字组成,从该韵律模型中取得对应该文字组成的多个音素的运算韵律信息与从该数据库中撷取至少部分对应该文字组成的对应音素的语音韵律信息,加以整合以产生对应该文字组成的该等音素的整合韵律信息。
本申请的又一目的为提供一种具可调适韵律语音合成的对话系统,其至少包含一语音辨识处理装置以及一语音合成装置,该语音辨识处理装置是供一用户输入一语音输入语句经过辨识处理以产生一文字化的回复语句,其特征为该语音合成装置撷取该用户所输入的语音输入语句中的语音韵律信息并与响应该文字化的回复语句由一韵律模型所运算出的运算韵律信息进行整合,以产生结合有该用户语音输入语句的一语音回复语句。
本申请的功效与目的,可藉由下列实施方式说明,俾有更深入的了解。


图1是为习用的语音对话系统的流程示意图。
图2是为本申请较佳实施例的一种具有可调适韵律语音合成的对话系统的流程示意图。
主要元件符号说明10对话系统11、20语音辨识处理装置12、21语音辨识模组13、22语意理解模组14、23对话流程控制模组15、30语音合成装置16、31文字处理模组
17、32韵律模型18、36韵律调整模组19、37音素连结模组33撷取模组34数据库35控制模组351判断单元352计算单元具体实施方式
将于下文中说明本发明,熟悉本技术者须了解下文中的说明仅是作为例证用,而不用于限制本发明。
以下针对本申请较佳实施例的对话系统进行描述,但实际的系统配置及所采行的方法并不必须完全符合描述的架构与方法,熟习本技艺者当能在不脱离本发明的实际精神及范围的情况下,做出种种变化及修改。
请参见图2,其是为本申请较佳实施例的一种具有可调适韵律语音合成的对话系统的流程示意图,本申请对话系统主要具有一语音辨识处理装置20与一语音合成装置30,该语音辨识处理装置20是用以供一用户输入一语音输入语句,经过该语音辨识处理装置20辨识处理后产生一文字化的回复语句来供该语音合成装置30将该回复语句转换成一语音回复语句的输出。
其中该语音辨识处理装置20包含有一语音辨识模组21、一语音理解模组22和一对话流程控制模组23,此部份与习用技术相近似,该语音辨识模组21是将用户所输入的语音语句转为文字输出,而该语意理解装置22将在该语音辨识装置21中所辨识出的文字转为有意义的结构化信息,并通过该对话流程控制装置23进行后续处理以对应产生一文字化的回复语句。
此外,该语音合成装置30则是包含了一文字处理模组31、一韵律模型32、一撷取模组33、一数据库34、一控制模组35、一韵律调整模组36和一音素连结模组37,其中该文字处理模组31是分析该文字化的回复语句中的文字组成的语法与语意后转成语言特征参数,用以让对话系统知道该回复语句中哪些是词,哪些是句子,发什么音,怎么发音,发音时到哪应该停顿,停顿多长等等,随后,将这些语言特征参数送入该韵律模型32以运算出这些文字的各种韵律信息的韵律参数,譬如音长(duration)、基周轨迹(pitchcontour)、音量(intensity)和停顿长度(break或pause)等等韵律信息的各种韵律参数。而本申请的韵律模型32也是与习用技术中的韵律模型17(请参见图1)功能相似,即内建有一些运算函数,通过由该文字处理模组31所送入的语言特征参数而自动计算出这些文字可能的各种韵律信息参数。
由于本申请的技术重点在于不同来源的韵律信息的整合,因此为了便于区别其韵律信息的来源,兹将该韵律模型32所运算出的韵律信息称为“运算韵律信息”,该数据库34所储存的韵律信息则是“语音韵律信息”,而整合后的韵律信息而称为“整合韵律信息”。
而该控制模组35则从该韵律模型32中取得其所运算出的运算韵律信息后,并响应该文字处理模组31处理后的文字组成的语言特征而从该数据库34中搜寻是否有对应该文字组成其中任一部份的语音韵律信息并加以撷取,随后对这两个来源(韵律模型32与数据库34)的各种韵律信息经过整合运算后而产生对应该文字组成的多个音素的整合韵律信息。接着,通过该韵律调整模组36对该整合韵律信息进行调整,再通过该音素连结模组37将对应该文字组成的该等多个音素的韵律信息加以连结以产生该语音回复语句。
其中,与该韵律模型32不同者,本申请的数据库34则是通过该撷取模组33,在该用户输入该语音输入语句时同时去撷取该语音输入语句中各音素的语音韵律信息并储存在其中,由于在一般对话系统而言,其回复语句和用户的输入语句一般而言都具有相当的关联性,于是本申请所揭示的对话系统就有效运用用户所提供的此项信息,进而整合在语音合成的韵律参数的计算上,藉以让语音合成后所输出的语音回复语句的韵律能更贴近真实用户所使用的韵律。
至于,关于本申请对输入语句的语音韵律信息的撷取,在撷取输入语句中每一音素的语音韵律信息的韵律参数时,首先必须界定出每一音素在输入语句中开始(Begin)和结束(End)的时间,而这项信息在输入语句的辨识过程中便可获得,所以系统也不需负担额外的运算。每一音素的各种语音韵律信息的韵律参数计算方式如下假设输入语句讯号为[S1,S2,S3,....SN],则音长Duration=End-Begin (1)基周轨迹Pitch_contour=GetPitchContour[SBegin...SEnd] (2)音量Intensity=10log(Σi=BeginEndSi2End-Begin)12---(3)]]>停顿长度Break=Begin(i+1)-End(i)(4)其中,End(i)此音素的结束时间,Begin(i+1)下一音素的开始时间。
于是,该撷取单元33即依照前述方式将该用户所输入的语音输入语句中各音素的语音韵律信息撷取并经过运算后存放在该数据库34中,经过与多个用户相互对话后,该数据库的所累积的语音韵律信息也就更多、更具可信度。
因此,由前面所述,该控制模组35依据该文字处理模组31处理后的文字组成的语言特征以从该数据库34撷取对应该文字组成其中任一部份的语音韵律信息,并取得该韵律模型32中所运算出的运算韵律信息,经过整合计算后以产生对应该文字组成的该等音素的整合韵律信息。而其整合计算的方式则是通过该控制模组35的的判断单元351和一计算单元352来执行,其中该判断单元351是判断该对应该文字组成的任一特定音素在该数据库34中的出现机率,并赋予由该数据库34所撷取的该特定音素的语音韵律信息一特定权重,同时响应该特定权重,赋予由该韵律模型32所取得的该特定音素的运算韵律信息一对应权重。此外,该计算单元352是依据该判断单元351所决定的该特定权重与该对应权重以计算出该音素加权后的整合韵律信息。
对于各个音素的韵律信息的整合运算机制则是可由下列式子所表示WeightDB=f(number_of_prosody_samples)∝number_of_prosody_samples (5)WeightDB+Weightmodel=1(6)Prosody=WeightDB×PSB+Weightmodel×Pmodel(7)
其中,Weightmodel在韵律模型的权重、WeightDB在数据库的权重、Pmodel于韵律模型的韵律信息、PDB于数据库的韵律信息以及Prosody整合后的韵律信息。
其中式(5)即表示了WeightDB是为正比于从取样数量的函数,即对于同样的音素,若可由用户中撷取到语音韵律信息的机会越多,则其权重将越高。且由于在式(6)中WeightDB+Weightmodel是为一定值,所以只要决定了WeightDB的数值,Weightmodel随之产生,因此此音素的整合韵律信息即可决定(如式(7)的权重函数所示)。
举例而言,以回复语句欲合成“台达电子”为例,若“台达电子”在用户所输入的语音输入语句中出现的次数甚为频繁,那么取自数据库34的语音数据自然极具可靠性,所以理应给予较高的权重(如式(5)所示),而原先预设韵律运算方式的韵律模型32的权重也就相对变小(如式(6)所示)。相反的,如果这个语句在用户所输入的语音输入语句中并不常见,零星的样本在统计学上已失去参考价值,此时就应保守看待这项数据,减低权重。
于是,在语音合成中的各项韵律参数的计算上,此项整合运算机制便发挥了“进可攻退可守”的效用,即使该数据库34内完全没有相关的韵律信息可用,原有的韵律模型32仍会安稳的守住最后一道防线,而本申请的对话系统即可根据此项机制,逐步地对语音合成韵律计算进行调整以有效提升语音合成品质。
因此,本申请是设计出一种可调适韵律的语音合成方法、装置及其对话系统以改良原有语音合成部分在合成语音时的呆板与缺乏灵活度,本申请在语音对话中撷取用户的输入语句的韵律信息,并将其整合于回复语句的语音合成的计算上,藉以增进求得的韵律更近真实,提升语音合成时的自然流畅度。
综上所述,本申请确实可提供一种可调适韵律的语音合成方法、装置及其对话系统,是于语音合成装置中额外增设一数据库来储存用户所输入的语音输入语句,并利用整合运算机制来计算出语音合成的输出韵律,于是所输出的回复语句的韵律可以从对话过程中能获得调适而逐步改善,此方法技术简单,可运用领域广泛,实具产业的价值,故依法提出发明专利申请。
以上所述是利用较佳实施例详细说明本发明,而非限制本发明的范围,因此熟知此技艺的人士应能明了,适当而作些微的改变与调整,仍将不失本发明的要义所在,亦不脱离本发明的精神和范围,故都应视为本发明的进一步实施状况。
本申请得由熟习此技术的人士任施匠思而为诸般修饰,然皆不脱本申请权利要求所欲保护者。
权利要求
1.一种可调适韵律的语音合成方法,用以在一语音对话系统中产生一语音回复语句,其中该语音对话系统更具有一语音辨识处理程序供一用户输入一语音输入语句经过辨识分析后以产生一文字化的回复语句,该方法是包含下列步骤(a)撷取该语音输入语句中各音素的语音韵律信息;(b)将该语音输入语句中的该等语音韵律信息储存于一数据库中;(c)提供一韵律模型,该韵律模型响应该回复语句的文字组成以计算出对应该文字组成的多个音素的运算韵律信息;(d)响应该回复语句的文字组成,在该数据库中搜寻以撷取出至少部分对应该文字组成的对应音素的语音韵律信息;(e)整合由该韵律模型所取得的运算韵律信息与由该数据库所搜寻出的语音韵律信息以产生对应该文字组成的该等音素的整合韵律信息;以及(f)将对应该文字组成的该等多个音素的整合韵律信息加以连结以产生该语音回复语句。
2.如权利要求1所述的语音合成方法,其中该步骤(b)更包含计算该语音输入语句中该等音素的语音韵律信息的韵律参数值。
3.如权利要求1所述的语音合成方法,其中该步骤(d)更包含分析该文字组成的语法与语意。
4.如权利要求1所述的语音合成方法,其中该步骤(e)的整合方式更包含下列步骤(e1)计算对应该文字组成的其中一音素在该数据库中的出现机率;(e2)依据该出现机率,赋予由该数据库所撷取出的该音素的语音韵律信息一特定权重;(e3)响应该特定权重,赋予由该韵律模型所取得的对应该文字组成的该音素的运算韵律信息一对应权重;以及(e4)根据一加权函数,计算出该音素加权后的整合韵律信息;及/或该特定权重加上该对应权重是等于一定值,而该定值可为1。
5.如权利要求1所述的语音合成方法,其中该等韵律信息是包含音长(duration)、基周轨迹(pitch contour)、音量(intensity)和停顿长度(break)的韵律参数。
6.如权利要求1所述的语音合成方法,其中该语音辨识处理程序是包含有一语音辨识步骤、一语意理解步骤和一对话流程控制步骤。
7.如权利要求1所述的语音合成方法,其中该步骤(f)更包含调整该回复语句中的对应该等多个音素的整合韵律信息。
8.一种可调适韵律的语音合成装置,适用于一语音对话系统中以产生一语音回复语句,其中该语音系统更包含一语音辨识处理装置,用以供一用户输入一语音输入语句并经过辨识处理以产生一文字化的回复语句,该语音合成装置包含一韵律模型,响应该回复语句的文字组成以计算出对应该文字组成的多个音素的运算韵律信息;一撷取模组,用以撷取该语音输入语句中各音素的语音韵律信息;一数据库,用以储存由该撷取单元所撷取的语音韵律信息;一控制模组,是与该韵律模型和该数据库分别连结,响应该语音辨识处理装置所产生的该文字化的回复语句的文字组成,分别取得该韵律模型所计算的对应该文字组成的多个音素的运算韵律信息与该数据库中所搜寻出至少部分对应该文字组成的对应音素的语音韵律信息,并加以整合以产生对应该文字组成的该等音素的整合韵律信息;以及一音素连结模组,用以将对应该文字组成的该等多个音素的整合韵律信息加以连结以产生该语音回复语句。
9.如权利要求8所述的语音合成装置,更包含一文字处理模组,用以来分析该回复语句的语法与语意。
10.如权利要求8所述的语音合成装置,更包含一韵律调整模组,用以调整对应该等多个音素的整合韵律信息。
11.如权利要求8所述的语音合成装置,其中该控制模组更包含一判断单元和一计算单元;该判断单元是判断该对应该文字组成的任一音素在该数据库中的出现机率,并赋予由该数据库所撷取的该音素的语音韵律信息一特定权重,同时响应该特定权重,赋予由该韵律模型所取得的对应该文字组成的该音素的运算韵律信息一对应权重;及/或该计算单元是依据该判断单元所决定的该特定权重与该对应权重以计算出该音素加权后的整合韵律信息。
12.一种具可调适韵律语音合成的对话系统,其是包含一语音辨识处理装置,用以供一用户输入一语音输入语句并经过辨识处理以产生一文字化的回复语句;以及一语音合成装置,用以将该回复语句转换成一语音回复语句,该语音合成装置包含一韵律模型和一数据库,该韵律模型是响应该文字化的回复语句的文字组成以计算出对应该文字组成的多个音素的运算韵律信息以及该数据库储存有从该语音输入语句所撷取的语音韵律信息;及其中,响应该文字化的回复语句的文字组成,分别取得该韵律模型所计算的对应该文字组成的多个音素的运算韵律信息与该数据库中所搜寻出至少部分对应该文字组成的对应音素的语音韵律信息,并加以整合以产生对应该文字组成的该等音素的整合韵律信息。
13.如权利要求12所述的对话系统,其中该语音合成装置更包含一撷取模组,用以撷取该语音输入语句中各音素的语音韵律信息并储存在该数据库中。
14.如权利要求12所述的对话系统,其中该语音合成装置更包含一控制模组以响应该语音辨识处理装置所产生的该文字化的回复语句的文字组成,从该韵律模型中取得对应该文字组成的多个音素的运算韵律信息与从该数据库中撷取至少部分对应该文字组成的对应音素的语音韵律信息,加以整合以产生对应该文字组成的该等音素的整合韵律信息;及/或该语音合成装置更包含一音素连结模组,用以将该控制模组所产生的对应该文字组成的该等多个音素的整合韵律信息加以连结以产生该语音回复语句。
15.一种具可调适韵律语音合成的对话系统,其至少包含一语音辨识处理装置以及一语音合成装置,该语音辨识处理装置是供一用户输入一语音输入语句经过辨识处理以产生一文字化的回复语句,其特征为该语音合成装置撷取该用户所输入的语音输入语句中的语音韵律信息并与响应该文字化的回复语句由一韵律模型所运算出的运算韵律信息进行整合,以产生结合有该用户语音输入语句的一语音回复语句。
全文摘要
本发明是为一种可调适韵律的语音合成方法、装置及其对话系统,其在对话中通过对用户输入语句中相关韵律信息的撷取,并将其整合在语音合成中回复语句的韵律参数的计算中,藉以兼顾语句的韵律表现,提升语音合成的自然流畅度。
文档编号G10L13/00GK1825430SQ200510052568
公开日2006年8月30日 申请日期2005年2月23日 优先权日2005年2月23日
发明者廖文伟, 沈家麟 申请人:台达电子工业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1