为文语转换合成选取用于确定发音波形的语音标识符的制作方法

文档序号：2821595阅读：284来源：国知局

专利名称：为文语转换合成选取用于确定发音波形的语音标识符的制作方法
技术领域：
本发明一般涉及文语转换(Text-To-Speech，TTS)合成。本发明特别用于为诸如粤语的汉语方言确定中文字符文本段的适当合成发音，但并不必限定于此。
背景技术：
文语转换(TTS)通常是指从连串的文本到语音的合成，允许电子设备接收输入文本串并以合成语音的形式提供该文本串的转换表示。但是，可能需要从非确定性数量的接收文本串开始合成语音的设备将在提供高质量逼真合成语音方面存在困难。该困难主要是因为要合成的每个单词或音节(对于中文字符或类似语言字符)的发音是上下文相关并且位置相关的。例如，句子(输入文本串)末尾的单词的发音可能会拖长或者延长。甚至在句子的中间处，只要需要强调，就有可能将相同字的发音延长。
当进行TTS时，文本段或文本串首先被转换成具有相关联的韵律参数的音素流。然后，将音素和韵律参数用于从语料库中选取合适的波形。但是，当进行有关中文字符的文本串的TTS以提供中文方言合成语音时，为了获得表现中文字符的相对准确的合成声音，必须克服大量的问题。首先，中文字符到特定目标方言(例如粤语)之间并不总是一一映射的，其中字符或字词的发音与其上下文以及在句子中所处的位置有关。其次，地名和家庭成员名可能不容易从中文字符转换成目标方言。第三，方言通常具有正式和非正式的发音，因此TTS合成必须确定何时使用正式发音、何时使用非正式发音。
在本说明书及权利要求中，术语“包括、包含(comprises、comprising)”或类似的术语意旨涵盖非排他性的包含，因此，包括一系列元素的方法或装置并非仅包括所列出的那些元素，还应很好地包括其他未列出的元素。

发明内容
根据本发明的一个方面，提供了一种为文语转换合成选取用于确定发音波形的语音标识符的方法，所述方法包括(i)选取字符串；(ii)确定所述字符串是否在主词典中；(iii)将所述字符串分割成单独的字符，所述分割过程是在所述字符串不在主词典中时实施的；(iv)检索规则集，以确定单独的字符是否具有在所述规则集中标识的语音标识符；和(v)为具有在规则集中标识的语音标识符的所述单独字符选取上下文敏感语音标识符，所述上下文敏感标识符是通过将规则集中的规则应用于所述单独字符而选取的，其中，所述应用过程包括在句中或短语内确定所述单独字符的上下文。
优选地，确定步骤(ii)还包括如下步骤(vi)检索规则集，以确定所述字符串是否具有在规则集中标识的语音标识符，所述检索过程只在字符串不在主词典中时实施；和(vii)如果其标识符是在规则集中标识的，为所述字符串选取上下文敏感语音标识符，所述上下文敏感语音标识符是通过将规则集中规则应用于所述字符串而选取的，其中，所述应用过程包括在句中或短语内确定所述字符串的上下文。
优选地，确定步骤(ii)还包括如下步骤(viii)检查所述字符串是否具有标识所述字符串的相关联的标记或者控制字符，所述检查过程只在字符串不在主词典中时实施；和(ix)当所述字符串具有相关联的标记或控制字符时，在主词典中为所述字符串选取正式的语音标识符。
优选地，确定步骤(ii)还包括如下步骤(x)检索规则集，以确定所述字符串是否具有在规则集中标识的语音标识符；和(xi)为具有在规则集中标识的其语音标识符的所述字符串选取上下文敏感语音标识符，所述上下文敏感语音标识符是通过将规则集中的规则应用于所述字符串而选取的，所述应用过程包括在句中或短语内确定所述字符串的上下文，并且其中，当所述字符串不具有在规则集中标识的其语音标识符时，所述字符串将其语音标识符选取作为由主词典标识的非正式或缺省的标识符。
优选地，所述方法进一步的特征在于，主词典中至少一些字符具有正式和非正式的语音标识符。
优选地，选取步骤(v)还包括如下步骤(xii)当单独字符不具有在规则集中标识的语音标识符时，检索字符发音词典，所述字符发音词典包括单独字符和相应的语音标识符；和(xiii)为每个单独的字符从所述字符发音词典中选取语音标识符。
优选地，所述方法还包括为每一所选取的语音标识符进行语音合成的步骤。
优选地，所述语音合成是通过语音标识符在发音语料库中选取发音波形来进行的。
优选地，所述方法是在电子设备上进行的。电子设备可优选地包括用于接收字符串的无线通信模块。
优选地，所述方法包括分割文本串从而提供所述字符串的在先步骤。

为了使本发明易于理解并付诸实施，现在参考附图来引用如所述的优选实施例，在附图中图1是用于本发明的电子设备的示意框图；和图2A到2C图示说明方法200，在图1的语料库中选取用于确定发音波形的语音标识符。
具体实施例方式
参看图1，以无线电话的形式图示说明了电子设备100，包括设备处理器102，设备处理器102通过总线103有效连接到用户接口104，用户接口104通常为触摸屏或显示屏和键盘。电子设备100还具有发音语料库106、语音合成器110、非易失性存储器120、只读存储器118和无线通信模块116，它们都通过总线103有效连接到处理器102。语音合成器110具有连接以驱动扬声器112的输出。语料库106包括单词或音素的表现以及相关联的、采样的、数字化的并且处理过的发音波形PUW。换句话说，如下所述，非易失性存储器120(存储器模块)提供文本串用于文语转换(TTS)合成(可通过模块116或其他模块来接收文本)。同时，波形发音语料库还包括位于转录(transcription)中的相同字的聚类(cluster)的表现出的发音波形，表示短语和相应的采样的、数字化的发音波形，位于相对于如下所述的自然短语边界的位置。
如本领域技术人员所认识到的，射频通信单元116通常是具有公共天线的组合接收器和发射器。射频通信单元116具有收发器，收发器通过射频放大器连接到天线。收发器还连接到组合调制器/解调器，组合调制器/解调器将通信单元116连接到处理器102。同时在本实施例中，非易失性存储器120(存储模块)储存用户可编程电话簿数据库Db，只读存储器118储存用于设备处理器102的操作码(OC)、主词典(PLX)、特例词典(SCLX)、字符发音词典(CPLX)、知识基础规则集(Knowledge-Base Rule Set，KBRS)和用于实施如下所述方法的代码。
表1中示出了部分主词典(PLX)，其包括单词字段(WF1)、正式/非正式标志字段和单词语音标识符字段(PIF1)。单词字段WF1包括一个或多个字符的单词，对于单词字段WF1中的每一个单词，在正式/非正式标志字段中将设置或不设置相应的标志。同时，单词语音标识符字段PIF1中还有一个或多个相应的语音标识符，实践中，相应的语音标识符标识了发音语料库106中的哪个发音对应于单词字段WF1中的单词。
参看下面的表1，如果没有为单词字段WF1中的给定单词在正式/非正式标志字段中设置标志的话，那么就只有一个可能的发音标识在语音标识符字段PIF1中。例如，在表1中，单词“儿子”的相应标志没有设置，所以只有一种可能的(唯一的)发音“Ji(4)Zi(2)”标识在单词语音标识符字段PIF1中。反过来，如果为单词字段WF1中的给定单词在正式/非正式标志字段中设置了标志的话，那么在语音标识符字段PIF1中就有多种可能的发音标识。例如，在表1中，设置了单词“没有”的相应标志，所以至少有两种可能的发音“a)Mut(6)jau(2)”和“b)mou(5)”标识在单词语音标识符字段PIF1中。此处，“Mut(6)jau(2)”是正式发音，用于正式或商业交谈中，而“mou(5)”是非正式发音，用于非正式的日常交谈中。因此，本领域技术人员将认识到，语音标识符字段PIF1中的所有类型“a)”的语音标识符都是非正式或缺省的发音标识符(即，Hok(6)zap(6)；Ji(4)Zi(2)；Mut(6)jau(2)等)，而所有类型“b)”的语音标识符都是正式的标识符(即，ngo(5)dei(6)；mou(5)等)。
表1主词典PLX

参看下面的表2，说明了部分字符发音词典CPLX。字符发音词典CPLX包括单独字符字段(ICF)和字符语音标识符字段(PIF2)。单独字符字段ICF只包括单独字符，字符语音标识符字段PIF2具有对应于单独字符字段ICF中单独字符的一个或多个标识符。例如，单独字符字段ICF中的单独字符“子”在字符语音标识符字段PIF2中只有一个相应的字符语音标识符，标识发音语料库106中的唯一发音“Zi(2)”。反过来，单独字符字段ICF中的单独字符“曾”在字符语音标识符字段PIF2中具有两个相应的字符语音标识符，标识发音语料库106中的两种可能的发音。这两种发音是(a)第一或缺省发音“Zang(1)”；和(b)第二可能发音“Cang(4)”。
表2部分字符发音CPLX

参看下面的表3A和3B，示出了特例词典SCLX，用于方言中特殊的单词，例如地名(表3A)和家庭成员名(表3B)。如本领域技术人员所认识到的，特例词典SCLX可能包括在主词典PLX中，但为了多种方言的维护和灵活性，特例词典SCLX不包括在主词典PLX中。在表3A中，地名字符字段PNCF包括公知的地名(对于特定方言公知)的中文字符写法，还有语音标识符的特例语音标识符SCPI字段，用于标识发音语料库106中的哪个发音对应于地名字符字段PNCF中的单词。同时，表3B具有家庭成员名字段FMF，包括公共使用的家庭成员名(对于特定方言公知)的中文字符写法。还有语音标识符的特例语音标识符SCPI字段，用于标识发音语料库106中的哪个发音对应于家庭成员名字段FMF中的单词。
表3A用于地名的部分特例词典SCLX

表3B用于家庭成员名的部分特例词典SCLX

参看下面的表4，示出了部分知识基础规则集KBRS。KBRS包剂图像探测传感器30b是否探测到由怀疑处理盒中的显影剂形成的显影剂图像(S44和S45)。这些步骤产生表2中给出的如下结果E-H，表2表示在显影剂图像探测传感器30a和30b的输出与用于成像的处理盒的准备就绪之间的关系。
表2

为了更详细地描述，在这些步骤中，驱动力被连续传递得长得足以完全牵引显影剂密封46。因而，结果E应该产生，即期望显影剂密封46完全被牵引。在这种情况下，即当由两个显影剂图像探测传感器30a和30b都探测到显影剂图像时，引擎控制器61确定怀疑处理盒已经准备好，并且显示怀疑处理盒准备好的信息(S46)。此后，执行显影剂图像擦除过程(S48)，并且结束处理盒准备就绪确定工序(S49)。
结果G指示显影剂图像探测传感器30a探测到显影剂图像(S44)而显影剂图像探测传感器30b没有探测到显影剂图像(S45)。结果H代表其中显影剂图像探测传感器30a没有探测到显影剂图像(S44)而显影剂图像探测传感器30b探测到显影剂图像(S50)的情形。关于处理盒的状态，结果G和H代表显影剂容器41已经完全耗尽显影剂(没有显影剂)或者由于诸如机械和/或电气故障之类的异常等不能完全牵引显影剂密封46的情形。在这些情况下，引擎控制器61<p>在步骤220之后，方法执行检索主词典的步骤230，此时检索主词典PLX单词字段WF1中的单词，寻找与字符串CHS的匹配。然后，实施测试步骤240，用于确定是否在单词字段WF1中找到了字符串CHS的相同单词匹配(确定是否为主词典PLX中的字符串CHS)。如果没有找到匹配(字符串不在主词典PLX中)，则方法200执行检索步骤250，用于检索特例词典SCLX。
如果测试步骤260确定字符串CHS不在特例词典SCLX中，那么分割字符串步骤265将字符串CHS分割成单独字符(ICH)以创建包含字符串CHS的单独字符的字符集。实施检索知识基础规则集KBRS步骤270，用来确定单独字符ICH是否在知识基础规则集KBRS中(换句话说，步骤270的检索确定单独字符是否具有在规则集中标识的语音标识符)。如果在测试步骤280确定没有单独字符ICH在知识基础规则集KBRS中的话，选取步骤290就在字符发音词典CPLX中选择缺省的语音标识符。在单独字符不具有在规则集中标识的语音标识符时检索字符发音词典CPL，字符发音词典包括单独字符和相应的语音标识符，然后从字符发音词典中为每个单独字符选取语音标识符，由此实现选取步骤。在步骤290之后，在步骤400，通过缺省语音标识符寻址并选取语料库106中的发音波形提供语音合成，提供信号到扬声器112来表现合成的语音。
如果在测试步骤280确定有一个或多个单独字符ICH在知识基础规则集KBRS中的话，方法200就执行确定步骤370，用于使用知识基础规则集KBRS来确定每个单独字符ICH的上下文。此后，选取步骤380根据用于在知识基础规则集KBRS中标识的ICH的每个单独字符的上下文，在字符发音词典CPLX中选取上下文敏感语音标识符。因此，上下文敏感语音标识符用于具有在规则集中标识的语音标识符的单独字符，通过将规则集中的规则应用于单独字符而选取上下文敏感语音标识符，其中，应用过程包括在句中或短语内确定单独字符的上下文。没有在知识基础规则集KBRS中标识的其他的单独字符ICH会被简单地给定其缺省的语音标识符。
在选取步骤380之后，在步骤400通过选取的语音标识符在语料库106中寻址并选取发音波形而提供语音合成，以提供信号到扬声器112用以表现合成的语音。
回到步骤260，如果在测试步骤260确定字符串CHS在特例词典SCLX中，则实施选取步骤300。选取步骤300选取表3A和3B的特例词典SCLX标识的语音标识符。在选取步骤300之后，在步骤400通过选取的语音标识符在语料库106中寻址并选取发音波形而提供语音合成，以提供信号到扬声器112用以表现合成的语音。
回到步骤240，如果在测试步骤240确定字符串CHS在主词典PLX中，则方法240执行进一步的测试步骤310，用于检查是否设置了非正式/正式标志。如果没有设置该标志的话，在主词典中就只有一个与字符串CHS匹配的可能的语音标识符。因此，在选取步骤320，选取由主词典PLX标识的唯一的语音标识符。此后，在步骤400通过选取的语音标识符在语料库106中寻址并选取发音波形而提供语音合成，以提供信号到扬声器112用以表现合成的语音。
如果在步骤310确定设置了非正式/正式标志的话，就有多个可能的语音标识符。因此，方法200必须确定使用哪个标识符，所以测试步骤330确定字符串CHS是否具有标识字符串类型(即，书籍、电影、电视剧等)的相关标记。这样的标记是控制字符，包括诸如“{…}”、“(…)”、“<…>”的括号，还可以是诸如引文(quotation)和“/…/”、“|…|”、“*…*”、“#…#”的特殊控制字符，在这些控制字符中间插入了一组包括字符串CHS的字符。如果有相关的一个或多个标记的话，就实施选取步骤340，从而为选取的字符串选取由主词典PLX标识的正式的语音标识符。可替换地，如果没有相关的一个或多个标记的话，就实施检索知识基础规则集步骤345，以确定字符串CHS是否在知识基础规则集KBRS中。如果在测试步骤350确定字符串CHS不在知识基础规则集KBRS中的话，就实施选取步骤355，由此(为字符串CHS)选取由主词典PLX标识的非正式的语音标识符。但是，如果在测试步骤350确定字符串CHS在知识基础规则集KBRS中的话，就实施选取步骤360，由此(为字符串CHS)选取由主词典PLX以及知识基础规则集KBRS中的规则标识的正式的语音标识符。因此，如果字符串CHS具有在规则集中标识的语音标识符的话，选取步骤360就为字符串选取上下文敏感语音标识符，通过将规则集中的规则应用到字符串CHS而选取上下文敏感语音标识符，其中，应用过程包括在句中或短语内确定字符串的上下文。
在步骤340、355或360中任意一个之后，在步骤400通过选取的语音标识符在语料库106中寻址并选取发音波形而提供语音合成，以提供信号到扬声器112用以表现合成的语音。在语音合成400之后，结束测试步骤410确定是否还有字符串CHS要处理，当没有字符串要处理时，方法200在结束步骤420终止，否则方法200返回到接收步骤220。
本发明有利地允许基于中文字符文本串的TTS，从而提供诸如粤语的汉语方言的合成语音。本发明实质上执行选取字符串；并确定字符串是否在主词典PLX中。当字符串不在主词典中时，将字符串分割成单独字符，检索知识基础规则集KBRS以确定单独字符是否具有在规则集中标识的语音标识符。此后，为具有在知识基础规则集KBRS中标识的语音标识符的单独字符选取上下文敏感语音标识符。通过将规则集中的规则应用到单独字符而选取上下文敏感语音标识符，其中，应用过程包括在句中或短语内确定单独字符的上下文。知识基础规则集KBRS同时也用于在主词典PLX中标识的字符串CHS。并且特例词典SCLX和用于书籍、电视剧等的标记还增加了本发明的优点。因此，本发明使得字符或单词的发音与其上下文、方言地名和家庭成员名以及正式和非正式的方言发音相关。
为了进一步理解本发明的优点，提供了下面的例子。
例1在选取步骤220选取字符串CHS“击球手”，然后步骤240将确定“击球手”在主词典PLX中，测试步骤310将确定没有设置正式/非正式标志。因此，在步骤340，为“击球手”标识唯一的发音gik(1)Kau(4)sau(2)。
例2在选取步骤220选取字符串CHS“没有”，然后步骤240将确定“没有”在主词典PLX中，测试步骤310确定设置了正式/非正式标志。因此，在步骤330确定字符串CHS周围存在标记，诸如“<……没有……>”，其中标记中也可以是其它的字符，为“没有”标识正式语音标识符mou(5)。可替换地，如果在字符串CHS周围没有标记的话，那么在步骤330之后，在步骤345检索知识基础规则集KBRS。如果“没有”不在知识基础规则集KBRS中，在步骤355将选取非正式语音标识符Mot(6)Jau(2)。但是，当“没有”在知识基础规则集KBRS中时，在步骤360使用规则字段RFLD中的规则选取a)Mot(6)Jau(2)或选取b)mou(5)。
例3在选取步骤220选取字符串CHS“龙眼洞”，然后步骤240将确定“龙眼洞”不在主词典PLX中，测试步骤260将确定“龙眼洞”在特例词典SCLX中，因此选取语音标识符Lung(4)ngaan(5)dung(2)。
例4在选取步骤220选取字符串CHS“是曾”，然后步骤240将确定“是曾”不在主词典PLX中，测试步骤260确定“是曾”不在特例词典SCLX中，因此将该字符串CHS分割成两个字符“是”和“曾”。由于“曾”是在知识基础字符字段KBCF中标识的，执行步骤370和380，从而为“曾”选取语音标识符zang(1)(因为“是”在“曾”的左边)，并且为“是”给定由字符发音词典标识的其缺省值。
详述的说明仅仅提供了优选示范实施例，并不希望限制本发明的范围、适用性或结构。其实，本优选示范实施例的详细说明是向本领域技术人员提供一种实现本发明优选示范实施例的说明。应该理解，在不背离如所附权利要求中所阐述的本发明的精神和范围的前提下，可以对各元素的功能和结构做出各种不同的改变。
权利要求
1.一种为文语转换合成选取用于确定发音波形的语音标识符的方法，所述方法包括(i)选取字符串(ii)确定所述字符串是否在主词典中；(iii)将所述字符串分割成单独的字符，所述分割过程是在所述字符串不在主词典中时实施的；(iv)检索规则集，以确定所述单独的字符是否具有在所述规则集中标识的语音标识符；和(v)为具有在规则集中标识的语音标识符的所述单独字符选取上下文敏感语音标识符，所述上下文敏感标识符是通过将规则集中的规则应用于所述单独字符而选取的，其中，所述应用过程包括在句中或短语内确定所述单独字符的上下文。
2.如权利要求1所述的方法，其中，所述确定步骤(ii)还包括如下步骤(vi)检索所述规则集，以确定所述字符串是否具有在规则集中标识的语音标识符，所述检索过程只在字符串不在主词典中时实施；和(vii)如果其标识符是在规则集中标识的，为所述字符串选取上下文敏感语音标识符，所述上下文敏感语音标识符是通过将规则集中规则应用于所述字符串而选取的，其中，所述应用过程包括在句中或短语内确定所述字符串的上下文。
3.如权利要求2所述的方法，其中，确定步骤(ii)还包括如下步骤(viii)检查所述字符串是否具有标识所述字符串的相关联的标记或者控制字符，所述检查过程只在所述字符串不在主词典中时实施；和(ix)当所述字符串具有相关联的标记或控制字符时，在主词典中为所述字符串选取正式的语音标识符。
4.如权利要求3所述的方法，其中，确定步骤(ii)还包括如下步骤(x)检索所述规则集，以确定所述字符串是否具有在规则集中标识的语音标识符；和(xi)为具有在规则集中标识的其语音标识符的所述字符串选取上下文敏感语音标识符，所述上下文敏感语音标识符是通过将规则集中的规则应用于所述字符串而选取的，所述应用过程包括在句中或短语内确定所述字符串的上下文，并且其中，当所述字符串不具有在规则集中标识的其语音标识符时，所述字符串将其语音标识符选取作为由主词典标识的非正式或缺省标识符。
5.如权利要求1所述的方法，其中，所述方法进一步的特征在于，主词典中至少一些字符具有正式和非正式的语音标识符。
6.如权利要求1所述的方法，其中，选取步骤(v)还包括如下步骤(xii)当所述单独字符不具有在规则集中标识的语音标识符时，检索字符发音词典，所述字符发音词典包括单独字符和相应的语音标识符；和(xiii)为每个单独的字符从所述字符发音词典中选取语音标识符。
7.如权利要求1所述的方法，其中，所述方法还包括为每一所选取的语音标识符进行语音合成的步骤。
8.如权利要求7所述的方法，其中，所述语音合成是通过语音标识符在发音语料库中选取发音波形来进行的。
9.如权利要求8所述的方法，其中，所述方法是在电子设备上进行的。
10.如权利要求1所述的方法，其中，所述方法包括分割文本串从而提供所述字符串的在先步骤。
全文摘要
本发明说明了一种为文语转换合成选取用于确定发音波形的语音标识符的方法，所述方法包括选取字符串(220)，然后确定所述字符串是否在主词典中(240)。将字符串分割成单独字符(265)，分割过程是在字符串不在主词典中时实施的。然后检索规则集(270)，以确定单独字符是否具有在规则集中标识的语音标识符。接下来是选取步骤(380)，为具有在规则集中标识的语音标识符的单独字符选取上下文敏感语音标识符。上下文敏感语音标识符是通过将规则集中的规则应用到单独字符而选取的，其中所述应用过程包括在句中或短语内确定单独字符的上下文。最后，根据选取的语音标识进行语音合成(400)。
文档编号G10L15/00GK1677488SQ20041003197
公开日2005年10月5日申请日期2004年3月31日优先权日2004年3月31日
发明者祖漪清, 麦耘申请人:摩托罗拉公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：祖漪清;麦耘
技术所有人：摩托罗拉公司
我是此专利的发明人

上一篇：多语种文本-语音系统的前端结构的制作方法
上一篇：便携式终端装置的制作方法