韵律语音文本代码以及它们在计算机化语音系统中的使用的制作方法

文档序号:2828982阅读:416来源:国知局
专利名称:韵律语音文本代码以及它们在计算机化语音系统中的使用的制作方法
技术领域
本发明涉及用于使用新颖的韵律语音文本代码,通常从文本输入提供合成的或人工语音的方法和计算机化系统。
合成的、人工或机器语音具有许多有用的应用,例如,在语音邮件系统、以电子方式启用的设备、汽车、计算机、机器人助理、游戏等等中,在会说话的书和杂志、戏剧及其他娱乐中。本发明延伸到在任何这样的系统中的实现,这从下面的说明中是显而易见。
用于生成人工语音的有用的已知系统一般被描述为级联的系统或共振峰系统。级联的人工语音系统例如可用于交互语音邮件系统中并使用预先录制的完整的短语或句子来产生可容忍的人类语音。然而,这样的系统不适用于将诸如杂志文章或书之类的大量的未知文本转换为语音。共振峰系统在由机器读取文本或以别的方式由计算机化系统处理文本时“实时地(on the fly)”合成小片的类似于元音或浊音的声音,比较适用于这样的较大块的文本。然而,直到目前,这样的共振峰语音系统的输出仍是非常机械、单调或过分像机器读的。
授予Sensimetrics Corporation(Cambridge,MA)的Stevens的美国专利5,748,838公开了一种语音合成方法,该方法使用声门模型来确定十个或更少的高级别参数并使用映射关系将它们转换成三十九个低级别的参数。这些参数输入到语音合成器,使得合成语音比采用要求输入50到60个参数来代表任何特定语音的现有技术的系统更简单些。尽管Stevens专利的公开可能对于其计划的用途是有用的,但是,Stevens专利所使用的元音解剖学的有些机械的模型,不会产生具有有吸引力的人性化质量的语音输出。Stevens专利也没有提供或建议一种用于添加所希望的韵律或控制和修改以合成方式或以人工方式生成的语音的韵律的装置。
如Addison等人共同拥有的美国专利No.6,847,931,共同待审的美国专利申请No.10/334,658(“Addison′658”)和国际专利申请公开WO/2003/065349所描述的,可以用语音训练记号来对要合成的文本进行标记作为发音指南,以确保可理解性。Addison′658在语音合成时可以进行可表达的解析,并通过经过训练的说话者来生成语音元素数据库,该数据库可以被用来实现从文本进行可表达的合成。无论是Lessac系统还是其他已知的系统都没有提供以允许对输出语音的韵律进行控制的方式来向语音合成器传递所希望的韵律的简单方法。
Margaret Prendergast McLean E.P.Dutton & Co.,Inc.(1952)(下文简称为“McLean”)所著的“Good American Speech”描述了对文本进行标记的记号系统,以便就所希望的语调模式、或连续语音中的音高的变化指示阅读者,从而避免诸如单调或奇特的或方言的语调之类的瑕疵。此著作先于使语音计算机化的现代的尝试,现有技术中没有建议McLean语调模式对于解决合成语音时所遇到的现代的问题的任何有用性。此外,McLean的语调模式也缺乏参照音高的任何装置,使得不同说话者难以以一致的方式利用语调模式。
前面的对背景技术的描述可以包括在本发明之前的相关技术不知道的但由本发明提供的见识、发现、理解或发明。这里可能已经具体指出了发明的某些这样的贡献,而它们的上下文中,本发明的其他这样的贡献将变得显而易见。不能仅仅因为一个文献在这里可能已经被引用,就认为其技术领域可能相当不同于本发明的技术领域的该文献的领域类似于本发明的领域。

发明内容
相应地,需要一种简单的方法,用于以允许对输出语音的韵律进行控制的方式向语音合成器传递所希望的韵律。
为实现此目的或其他目的,本发明提供了一种在声学上对文本进行编码,以便用于从文本合成语音的方法,该方法包括以一个或更多个图形符号标记要说出的文本,以向说话者指出要赋予说出的文本的所希望的韵律。本发明还提供了用于语音合成的方法和系统,该语音合成包括韵律代码,或记号,对于用可表达的含义来标记文本,以规定适当的韵律。标记可以包括字形-音素对,其每一对都包括指出可与书面文本一起使用的字形的可见的韵律,和在数字域中起作用的对应的数字音素。
所要赋予的韵律可以包括从包括速度、语调模式、节奏、音感、振幅、重音和气息音的停顿、以及单词和短语短语的正式和非正式的发音的组中选择的一个或更多个韵律元素。
该方法可以包括以图形韵律符号来标记可见的文本或用图形符号的电子形式来以电子方式标记电子文本,以电子方式标记的文本可以作为人类可读的用图形方式标记的文本来显示或打印。
在另一个方面,本发明提供了通过输入到语音合成器的声音编码变量来控制的语音合成器,声音编码变量对应于被用于生成具有所希望的韵律发音的记录的人类语音的韵律规范,以提供实现了所希望的韵律发音的合成的语音输出。
根据本发明的一个实施例,下文描述了用于语音学、结构的新颖的记号系统以及可播放的和非可播放的辅音的指定,以及所谓的四个“Lessac”中性字母,它们的使用产生要合成的新颖的用图形方式标记的文本。
此外,本发明提供了新颖的过程和系统,用于文本到语音转换(在此有时称为“TTS”)或声音识别应用中,该过程包括下列步骤中一个或多个或其所有生成韵律语音规则和它们在语音合成中的应用;韵律语音规则的声音演示;
韵律语音元素的声音数据库;TTS的示范性软件;以及TTS收听者测试。


下面将通过示例,参考附图详细描述本发明的某些实施例、实施和使用本发明的实施例、以及实施本发明的最佳方式,在附图中,类似的附图标记在几个视图中表示类似的部件,其中图1是用结构性NRG元音的Lessac发音记号标记的许多单词和短语的视图;图2显示了根据本发明一个实施例的用于指出文本中的音高变化的韵律图形符号的示例,例如,与文本相关的韵律语调模式内的连续的音调音高变化模式;图3显示了根据本发明一个实施例的用于指出辅音混合中的辅音的所希望发音的韵律图形符号的示例;图4显示了根据本发明一个实施例的用于指出包括跟随着“敲击”辅音混合的“双簧管声”的辅音的所希望发音的韵律图形符号的示例;图5显示了用于指出包括“铙钹声”的敲击辅音组合的所希望发音的韵律图形符号的示例;图6显示了用于指出包括“木制管乐器敲击声”的辅音组合的所希望发音的韵律图形符号的示例;图7显示了用于指出在辅音之间包括中性元音的辅音组合的所希望发音的韵律图形符号的示例;图8显示了用于指出包括Y和W连接词的辅音组合的所希望发音的韵律图形符号的示例;图9显示了用于基于按顺序链接单词(在此情况下为短语)的发音考虑而指出所希望发音的韵律图形符号的示例;图10说明了根据本发明的具有用于规定的韵律(在此情况下为“报告”韵律)的单词重读和语调模式的韵律图形表示法的两个示例的使用;图11以报告样式说明了使用图2-10所说明的Lessac发音记号和韵律图形记号两者的标记的一个示例;以及图12说明了使用图2-10所说明的Lessac发音记号和韵律图形记号两者的标记的另一个示例,此示例是人类感兴趣的样式。
具体实施例方式
在本发明之前,没有用于规定声音的已知的合成器“代码”,也没有代码应该创建的声音记号的任何测量的集合。相应地,本发明使得熟练的语音实践者好比是“合成器”,并使其读出用韵律方式标记的文本的样本,以便获得所希望发音的声音值。根据本发明,这些声音值用于准备新颖的韵律声音数据库,该数据库可被用于语音合成。将这里所描述的新颖的图形标记符号与这里所描述的受控制的数据库记录方法、有用的韵律元素(如语调模式;节奏;重音和气息音的停顿、以及单词和短语的正式和非正式的发音)一起使用,优选情况下,这可以集成到合成或人工语音中。
为改进许多已知的合成语音输出的典型的乏味的机械式的质量,本发明提供了这样的系统、方法和新颖的文本编码技术,它们提供了受控的或标准化的人类语音输入,这些语音输入用于生成声音元素的数据库,这些声音元素可以使用适用于应用适当的声学元素的规则集、通过机器结合到语音中,以提供人性化的语音输出。
理想情况下,人类语音输入和规则集体现了一个或更多个专业语音实践者的教导。在本发明的一个实施例中,使用了语音训练教练的识别的教导。
作为示例,这里将引用Arthur Lessae的关于戏剧艺术和演说的原理,应理解,也可以使用其他语音培训教练的教导或其他语音培训的体系,具体来说,英语之外的其他语言在很多情况下使用相当不同的语音训练教导。理想情况下,这样的其他语音训练技术可以具有规则集,该规则集以有吸引力韵律字符(例如音乐字符)提供了一致的、可轻松地理解的语音输出,如将从这里的教导可以显而易见地看出的那样。语音实践者可以被理解为是在相关的语音培训或训练学科方面经过很好的训练的个人,他们通常在说话能力方面专业地使用他们的语音技巧和知识,例如,作为语音教师、公共讲演者或演员。
以Lessac方法训练过的语音实践者认为语音为像管弦乐般的声音,即,语音是音乐。文本标识了语音的语音参数作为三个元素的相互作用,如Arthur的名为“The Use And Training Of The HumanVoice”,Mayfield Publishing Company,3rd ed.(1997)的书(第二部分,第61页开始)所描述的(下文简称为“Arthur Lessac的书”)。由Lessac标识的三个语音参数是辅音、音调和结构性能量。辅音可以比作“orchestra”,音调比作声音的音乐本身,而结构性能量比作结构性元素对辅音和元音的相互作用。Arthur Lessac将三个语音的语音参数称为元音eNeRGy。Lessac指出,它们都是从要读出的文本派生而来的,这意味着,文本要传递诸如被视为整体的文本的内容、单词的含义和声音、它们的语法上的关系、所使用的语法和消息这些要素。
尽管人类语音是模拟式的声音,说话者可以“作为连续的乐器来播放声音”,有用的是,在连续体中取几个离散点,以讲述无穷可变的可表达的语音的概念,关于这一点,在Arthur Lessac的书的149,以及170到173页进行了具体的描述,该文说明了连续结构性的和音调范围中的“点”值。
Lessac系统提供或多或少的字母数字记号以进行编码,用以达到所希望的发音,以使得单个语音元素,特别是音素、双音素和所谓的“M-ary音素”是可理解的。这些语音元素主要是单个元音和辅音、双元音和辅音混合。
现在请参看图1,被标记的文本包括被标记用于根据Lessac记号进行发音的单词的文本行10,字母数字符号的记号行12位于文本行10的正上方。熟悉如Arthur Lessac的书中所描述的Lessac系统的个人将能够理解行12中的记号所表示的发音指令,并将能够应用它们,以便能够以一致的方式逐一读出行10。下面的表A-E显示了在实施本发明时可以使用的这样的记号的样本。如果文本被很好地标记并且说话者正确地实现标记指令,则结果能产生清楚而可理解的语音。然而,尽管清楚而可理解,根据说话者或语音源的不同,语音可能有点单调或像机器读的。





在2002年12月31日申请的标题为“TEXT TO SPEECH”的Addison等人的美国专利申请No.10/334,658中描述了用于表示可理解的发音的Lessac图形记号的有用性,但没有给出示例,并且没有描述如图1所示的标记的特定实施例。
现在请参看图2,根据本发明,所显示的图形符号用于指出读出字母、双元音、音节或其他语音元素时所要求的音高控制,以获取所说出的段落的希望韵律。
本发明中使用的韵律代码是发音代码,它们涉及文本的序列、一个单词内的字母的序列;一个句子内的单词的序列;一个句子的固有序列;一个段落中的句子的连续的位置;以及作为段落的序列的一部分的段落的位置。这些考虑中的任何一个或更多个可以确定什么是、或什么不是适当的韵律,或者重读、音高或时间中的什么韵律元素适合于是应用于文本。有时,适当的韵律是不明显的,直到某一个序列完成之前。本发明在考虑到这些因素的情况下能使适当的韵律应用于文本。本发明中使用的代码由发音发声原理和上下文确定,在该上下文中,通过规定适当的韵律,对代码进行修改以用于可表达的含义。
显示了上滑符号(upglide)20、下滑符号(downglide)22、两个抑扬符号24A和24B以及水平维持26。每一个图形记号20-26都包括左侧点,如点28,其指出开始音高,以及尾巴,如延伸到点28的右边的向上的尾巴30。
尾巴30的轮廓指出音高如何随着发出语音元素而变化。上滑符号20的向上的尾巴30表示上升的音高。下滑符号22具有下转的尾巴32,以表示下降的音高,水平维持26保持某一个水平,以表示持续的不变的音高。抑扬符号24A表示上升到峰值然后下降的音高,而抑扬符号24B表示相反的情况。韵律图形符号20-26可以放置在要说出的文本附近的任何方便的位置,例如在文本正上方的行中被协调,或有选择地被放置于文本下面。尽管可以用文本或连字号作为这里所描述的图形发音符号的附件把文本断开,但是,优选情况下,应保持文本的正常打字的、键入的或书写的外观。
在下文将描述的随后的图形(图5往前)中,使用了贯穿字母的正斜杠(forward slash)36来表示字母只部分地发声,“准备”,因为下面的辅音具有紧密相关或相同的声音。此外,具有挂在这里被链接的字母和参考40下面和之间的吊床的形状的浅的U形链接符号,被用来表示通过其他字母彼此分离的并且通常位于相邻的单词中的字母,应该以连接的发音的连续的方式读出。下面将结合图9比较详细地描述对直接链接进行标记的链接符号40的用法。
一般而言,根据本发明的一个实施例,当对辅音进行标记时,元音之前的辅音被说出但不是“可播放的”,因为它们只在语音直接流进元音时短暂地形成。在此上下文中,“可播放的”是指,说话者在读可播放的辅音时可以创建所希望的韵律效果,在读可播放的辅音时使用拖长发音、停顿或音高变化。
在此实施例中,没有用图形方式标记不发音的辅音,而是留给计算机软件。在用于喘息或解释的停顿之前的最后的辅音被标记为“可播放的”。R长号不是可播放的,其在任何其他辅音之前或当其在最后的时候则在用于喘息或解释的停顿之前,没有被标记。也可以对计算机进行编程,使其理解此特征。
现在请参看图3,韵律图形符号的所显示的实施例包括辅音的下列标记单下划线用以分别标记为可播放的敲击声,例如,定音鼓鼓声D、B和G以及响弦鼓,低音鼓和手鼓鼓声T、P和K;双下划线用以标记为可播放的弦乐器声N、M、V和Z;木管乐器声L、NG、TH和ZH;和(无声)声响效果F、S、SH和th。
未标记的辅音不可播放,也就是说,它们不是在读出它们时利用拖长发音、停顿或音高变化来创建具有所希望的韵律韵律效果的注意焦点。
可以用于辅音混合的根据本发明的韵律图形记号的附加规则包括,不标记以单词开始的辅音混合的第一个字母。几个单词内的辅音混合可以被标记为如下bl,brnobly,probably;abrasion,upbraid;/cl,cr,chr unclean,include;increase;unchristian;drsundry,hundredfl,fr,phr inflame,infraction,rephrasegl,grdeglaze,English;degrade,aggressive;pl,prapply,replace;comprise,surpise;quinquest,unquiet,sequel;trrestroom,distress,entrance;thr bathroom,enthrall;在图2-10中所显示的在实施本发明的过程有用的图形记号的示范性实施例中,上文被描述为弦乐器声(N、M、V和Z)、木管乐器声(L、NG、TH和ZH)和(无声的)声响效果(F、S、th和ZH)的字母或字母组合以及双元音,当它们在所有其他辅音之前出现时通过双下划线被标记为“可播放的”,除非后面的辅音是相同的辅音或同词源。当相同的辅音或同词源跟在后面时,第一个辅音用贯穿辅音的正斜杠标记为“准备”。
理想情况下,当G不代表跟随着鼓声的双簧管声时,则字母NG可以加两道下划线。当以字母NG结尾的单词的一部分与整个单词具有共同的含义时,认为在双簧管声字母之后没有鼓声,如下面的示例所示long,singsong,longhand图3显示了在各种单词中出现的辅音的s-混合中的哪些辅音是可播放的,也就是说,可以被给予扩展的或强调的发音,或音乐声,以增强韵律。例如,在“whiskey”和“husky”中,S将被播放,而K不被播放。K不是不发音的它只是很快地发音,而不在其上停顿或拖长其发音。在“ensnare”中,第一个N和S被播放,而第二个N和R不播放。distinct的N下面的双下划线并带有“尾巴”34,接下来是C和T的单下划线,表示可播放的N可以作为双簧管声播放,但接下来是必须播放的鼓声辅音,在此情况下为双鼓声辅音对。“dismantle”的贯穿T标记的、上端带有“球”38的正斜杠36表示TL不能作为木制管乐器“木制管乐器敲击声”播放,而作为辅音T,接下来是可播放的辅音L,如用于L的双下划线所指出的。
如图4所示,当NG代表双簧管声加鼓声或其他敲击声时,N下面带有双下划线,具有尾巴42,表示N是可作为双簧管声播放的,但G只有单下划线,显示需要作为G定音鼓鼓声敲击声播放,以便保证正确地读出单词。也是在图4中,用双下划线标记单词longevity,N有尾巴,接下来是没有下划线的G,表示N可作为双簧管声播放,但G必须作为“其他敲击”铙钹声DG发音,以便单词正确地读出。
在与鼓声不相关的辅音之前,可以用单下划线将鼓声标记为是可播放的,从口腔解剖学的方面来看,鼓声是在舌头的不同接触位置产生并感觉到的辅音。在相同的、同词源的或半相关的辅音之前,作为像是在几乎相同的位置产生的辅音,用贯穿辅音的正斜杠将鼓声有用地标记为“准备”。
现在请参看图5,在所有其他辅音之前,在铙钹声的每一个字母下面,用单下划线将铙钹声标记为“可播放的”,除了相同的和同源的以外。如此,例如,在“heads back”而不是在“heads south”中的“heads”中的DS是可播放的。在图5中,如上文所描述的,直接链接用链接符号40进行标记。如此,“heads back”中的DS显示为由链接符号40链接到B,“beats fast”中的TS显示为由链接符号40链接到F。
现在请参看图6,在所有其他辅音之前,木制管乐器敲击声DL和TL用双下划线被标记为“可播放的”,跟随的初始L是例外,因为木制管乐器敲击声中的L。如此,例如在“middle school”而不是在“middle life”中,“middle”中的DL是可播放的。如上文所描述的,标记了吊床形符号40,以表示直接链接。在正斜杠36的顶部标记的“o”表示“准备”标记的特别版本,只用于木制管乐器敲击声,表示辅音将被准备并被链接到L。在跟随的L的情况下,L直接链接到跟随的L,因此,木制管乐器敲击声的末尾不得作为持续的辅音L来播放。
请参看图7,请注意,理想情况下,辅音组合GL、KL、BL和PL不被当做代表木制管乐器敲击声来对待,因为在它们之间说出中性的(非书写的)元音。如此,如图所示,L是可播放的,但前面的辅音是不可播放的。
理想情况下,当W、H和Y出现在对于其他辅音乐器是可播放的位置时,W、H和Y不被标记为是可播放的,因为它们是元音或双元音的一部分,如下面的示例所显示的
new,newly,bow;bowline;cow,cowlick.
W和H一起在共同的组合WH中的有用的记号,根据本发明,是在WH上方标记字母“hw”,以表示H应该首先发声,接下来是W,并且两者都不应该被播放。
请参看图8,当在单词的内部和单词之间[Y]或[W]在另一个元音之前出现时,创建Y和W连接词50和52,以表示应该从一个单词到下一个单词或从一个音节到下一个音节保持语音连续性。在本发明的此实施例中,用于Y和W连接词50和52的示范性符号各自都包括分别从Y或W下面到跟随的元音的像吊床的浅的U形,连同分别标记在U的中间、靠近U或贯穿U的小的Y或W字母。U表示要保持连续性,字母Y或W表示要使用的声音,不管字母是否存在于书写的文本输入中。例如,在“create”的E和A之间发Y的声音,在“cruel”的U和E之间发W的声音。
现在请参看图9,如Addison等人的共同待审专利申请No.10/334,658描述的和在Arthur Lessac的书中更详细地描述的,Lessac系统标识了一个单词或短语中的辅音和一个或更多个附加的字母或音素在它们被说出时被链接起来的多种方式。图9显示了根据本发明的如何用图形方式表示这样的被链接的单词的所希望发音的某些示例。
图9中显示了在Lessac语音系统中所使用的说出的单词链接的三个示例,即,所谓的“直接链接”、“播放-和-链接”和“准备-和-链接”。
在直接链接中,一个单词的最后一个辅音被直接链接到下一个单词的开始处的元音,例如,“far above”被读作一个单词“farabove”。
在“播放-和-链接”中,在口中的不同位置有两个相邻的辅音的情况下,如“k”,接下来是“t”,在移到第二个辅音(在此情况下,“t”)之前,第一个辅音(在此情况下,“k”)被完全(意指是完成的)播放(读出或发出声)。
当在口中同一个位置有两个相邻的辅音或两个辅音彼此接近时,如在“grab boxes”或“keep back”的情况下,“b”后面是另一个“b”或“p”,使用“准备-和-链接”。在此情况下,在移到第二个鼓声之前,准备第一个辅音或“鼓声”,意指是未完成的,这通过轻微的暂停来执行。
用于表示直接链接的示范性韵律图形记号,如图9的上一行所示,包括挂在被链接的字母下面和之间的链接符号40,通常将一个单词的末尾处或末尾附近的一个字母或多个字母与下一个单词的开始处或开始附近的字母链接,如从所显示的示例中可以清楚地看到的。直接链接表示说出的动量(momentum)应该从一个链接的字母传到下一个字母,单词之间没有中断、停顿或暂停。
在图9的中间行中所显示的“播放-和-链接”示例中,播放第一个辅音,第二个辅音不播放。如此,链接符号40与第一个辅音的单或双下划线结合。
图9的最底部的行中所显示的“准备-和-链接”示例使用了贯穿将要准备的第一个辅音的正斜杠,与到第二个辅音的链接符号40相结合,以显示链接。此外,如上文所描述的,可播放的辅音用下划线表示。
现在请参看图10,在所显示的两个韵律图形符号中,示例1是实现起来相对来说比较简单和经济的,而示例2则比较复杂,用于促进产生高质量合成语音输出,这种高质量合成语音输出适用于(但不仅限于)诸如会说话的书和杂志、戏剧及其他娱乐之类的应用中。此外,示例2的比较详细的记号减少了说话者之间的甚至在经过训练的说话者的情况下也可能发生的变化,从而有助于输出的一致性。
示例1的记号可以(但不仅限于)适用于工业应用中,如与设备、车辆、生产机器、低端游戏和娱乐设备等等进行的发声通信。当然,如果需要的话,任何一个记号都可以用于其他用途。
在图10中,示例1和2应用于相同的文本,在交替的行上,进行并排的比较。如通过相互比较图10的头两行可看到的,在“heads”与另一个链接单词的几个组合中,被贯穿DS组合的D的正斜杠36标记的附加的准备提供了更细微、更有吸引力的声音。在每一种情况下,保持了从“heads”到下面一个单词的连续性,但在示例2中,由于被准备了,根据附加的标记,D听起来更清楚。在遵循示例1的发音中,D可能会丢失。
现在请参看图11和12,可以理解,本发明提供并使用了图示符号集,该图示符号集可以被用于指出或提供吸引人的、韵律语音输出的模板,其具有一个或另一种相当不同的风格。图11显示了以被称为“报告”的“韵律”风格呈现Gettysburg Address的一部分的标记,而如图12所示的风格是更富有情绪的人类兴趣风格。
Address的文本在诸如文本行10之类的文本行中呈现,用Lessac结构性的和音调能量元音发音记号以及用辅音能量发音记号在文本行10上方进行标记,包括在诸如记号行12之类的记号行中的敲击和持续的音调辅音的标记、木制管乐器敲击声的标记,以及链接符号的标记,如上文所描述的。在该文本之下文本也被用诸如上文所描述的韵律图形符号记号,以便不与发音表示法发生干扰,包括单个字母下划线、上滑符号、下滑符号、吊床形符号等等。此外,所谓的“Y蜂音行(Y-buzz)”60被添加到记号行12的上方,在Y蜂音行60的上方,标记了进一步的韵律符号。如Arthur Lessac的书所描述的,例如,在第122页,Y蜂音是讲演者的或歌手的语音中的骨头-传导音调的振动基础。
在Y蜂音行60上方,使用处于Y蜂音行60上方的某一水平的小点62和大点64,在可被称为“韵律音高图表”中标记出所希望的语调模式,该语调模式表示相对于讲演者的Y蜂音行音高的所希望音高。点的大小可以用于表示所希望的重读,或指定的相对音高的相对振幅,小点62表示没有特别的重读,大点64表示希望有增加的重读。可选地,点大小还可以以成比例的方式表示重读的所希望程度。尽管可以以低于Y蜂音行60的频率发声,但是,声音的音调和发音控制可能变得不足以使声音作为可控制的乐器来执行。
在图11和12中以圆圈标记出了字母B,指出了当读出根据标记的文本时由语音实践者所犯的错误。错误是由听发音的录音并记下发音偏离了应该遵循的标记的地方的其他语音实践者确定的。例如,在图12中,实践者B作出了不同于标记中所要求的两个发音。第一个是没有读出单词“engaged”(文本行4,单词4)的末尾处的鼓声辅音。第二个是未能执行单词“dedicated”(文本行5,单词5)末尾处的E的上滑以及辅音D的鼓声。
通过仔细地将韵律音高图表标记与图11的报告标记进行比较,由如图12所示的人类兴趣标记传达的添加的情感和能量将变得显而易见。例如,图12中的许多重读点是较大的点64,要求更强的重读或重音。此外,行1中的“ago”上方的上滑符号20被提高到Y蜂音行60的上方,以指出所希望的较高的音高。在最下面的行中,“conceived”的V被赋予了特别的重读点64,并且没有使用抑扬符号24B。通过查看图形,可以看出其他差异。
从图2-10,特别是从图11和12可以看出,本发明提供了综合的文本标记系统,该系统可以利用普通文本体现复杂的发音和韵律符号,作为不分散或中断普通文本的覆盖,以产生新颖的指令或控制文档,作为人声音或机器发出的语音,提供了文本的准确的、能理解的、有吸引力的甚至有旋律的呈现的蓝图。根据这里的公开,用于实现本发明的目的的语音的、用来标记文本的其他适当的图形符号对于那些精通本技术的人员来说是显而易见的,并预期可以适用于实施本发明。例如,可以使用各种几何符号或几何符号或动画字形的方案。然而,可以相信,诸如这里所描述的简单符号将被直观地理解,易于在对脚本或其他文本进行标记时应用,重要的是,在经过训练的说话者阅读被标记的文本时可以被他们轻松地理解。
如图2-4及其他图形所示的以及这里所描述的韵律图形符号可以以各种方式使用,以便在合成的语音输出中,特别是在共振峰语音输出中产生人性化的声音。例如,这些可以被一个或多个,优选情况下是多个经过训练的人使用,以根据这里所阐述的标记语音代码,准确地读出文本,以产生读出的语音的数据库。所述数据库将包含读出的语音,这种语音被证明准确地遵循了用这里所产生的语音代码而标记出的文本。或者,或此外,本发明的韵律图形符号可以以数字方式呈现,并且在合成器软件中使用,以便对将要由机器阅读的文本进行电子标记,以促进或引导将韵律元素的数字域引入到输出语音中。对应于字母、单词、短语、句子、段落和较长的文本的图形记号的记录的语音的数据库,可以被数字化和分析,以到达算法及其他韵律学,用于规定对应于特定文本的特定语音数据与其相关的图形记号的唯一关系。然后,此数据库可以用于向合成器提供输入参数,以重新创建针对要合成的特定文本模拟人类语音的声音,作为具有指定的韵律的语音。
为简单起见,每一个文本单元以及其关联的语音代码图形表示法都可以视为“字形”。类似地,对应于“字形”的每一个声学单位都被标识为“音素”。几百或几千个(其中,“几”表示“至少两个”)或更多的本发明的音高、振幅和韵律图形记号的发音关联的字形-音素对的扩展集合,可以以数字方式呈现并且在合成器软件中使用,以便对将要由机器阅读的文本进行电子标记,以便促进或引导将韵律元素的数字域引入到输出语音中。
那些精通本技术的人将理解,如图2-4所示的特定韵律图形符号仅仅是示范性的,根据这里的教导,在实施本发明的过程中有用的韵律图形符号可以具有许多其他形式。此外,所显示的符号的特定示例也适用于Lessac语音系统。如果需要,根据本发明,可以使用其他韵律图形符号来实现其他语音训练或培训方法,或用于实现Lessac系统,以促进机器语音的人性化,正如那些精通本技术的人根据这里的教导所理解的那样。
根据本发明的一个实施例,在准备诸如图11和12中所显示的那些韵律标记时,可以遵循如下面的段落中所描述的原则。
准备被标记的脚本。根据本发明,在准备要说出的被标记的脚本时,如图11-12中所显示的那些,良好的页面布局对于说话者是有帮助的,有助于他们不仅理解文本,而且还有助于他们同时理解添加的符号以便引导说话者产生一致的吸引人的语音输出,该语音输出可以在创建数据库时有用,另外还在计算机化语音合成中有用。
理想情况下,文本应该在每一行的上方有充足的间隔,例如3厘米或更多,以容纳将要添加的发音记号和韵律图形符号。相对来说比较大的字体对于以有助于准确地阅读和解释标记,同时大声地朗读的方式来容纳各种记号和符号是有用的。诸如14磅Lucida BrightSemi粗体之类的字体是合适的字体的示例。
在本发明的一个实施例中,在标记脚本时,每一行脚本,包括页面上的最后一行,以垂直标记结束,以表示抑扬顿挫或气息音。数字被写出。如果首字母缩写词将被作为单词而不是作为字母说出,则首字母缩写词被全部写出。有用地,指定用于保证一致发音的参考词典,例如,Merriam Webster′s Collegiate Dictionary,Tenth Edition。
在参考词典提供了发音的选择的情况下,使用给出的第一个发音,除非录音是正式的或“严肃的”语音,在这种情况下,如果列出了“约定的”发音,则使用该“约定的”发音。
语调模式是在连续的语音中的分步骤的从音高到音高的一般移动。音调变化是元音或辅音上的滑动的音高变化,要么叫做上滑、水平维持、下滑,或者叫做抑扬滑动。
有用地,在进行脚本准备的实施例中,说话者大声地探索脚本,以体验传达每一个句子的含义的语调和音调变化。
在脚本上标记出了双垂直线,以指出气息音停顿,标记出单垂直线,以指出没有停顿的并且将影响这些部分的最后的辅音的抑扬顿挫。
在本发明的一个有用实施例中,在这些准备之后,首先标记辅音,然后标记元音,以便实现上文所描述的发音和韵律。
下一个步骤是在元音的紧靠上方(但不遮蔽)绘制Y蜂音音高线60,以提供音高标记的参考。被标志的音高范围将是从低Y蜂音范围(低于Y蜂音行60)到中间呼叫(mid-call)范围,其中,非变形元音可以在中间呼叫中发声,例如,#3,R,以及+Y,以及任选的#4和N。
如果需要,可以在Y蜂音行60上方绘制附加的音高线(未显示),例如,中-低寄存器行(mid-low register line)和中-中(mid-mid)寄存器行。可以在音高线上和它们之间放置语调点62、64或其他适当的标记。如果需要,可以使用其他方法来提供音高范围,例如,如Daniel Jones的书Outline of English Phonetics所描述的,其中,使用了三线谱来定义音高范围。
于是,语音系统实践者(为了实践这里所描述的实施例,应该是Lessac实践者),根据相应的语音系统和所希望的韵律来记录他们感觉到是所希望的语调和音调变化,其中使用Y蜂音行60作为他们自己的音高范围的参考。如上面所引用的,对于每一音节,可以标记出点,对于无重读的音节,使用小的不同的点,如62,对于重读的音节,用引人注目的较大的点64。
对于“人类兴趣”录音,例如,如图12所显示的,可以使用较大的点(它们周围用圆圈围住)或其他适当的图形指示,标记出语音特点的比较丰富的用途,如所谓的“结构性的NRG”和Lessac系统中的“浓缩音调”,以指出对包含Lessac基本呼叫(basic call)单词的单词所希望的呼叫焦点(call focus),没有元音的失真。此段落中所使用的术语涉及Lessac语音或话音系统,可以通过阅读ArthurLessac的书来进行理解。
例如,如该书所描述的,结构性的NRG是动觉元音能量(根据Lessac的“NRG”)状态,该状态与面部姿势相关,是指元音声音箱子的模子、形状和大小。结构性的NRG被视为与元音音调的颜色、体温和美学相关。
在主要的重读音节之前可以用双重音符号(例如,“)标记出有效的单词,而次要的重读音节可以带单重音符号(例如,‘)。
在此上下文中,有效的单词是每一个连续的短语中的单词,或文本的其他意义组部分,其引入了随着句子的进行携带变元转发(argument forward)的新的思想。
理想情况下,根据本发明的此方面,可以进行小心的和一致的声音记录,以便用于文本到语音转换合成数据库,文本的短语和气息音停顿部分内的单词的每一“意义组”具有识别的有效的单词。不经常地,可能有两个具有可比较的重要性的有效的单词。
使用Lessac训练的元音动态,可以以各种方式识别有效的单词,例如,通过将它标记出来以较高的音高说出,或通过大大地延长其元音和辅音,或通过添加浓缩音调,呼叫共振,或通过这些动态的组合。
在本发明的一个示范性实施例中,变元的引入以说明性的句子开始,其中,标记出或不标记出所有的单词,连接单词除外,以便大约具有相同的重读或重音量。第一个重读的单词可以在音高方面提高,其他的可以逐步下降到Y蜂音范围,最后一个重读音节上有下滑符号。
作为示例,在根据本发明的语音的被标记的脚本中,可以在标点符号中使用各种音调变化,如现在将描述的那样。句号和分号在最后一个重读的单词中呈现下滑符号22。逗号和冒号可以呈现上滑符号20或水平维持26。以疑问词(例如,谁、什么、在哪里、何时、如何或为什么)开始的问题在最后一个重读的单词上呈现下滑符号22,其他问题,通常是预期以“是”或“否”回答的那些问题,在最后一个重读的单词上呈现上滑符号。
其他语音培训系统。如那些精通本技术的人员所理解的,所声明的发明可以在使用了Lessac方法之外的规则或语音训练原理或实践的实施例中实现。一个这样的示例是哥伦比亚大学戏剧分校的Kristin Linklater的方法。有关Kristin Linklater的技术的信息以及其规则可以在实施本发明中使用的其他语音实践者的信息,如果需要,可以在www.columbia.edu/cu/news/media/00/kLinklater/和在www.kristinlinklater.com中找到。
韵律语音规则和它们的应用。可在本发明中使用的韵律语音规则旨在负责语言以及其各个方言的发音和共同发音。这里将引用的示范性程序语言是美国英语,“普通教育”方言。可以理解,可以使用其他语言。韵律语音规则(其中至少有某些可以从Lessac文本中推导出或知道),应用于要使用这里所描述的新颖的声音代码读出或合成的文本,使得熟悉Lessac系统的说话者可以适当的、Lessac确定的、受控的发音方式大声地阅读文本。
规则的示例包括如在一个或多个共同拥有的应用中所描述的,使用随机停顿,以及通过气息音停顿修改;包括节奏、语调模式、单词重吨、单词选择、以及辅音“混合”的韵律的定义;所有直接从要读出的文本中导出的规则。这些韵律语音规则可以用于其他方言和语言。
在本发明中使用的声音标记代码可以指出如何产生特定语音声音,以及可以使用什么语音变量来产生那些声音。要读出的文本,以及每一个代码的变量的可选的规定的值,可以充当已经经过训练以在读出文本时遵循代码的人类说话者的韵律指令。根据本发明,相同的或类似的这样的代码变量,或它们的机器等同物,可以用来指示计算机化合成器根据韵律指令读出文本。代码控制声音的产生,变量指出与所希望的声音特征有关的可以计量的身份。
可以根据本发明的方法进行编码的语音变量的示例包括将要合成以表达特定音素或其他语音元素的声音元素的声频、振幅、音高和持续时间。可以量化到期望值的特定变量的某些示例有基本声频;可控制的音高范围的上下值;表达为每时间单位的频率变化的音高变化;每时间单位的振幅变化;以及每时间单位的组合的振幅和音高变化。
现在将描述语音规则、声音标记代码和一个或多个变量值之间的一个有用关系的示例。其他可能性对于那些精通本技术的人是显而易见的。单词之间的中断和句子中出现逗号都代表在创建语音声音时的停顿。尽管如此,每一种停顿都具有不同的字符,根据本发明的一个实施例,该字符可以由不同的声音代码来表示。停顿对于听者是有帮助的,促进了单个单词的识别,并提供了帮助识别短语的间隔。类似地,尽管每一个停顿都涉及时间作为变量,但是,通常构成了停顿的声音之间的以毫秒为单位的相对无声的时间值或持续时间在不同的上下文中可能是不同的。在其中书写的文本没有逗号的单词之间,停顿是说话的速度的一部分,并可以由总体速度和语音的节律变化来确定,如包围每一个停顿的清晰发音的单词的有节奏的声音要求的,并包含在完整的短语内。
如此,停顿可以在上下文中由语音的韵律确定,例如,激励、严重、报告、诗歌、劝说或其他韵律,其中,对应的文本中的逗号表示短语的间隔,没有发声的对应的停顿持续时间,当读出文本时,可以随着韵律及其他因素不同以及随着说话者不同而不同。在天然的人类语音中,此停顿不是单一值,而具有稍大一些或稍小的时间长度的变化,有时吸一口气,有时更加强调一些,或充当包含句子以及其短语的总体段落的节奏的点/对点。如果在该段落的机器产生的语音中,人类说话者的不同的停顿持续时间被呈现为恒定的毫秒值,则所产生的语音很可能给人的感觉是机械式的,而不是人类的,因为人类倾向于在短语之间产生不同的停顿长度。
示范性脚本标记过程。
为创建图形符号集,并提供遵循了规则的准确的发音的声音数据,以准备示范性韵律声音库,由四名经过认证的Lessac实践者组成的团队来处理在美国英语中最常使用的1,000个单词和500个短语和句子。
实践者检查并细化所使用的韵律语音规则。理想情况下,他们可以为每一个规则开发标记指令和记号。他们还可以开发韵律的记号。然后,将规则应用于单词和句子样本。
在根据本发明的脚本标记过程的一个示范性实施例中,每一个语音实践者都在脚本中以这里所描述的格式标记单词和句子,以便根据韵律语音规则发音。有用地,脚本可以包括至少大约1,000个单词和500短语,广泛地代表要转换为语音的文本的语言。如果需要,脚本中的单词和短语可以限于语言的专业子集,例如,医学、科学或区域性方言专业子集。然后,由另一组成员检查每一个实践者的标记,以识别应用韵律语音规则时出现的错误。准备没有错误的1,000个单词和500个短语和句子的调和的最终标记。
理想情况下,使用调和的最终标记,每一个实践者都从被标记的脚本中朗诵单词和句子的采样。一个或多个其他实践者倾听发音,并记下在遵循被标记了韵律的文本中的错误。在记录过程或其他演示之前,可以使用此技术来对一个或多个说话者进行排练。
要准备对于准备用于根据本发明的语音合成的声音数据库的有用的录音,用基线报告韵律标记出要在录音室录制过程中读出的单词和句子的脚本,例如如图11所示。每一个实践者都接收报告脚本的最后的调和标记的副本,以及具有第二种韵律的标记的相同的句子的子集的标记。
为了进行录音,实践者使用具有“干燥空间”录音环境的录音室,理想情况下,是精确地满足模拟-数字采样率和音质的制定标准的录音室。在录音过程中,准备了每一个实践者的发音的声音CD或其他模拟式录音,以及作为WAV或其他数据文件而捕获了录制的发音的数据CD或DVD。
为确保数据的质量,可以将每一个实践者的声音CD提供给另一个实践者,该另一个实践者倾听发音,并在完整的正确的标记的副本上记下未能遵循标记的任何发音错误。理想情况下,当发现错误时,发音应该从WAV数据库中排除,以便只有正确的发音、语调和韵律元素保留在数据库中。
通过遵循这样的标记、说出和记录过程,可以提供相对来说无差错的数字化的语音元素的数据库,该数据库包括符合输入发音和韵律规则的语言或语言子集的音素、单词、短语和句子。可以发现某些一致性,由此,一组实践者准备的语音元素库与另一组受过类似的训练的实践者准备的类似的库是可相比的。
韵律声音库。为使韵律语音规则有效地应用于计算机化语音,本发明提供了一个图形符号集,它唯一地将每一个韵律语音规则连接到要读出的特定文本以及当正确地读出时的对应的语音数据。为每一种语言和最广泛使用的方言准备了特定的韵律声音库。每一个特定韵律声音库都包含综合词典;韵律语音规则;代表规则的图形标记符号;正确地遵循了规则的那些发音的示范性语音数据,以及那些示范性发音的文本。特定语言和方言的综合的韵律声音库是推导、因此也是规定唯一地与应用的韵律语音规则关联的发音的共振峰参数值的基础。
根据本发明的一个实施例的示范性韵律声音库数据库包括a)代表要合成为语音的文本的文本单词和句子选项。
b)为实现可理解的发音而对文本进行计算机化标记的一套规则。这些规则可以包括辅音、元音、共同发音,以及停顿规则。
c)如这里所描述的两个韵律-“报告”和“人类兴趣”的韵律规则。这些韵律被标记并被读出,并被包括进来。这些规则规定了随着时间而变化的值,如音高、音量、节奏、说话速度、以及单词重读的变化。
d)应用于文本的韵律语音规则的调和人工标记的副本。
e)被标记的文本的发音。代表以“报告”韵律读出的所有单词和句子的四个实践者的WAV数据文件,加上“人类兴趣”韵律读出的某些句子的示例。
理想情况下,示范性韵律声音库数据库结构包括WAV数据、文本、图形,以及数值数据。还可以添加示范性软件语句、源代码修改,以及合成器规范值。一个示范性韵律声音库数据库可以包含大约8到12GB数据。市场上销售的现成的关系数据库目前不允许WAV数据与文本、图形、音频CD,以及数值数据组合在一起。相应地,本发明可以使用临时数据库结构来验证产品设计,以将WAV数据与文本、图形,以及数值数据组合在一起。还可以添加示范性软件语句、源代码修改,以及合成器规范值。一个示范性LAL数据库可以包含大约8到12GB数据。如果需要,可以根据使用临时性结构的结果,细化用于结合、存储和处理数据库组件的体系结构;该体系结构对于结合包含文本、图形、声音和数值数据的综合数据库很有用。
示范性软件。已知的语音合成器或合成器引擎可以包括文本输入装置,例如,一个或多个数据文件,扫描仪以及使文本数据以适当的形式对系统是可用的关联的软件和硬件;数据处理单元,以及关联的数据存储器,用于实现软件并执行语音合成操作;可由数据处理单元实现的语音合成软件,该软件也可以被描述为软件引擎,用于将文本数据转换为语音数据,以及音频输出装置,例如,能够向扬声器或耳机提供音频信号的音频端口,以及最终以音频形式输出从语音合成软件接收到的语音数据的关联的硬件和软件。
可以理解,语音可以作为语音文件(例如,.wav文件)来存储、传递或分发,如果需要,用于在合成之后的某个时间播放。
常规地,已经开发出了这样的已知的语音合成器来实现特定的、有限的语言和合成规则集,当从诸如音素、单词或短语之类的小的语音组件结合时,它们的输出过分像机器读的,没有人性化。本发明提供了新颖的语音合成器和语音合成软件,使用源代码实现附加的和/或可替换的语言规则来实现这里的教导,使用本发明的新颖的文本-标记符号和韵律标记来提供有吸引力的人性化的语音输出。根据本发明,语音合成软件可以指定适当的语音合成器的声音输出值,该语音合成器产生对应于如图所示通过发音表示法和图形符号应用于文本的发音规则的声音,利用发音表示法和图形符号标记文本,以确定输出语音的发音和韵律。
示范性软件。可以由一个或多个精通本技术的人员,例如,熟悉共振峰文本到语音转换(“TTS”)引擎软件的工程师和/或计算机语言学家,提供适合这里所描述的本发明的用途的实现本发明的适当的软件。可以向已知语音软件引擎中添加适当的附加的语言规则和合成器信号规范,以构建和测试体现了或用于实施本发明的软件。例如,可以对这里所描述的样本韵律声音库数据库进行分析,以隔离本发明的发音标记符号和已知的共振峰TTS合成器中目前没有规定的共同发音的对应的WAV数据,并可以向已知合成器中添加必需的元素。
除了用于从文本通过机器生成有吸引力的甚至优雅的语音之外,所产生的语音合成软件程序还可以帮助教育软件工程师或其他人在实践中理解在软件中实现的Lessac或其他语音训练系统,并理解所使用的新颖的韵律语音规则。它还可以识别要编程的项目以适应这里所描述的所需要的附加的语言学、语音学,以及韵律规则和新颖的声频信号参数。
示范性软件可以手工编写,将标记编程到文本中,并为合成器的发声指定关联的语音值。一旦这样的样本完成,可以自动地使用计算机化系统对较大的词典进行编程,该计算机化系统直接使用要合成的文本作为输入,并在特定单词、句子和短语的上下文中应用该特定文本所需的规则,以指定混合型共振峰和级联的参数以及值。共振峰参数值是那些产生在文本标记中规定的发音和韵律所需的值,根据特定发音和/或标记的韵律规则操作,并根据将要输出的语音身份特征、基波频率、谐波等等进行操作。
收听者测试。本发明预期使用根据本发明的合成的语音输出的收听者测试来提供用于改进产品的反馈。可以查询听众有关对清晰度改善的感觉以及消息理解以及有关样本发声是否好于常规的比较产品(例如,Sensimetrics的HLSYN(商标)或SENSYN(商标)共振峰合成器)的判断。理想情况下,对感觉、理解和偏爱的测量,使用了验证过的试验设计和数据采集技术,如相应的技术中已知的那样。
从前面的描述中可以看出,要读出的文本可以用从包括下列各项的组中选择的一个、一个以上或所有韵律图形符号来标记出,该组包括根据所希望的韵律,指出发出字母、双元音、音节或其他语音元素所需的音高控制的图形符号;指出上升的音高的上滑符号;指出下降的音高的下滑符号;指出上升然后下降的音高或下降然后上升的音高的抑扬符号;指出不变的音高的水平维持;贯穿后面跟随紧密相关的或相同的发音的辅音的第一个字母的正斜杠,以指出准备了第一个字母;浅的U形的连音吊床形符号,以指出通过其他字母彼此分离的字母以连续的方式读出,它们之间没有停顿;单下划线,以分别标记为可播放的敲击声,包括定音鼓鼓声D、B和G和响弦,低音和手鼓鼓声T、P和K,未标记的辅音不可播放;双下划线,以标记为可播放的弦乐器声N、M、V和Z,木管乐器声L、NG、TH和ZH,以及(无声)音响效果F、S、SH和th,未标记的辅音不可播放;要读出的文本中的字母组合WH上方或附近标记出的字母组合“hw”,以指出H应该首先发音,接下来是W,两者都不应该播放;Y和W连接词,以指出当[Y]或[W]在另一个元音之前出现时,应该从一个单词到下一个单词或从一个音节到下一个音节保持语音连续性,Y和W连接词各自都包括分别从Y或W下面环行到跟随的元音的像吊床的浅的U形,连同分别标记在U之中、靠近U或贯穿U的小的Y或W字母;其中,元音之前的辅音被规定为说出但不标记为可播放。
作为可替换方案或除此以外,要说出的文本可用从包括下列各项的组中选择的一个、一个以上或所有韵律图形符号来标记出,该组包括直接链接,包括挂在被链接的字母下面和之间的连音吊床形符号,以指出说出的动量应该从一个链接的字母传到下一个字母,单词之间没有中断或停顿或暂停;播放-和-链接,包括与第一辅音的单或双下划线相结合的连音吊床形符号,以指出播放第一辅音,不播放第二辅音;准备-和-链接,包括贯穿作为要准备的辅音的第一辅音的正斜杠,与到第二辅音的连音吊床形符号相结合,以显示第一和第二辅音之间的链接,可播放的辅音用下划线表示。
这里描述了可以在本发明中使用的标记指令的多个可能的实施例,如果需要,可以包括在韵律声音库数据库中,如在这里所描述的。根据本发明,可以理解,这里所描述的新颖的声音值代码,或图示符号集和表示法仅是可从这里的说明中看出的、可以用于本发明的用途的代码的说明性的例子此外,尽管是在英语的上下文中描述示范性声音值代码的,可以理解,本发明也包括为其他语言的特定需要而发明的其他编码系统,它们体现了这里的有关发音标记的一般原理,以便与根据另一个语言的需要而制定的,适当地修改的语音规则一致。如此,本发明的方法可以以从下面的组中选择的语言实现,该组包括英语;美国英语;法语;西班牙语;德语;日语;俄语;中文;阿拉伯语;印地语;具有图形符号集和基于规则的语法的书面语言和口语;前述的语言或其他语言中的任何一种语言的方言和专业子集,根据在此的教导,子集或方言对于那些精通本技术的人员是显而易见的。
可以理解,Lessac或其他语音训练规则对于相对来说较小语音元素(包括单个字母和两个或三个字母的组合)的可理解性的发音特别有效,而这里所描述的韵律规则对于将播放、停顿、重读及其他韵律技术应用到通常在较大的语音元素(包括整个单词、短语、句子或段落)的上下文中的这种字母或字母组合很有用。
概括地说,本发明提供了用图形方式代表的全局规则集,包括对于可理解性的发音规则以及对于节奏和旋律的韵律规则,当由熟练的语音实践者应用到要说出的文本时,无论是通过人类还是由机器,都可以为清晰的、有吸引力甚至旋律美妙的语音输出提供明确的模板。
引用的公开。在此说明书中或在此专利申请中的别处引用的每个美国专利和专利申请,每一个外国和国际专利出版物,每一个其他出版物和每一个未出版的专利申请的全部的内容,都通过对其相应的特定引用而被全文引入在此。
尽管上文描述了本发明的说明性实施例,当然,应该理解,各种修改对于本领域技术人员是显然的,或随着技术的发展是显然的。这样的修改预期在本发明或在此说明书中公开的发明的精神和范围之内。
权利要求(按照条约第19条的修改)1.一种对文本进行标记以便用于从文本合成语音的方法,该方法包括以一个或更多个图形符号标记要说出的文本,以向说话者指出在说出文本时要使用的所希望的语音特征,其特征在于,使用表示要赋予由说话者说出的文本的所希望的韵律的声音代码作为图形符号。
2.根据权利要求1所述的方法,其特征在于,所赋予的韵律包括从包括速度、语调模式、节奏、音感、振幅、重音和气息音的停顿、以及单词和短语的正式和非正式的发音的组中选择的一个或更多个韵律元素。
3.根据权利要求2所述的方法,其特征在于,包括用图形韵律符号来标记可见的文本或用图形符号的电子形式来以电子方式标记电子文本,以电子方式标记的文本可作为人类可读的用图形方式标记的文本来显示或打印,并可用于以允许对输出语音的韵律进行控制的方式向语音合成器传递所希望的韵律。
4.根据权利要求1、2或3所述的方法,其特征在于,要说出的文本用从包括下列各项的组中选择的一个、一个以上或所有韵律图形符号来标记出,该组包括根据所希望的韵律,指出发出字母、双元音、音节或其他语音元素所需的音高控制的图形符号;指出上升的音高的上滑符号;指出下降的音高的下滑符号;指出上升然后下降的音高或下降然后上升的音高的抑扬符号;指出不变的音高的水平维持;贯穿后面跟随紧密相关的或相同的发音的辅音的第一个字母的正斜杠,以指出准备了第一个字母;浅的U形的连音吊床形符号,以指出被其他字母彼此分离的字母要以连续的方式读出,它们之间没有停顿;单下划线,以分别标记为可播放的敲击声,包括定音鼓鼓声D、B和G以及响弦鼓,低音附和手鼓鼓声T、P和K,未标记的辅音不可播放;双下划线,以标记为可播放的弦乐器声N、M、V和Z木管乐器声、L、NG、TH和ZH和(无声)音响效果F、S、SH和th,未标记的辅音不可播放;要读出的文本中的字母组合WH上方或附近标记出的字母组合“hw”,以指出H应该首先声音,接下来是W,两者都不应该被播放;Y和W连接词,以指出当[Y]或[W]在另一个元音之前出现时,应该从一个单词到下一个单词或从一个音节到下一个音节保持语音连续性,Y和W连接词各自都包括分别从Y或W下面环行到随后元音的像吊床的浅的U形,连同小的Y或W字母分别标记在U之中、靠近U或贯穿U;其中,元音之前的辅音被规定为读出但不标记为是可播放的。
5.根据权利要求1、2、3或4所述的方法,其特征在于,要说出的文本用从包括下列各项的组中选择的一个、一个以上或所有韵律图形符号来标记出直接链接,包括挂在被链接的字母下面和之间的连音吊床形符号,以指出说出的动量应该从一个链接的字母传到下一个字母,单词之间没有中断或停顿或暂停;播放-和-链接,包括与第一辅音的单或双下划线相结合的连音吊床形符号,以指出播放第一辅音,不播放第二辅音;包括贯穿作为要准备的辅音的第一辅音的正斜杠的准备-和-链接,其与到第二辅音的连音吊床形符号相结合,以显示第一和第二辅音之间的链接,可播放的辅音用下划线表示。
6.根据权利要求1、2、3、4、或5所述的方法,其特征在于,将韵律图形符号放置于要说出的文本附近,在文本紧上方的行中协调韵律图形符号,或有选择地将韵律图形符号放置于文本下面或将韵律图形符号放置于文本上面和文本下面。
7.根据权利要求1、2、3、4或5所述的方法,其特征在于,通过在行中呈现文本来标记要说出的文本,在文本上方标记出可理解性发音记号,在文本之下标记出韵律图形符号,在可理解性发音记号行上方标记出音高基准线,并在音高基准线上方标记出其他韵律符号,以指出所希望的音高变化和重音。
8.根据权利要求7所述的方法,其特征在于,音高基准线包括Y蜂音音高线,使用较小的点在Y蜂音音高线的上方标记出所希望的语调模式,以指出较轻的重读,用较大的点指出较强的重读,点位于Y蜂音音高线的上方的水平,表示相对于说话者的Y蜂音音高线的所希望的音高。
9.根据权利要求1、2、3、4或5所述的将韵律标记自动应用于文本的方法,其特征在于,包括至少使用一种计算语言学算法来标识和标记要读出的文本,以指出所希望的韵律发音。
10.根据权利要求9所述的方法,其特征在于,包括使用对应于所希望的发音声音的代码变量,生成可用来指定至语音合成器的输入的声音变量的值,以便作为合成的语音输出被标记的文本。
11.根据权利要求1、2、3、4或5所述的方法,其特征在于,包括使用包括以数字方式记录的语音元素的声音库,语音元素是以由图形符号标记指出的韵律说出的。
12.根据权利要求11所述的方法,其特征在于,其是以从下面的组中选择的语言实现,该组包括英语;美国英语;法语;西班牙语;德语;日语;俄语;中文;阿拉伯语;印地语;具有图形符号集和基于规则的语法的书面语言和口语;前述的语言中的任何一种语言的方言和专业子集。
13.根据权利要求1、2、3、4或5所述的方法,其特征在于,包括由一个或多个经过训练的人利用韵律图形符号来促进合成的语音输出中的人性化的声音,该合成的语音输出可选地是共振峰语音输出,该经过训练的人根据具有韵律图形符号的文本的标记,准确地读出文本,以产生读出的语音的数据库,其中包含了准确地遵循语音-代码-标记的文本的读出的语音。
14.根据权利要求13所述的方法,其特征在于,以数字方式呈现韵律图形符号和在合成器软件中使用图形符号,以便对要由机器说出的文本进行电子标记,从而促进或引导将韵律元素的数字域引入到输出语音中。
15.根据权利要求14所述的方法,其特征在于,对应于文本的图形记号的记录的语音包括一个或多个字母、单词、短语、句子、段落和比较长的文本,它们被数字化到数据库中,并被分析,以提供算法或韵律学,以规定对应于特定文本的特定语音数据和与文本相关的图形记号的关系。
16.根据权利要求15所述的方法,其特征在于,利用一个或多个所提供的算法或韵律学来向语音合成器提供输入参数,以对于要合成的特定文本重新创建模拟人类语音的声音,作为具有规定的韵律的语音。
17.一种由输入到语音合成器的声音编码变量控制的语音合成器,其特征在于,声音编码变量对应于被用于生成具有所希望的韵律发音的记录的人类语音的韵律规范,以及其特征在于,所述记录的人类语音被用于提供实现所希望的韵律发音的合成的语音输出。
权利要求
1.一种在声学上对文本进行编码,以便用于从文本合成语音的方法,该方法包括以一个或更多个图形符号标记要读出的文本,以向说话者指出赋予要说出的文本的所希望的韵律。
2.根据权利要求1所述的方法,其中所要赋予的韵律包括从包括速度、语调模式、节奏、音感、振幅、重音和气音的停顿、以及单词和短语的正式和非正式的发音的组中选择的一个或更多个韵律元素。
3.根据权利要求2所述的方法,包括用图形韵律符号来标记可见的文本或用图形符号的电子形式来以电子方式标记电子文本,以电子方式标记的文本可作为人类可读的用图形方式标记的文本来显示或打印。
4.根据权利要求1所述的方法,其中,要读出的文本用从包括下列各项的组中选择的一个、一个以上或所有韵律图形符号来标记,该组包括根据所希望的韵律,指出发出字母、双元音、音节或其他语音元素所需的音高控制的图形符号;指出上升的音高的上滑符号;指出下降的音高的下滑符号;指出上升然后下降的音高或下降然后上升的音高的抑扬符号;指出不变的音高的水平维持;贯穿后面跟随紧密相关的或相同的发音的辅音的第一个字母的正斜杠,以指出准备了第一个字母;浅的U形的连音吊床形符号,以指出被其他字母彼此分离的字母要以连续的方式读出,它们之间没有停顿;单下划线,以分别标记为可播放的敲击声,包括定音鼓鼓声D、B和G以及响弦鼓,低音鼓和手鼓鼓声T、P和K,未标记的辅音不可播放;双下划线,以标记为可播放的弦乐器声N、M、V和Z木管乐器声L、NG、TH和ZH和(无声)声响效果F、S、SH和th,未标记的辅音不可播放;要读出的文本中的字母组合WH上方或附近标记出的字母组合“hw”,以指出H应该首先声音,接下来是W,两者都不应该被播放;Y和W连接词,以指出当[Y]或[W]在另一个元音之前出现时,应该从一个单词到下一个单词或从一个音节到下一个音节保持语音连续性,Y和W连接词各自都包括分别从Y或W下面环行到随后元音的像吊床的浅的U形,连同小的Y或W字母分别标记在U之中、靠近U或贯穿U;其中,元音之前的辅音被规定为要读出但不标记为是可播放的。
5.根据权利要求1所述的方法,其中要说出的文本用从包括下列各项的组中选择的一个、一个以上或所有韵律图形符号来标记,该组包括直接链接,包括挂在被链接的字母下面和之间的连音吊床形符号,以指出说出的动量应该从一个链接的字母传到下一个字母,单词之间没有中断或停顿或暂停;播放-和-链接,包括与第一辅音的单或双下划线相结合的连音吊床形符号,以指出播放第一辅音,不播放第二辅音;包括贯穿作为要准备的辅音的第一辅音的正斜杠的准备-和-链接,其与到第二辅音的连音吊床形符号相结合,以显示第一和第二辅音之间的链接,可播放的辅音用下划线表示。
6.根据权利要求1所述的方法,其中,韵律图形符号被放置于要说出的文本附近,在文本紧上方的行中被协调,或有选择地被放置于文本下面或被放置于文本上面和文本下面。
7.根据权利要求1所述的方法,其中,被标记的要读出的文本在文本行中呈现,可理解性发音记号在文本上方标记出,韵律图形符号在文本之下标记出,其中,音高基准线在可理解性发音记号行上方标记出,以及其中,其他韵律符号在音高基准线上方标记出,以指出所希望的音高变化和重音。
8.根据权利要求7所述的方法,其中,音高基准线包括Y蜂音音高线,其中,所希望的语调模式被使用较小的点在Y蜂音音高线的上方标记出,以指出较轻的重读,用较大的点指出较强的重读,点位于Y蜂音音高线的上方,表示相对于说话者的Y蜂音音高线的所希望的音高。
9.根据权利要求1所述的将韵律标记自动应用于文本的方法,包括至少使用一种计算语言学算法来标识和标记要发音的文本,以指出所希望的韵律发音。
10.根据权利要求9所述的方法,包括使用对应于所希望的发音声音的代码变量,生成可用来指定至语音合成器的输入的声音变量的值,以便作为合成的语音输出被标记的文本。
11.根据权利要求1所述的方法,包括使用包括以数字方式记录的语音元素的声音库,语音元素是以由图形符号标记指出的韵律说出的。
12.根据权利要求11所述的方法,其是以从下面的组中选择的语言实现,该组包括英语;美国英语;法语;西班牙语;德语;日语;俄语;中文;阿拉伯语;印地语;具有图形符号集和基于规则的语法的书面语言和口语;前述的语言中的任何一种语言的方言和专业子集。
13.一种由输入到语音合成器的声音编码变量控制的语音合成器,该声音编码变量对应于用于生成具有所希望的韵律发音的记录的人类语音的韵律规范,以提供实现了所希望的韵律发音的合成的语音输出。
全文摘要
公开了一种在声学上对文本进行编码以便用于从文本合成语音的方法和系统,该方法包括以一个或多个图形符号标记要读出的文本,以向说话者指出赋予说出的文本的所希望韵律,以传递可表达的含义。标记可以包括字形-音素对,每一对都包括指出可与书写文本一起使用的字形的可见的韵律和在数字域中起作用的对应的数字音素。本发明可用于为各种各样的应用生成有吸引力、人性化的机器语音,这些应用包括语音邮件系统、以电子方式启用的设备、汽车、计算机、机器人助理、游戏等等,在会说话的书和杂志中、戏剧及其他娱乐中。
文档编号G10H1/40GK1938756SQ200580007209
公开日2007年3月28日 申请日期2005年3月7日 优先权日2004年3月5日
发明者加里·马普, 休·A·帕克, H·D·维尔森, 南希·柯瑞布斯, 戴安娜·加里, 百利·柯尔 申请人:莱塞克技术公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1