基于hmm的双语(普通话-英语)tts技术的制作方法

文档序号:2835920阅读:372来源:国知局
专利名称:基于hmm的双语(普通话-英语)tts技术的制作方法
基于HMM的双语(普通话-英语)TTS技术本申请是国际申请号为PCT/US2008/073563,国际申请日为2008年8月19日,进入中国国家阶段的申请号为200880103469. 0,名称为“基于HMM的双语(普通话-英语) TTS技术”的发明专利申请的分案申请。背景虽然文本-语音(TTS)合成质量近年来已极大地提高,但各种电信应用程序(例如,信息询问、预约和预定、以及电子邮件阅读)要求比现有TTS系统所能够提供的更高的合成质量。具体而言,随着全球化及其伴随的语言混合,这些应用程序能够从其中一个引擎能够合成多种语言或甚至混合语言的多语言TTS系统中受益。大多数常规TTS系统只能够处理单一语言,其中语音数据库中的句子由单个说母语的人来发音。尽管多语言文本可通过在每一种语言改变时切换语音或引擎来正确地阅读,但其中语言改变在句子内作为单词或短语发生的代码切换文本实际上是不可行的。此外,随着移动电话或嵌入式设备的广泛使用,语音合成器的覆盖区域成为基于这些设备的关于应用程序的因素。对多语言TTS系统的研究表明音素覆盖可通过收集多语言语音数据来实现,但语言专用信息(例如,专用文本分析)也是必需的。已经在多语言或语言无关语音识别和合成中尝试了使用最小音素库存来覆盖受影响的语言的所有音素的全局音素集。这一方法采用按音素相似性的音素共享,该音素相似性通过数据驱动聚类方法或者由国际音标字母表 (IPA)定义的音节特征来测量。存在对TTS系统的小覆盖区域方面的强烈兴趣,注意基于隐马尔可夫模型的语音合成往往更有希望。某些隐马尔可夫模型(HMM)合成器可具有相对较小的覆盖区域(例如,彡2MB),这使其适用于嵌入式系统。具体而言,这些HMM合成器已经成功地应用于许多单语的语音合成,例如,英语、日语和普通话。这一 HMM方法已经出于多语言的目的而应用,其中首先通过使用来自若干说不同语言的说话者的混合语音来训练平均语音并且然后使该平均语音对特定说话者自适应。因此,该特定说话者能够说包含在训练数据中的所有语言。通过全球化,嵌在普通话发言中的英语单词或短语在中国的学生和受过教育的人中正在变得越来越普遍地使用。然而,普通话和英语属于不同的语系;这些语言是高度无关的,这表现在基于对其IPA符号的检查,能够一起共享的音素很少。常规上,基于由双语说话者说出的预先记录的普通话和英语句子来构建双语(普通话-英语)TTS,其中该系统的单元选择模块是跨这两种语言共享的,而来自这两种不同语言的音素彼此不共享。这一方法具有某些缺点。这一系统的覆盖区域太大,即,大约是单一语言系统的大小的两倍。实际上,找到足够数量的专业双语说话者来为各种应用程序构建多个双语音型也不容易。此处所讨论的各种示例性技术涉及多语言TTS系统。与每一种语言需要单独的 TTS系统的现有技术相比,这些技术能够减小TTS系统的覆盖区域。概述一种用于基于一种或多种语言的文本来生成语音的示例性方法,该方法包括提供两种或更多语言的音素集、训练包括跨语言状态级共享的多语言HMM、接收该多语言HMM的语言中的一种或多种语言的文本、以及至少部分地基于该多语言HMM来生成对应于所接收到的文本的语音。其他示例性技术包括第一语言的决策树和第二语言的决策树之间的映射和可任选地反方向的映射、以及对多语言文本-语音系统的Kullkick-Leibler散度分析。附图简述参考附图描述了非限制性的和非穷尽的实施例,其中除非另外指定,否则在各个视图中相同的附图标记指示相同的部分。

图1是包括语音-文本(STT)和文本-语音(TTS)的文本和语音方法的图示。图2是用于英语的TTS方法和系统以及用于普通话的TTS方法和系统的图示。图3是示例性多语言TTS方法和系统的图示。图4是确定英语和普通话的共享音素的示例性方法的图示。图5是使用KLD来确定共享在英语音素和普通话音素之间是否切实可行的示例性技术的图示。图6是用于确定共享在英语子音素和普通话子音素之间是否切实可行的示例性方法的图示。图7是用于确定共享在英语复杂音素和普通话音素对之间是否切实可行的示例性方法的图示。图8是用于上下文无关状态共享的示例性技术的图示。图9是用于上下文相关状态共享的示例性技术的图示。图10是用于语音合成的示例性技术的图示。图11是基线系统以及用于英语和普通话的两个示例性系统的图示。图12是用于将示例性系统与图11的基线系统进行比较的一系列表格和图表。图13是将普通说话者的语音扩展到“外国”语言的示例性技术的图示。图14是用于学习语言的示例性技术的图示。图15是可用于实现此处所讨论的各种示例性方法中的部分或全部的示例性计算设备的各个组件的图示。详细描述此处描述了用于多语言TTS系统的技术。这些技术可适用于使用概率模型的多种 TTS方法中的任一种。虽然参考用于英语和普通话的基于HMM的方法来描述各个示例,但各示例性技术可广泛地适用于其他语言和用于不止两种语言的TTS系统。此处描述了用于声音共享的若干示例性技术。一种使用基于IPA的音素检查的方法适用于发现来自英语和普通话的某些音素是可共享的。另一种示例性方法展示在子音素产生级存在声音相似性,这也是可共享的。另外,复杂音素可由两个或三个简单音素和众多音位变体来呈现,这些复杂音素在特定音素上下文中使用,提供更多的在普通话和英语之间共享音素的机会。参考上下文无关性和上下文相关性来讨论各种示例性技术。一种特定的示例性技术包括双语(普通话-英语)TTS系统中的上下文相关HMM状态共享。另一种特定的示例性技术包括状态级映射以便进行新语言合成而不必依赖于特定说话者的新语言语音。更具体而言,说话者的另一种语言的语音映射到新语言的声音以生成该新语言的语音。因此,这一方法可生成说话者的新语言语音而无需记录该说话者的新语言语音。这一技术通过合成来扩展用户的言语能力。一种示例性方法以基于HMM的语音合成框架为基础。在该框架中,谱包络、基频和状态持续时间同时由对应的HMM来建模。对于给定文本序列,然后在最大似然(ML)意义上从经训练的HMM中生成语音参数迹线和对应的信号。各种示例性技术可用于构建基于HMM的双语(普通话-英语)TTS系统。一种特定的示例性技术包括使用语言专用和语言无关问题,这些问题是为在一个单个决策树中跨两种语言聚类状态而设计的。试验结果表明具有跨语言上下文相关HMM状态共享的示例性 TTS系统胜过其中一起使用两个单独的语言相关HMM的简单基线系统。另一种示例性技术包括基于Kullback-Leibler偏差(KLD)来进行跨语言状态映射以便使用英语决策树中的模型参数来合成普通话语音。试验结果表明经由这一方法合成的普通话语音是高度可理解的。一种示例性技术可通过允许学生使用该学生的母语语音来生成外语语音来增强学习。这一技术使用例如使用天才双语说话者来建立的映射。根据这一技术,虽然来自说话者母语,但在使用学生自己的语音来合成外语时,该学生可以更容易地理解该外语。这一技术可任选地包括外语补充,例如,当学生变得更精通时,该学生可提供外语语音。图1示出了文本和语音方法100,该方法包括语音-文本(STT)方法110和文本-语音(TTS)方法120。文本101可使用IPA 102来按音素表示。在说出或生成文本时, 可将能量103呈现为相对于时间的振幅。能量波形103可使用各种技术中的任一种来分析, 例如,使用傅立叶技术,可将能量变换到频域。STT方法110接收能量(例如,至数字波形的模数转换)或能量的已记录版本(例如,数字波形文件),参数化能量波形112并识别对应于能量波形的文本114。TTS方法120 接收文本,执行文本分析122、韵律学分析124并且然后生成能量波形126。如上所述,此处所描述的示例性技术主要涉及TTS方法和系统并且尤其涉及多语言TTS方法和系统。图2示出了英语方法和系统202以及普通话方法和系统204。这些是两个单独的常规系统,并且需要TTS的英语和普通话能力的设备将需要用于英语方法和系统202以及普通话方法和系统204两者的足够的存储器。同时描述英语方法和系统202以及普通话方法和系统204,因为各个步骤和组件相当类似。英语方法和系统202接收英语文本203而普通话方法和系统204接收普通话文本205。TTS方法220和240执行文本分析222、242、韵律分析224、244和波形生成226、246 以产生波形207、208。当然,例如,英语和普通话的文本分析的细节是不同的。英语TTS系统230包括用于生成波形207的英语音素232和英语HMM234,而普通话TTS系统250包括用于生成波形208的普通话音素252和普通话HMM 254。如此处所描述的,一种示例性方法和系统允许多语言TTS。图3示出了示例性多语言方法和系统300。示例性TTS方法320对英语文本(“Hello World”)和/或普通话文本305 ( “来”)执行文本分析320,之后是韵律分析324和波形生成326。方法320使用示例性系统330,该系统包括一组音素332和对应的HMM 334,它们用于取决于接收到的是英语文本303还是普通话文本305来生成波形307和308。如图3所示,音素332包括英语音素(EP)和普通话音素(MP)。此外,可共享某些音素,其被指定为共享音素(SP)。
对于构建诸如图3的系统330的双语(普通话和英语)TTS系统,预备步骤是决定覆盖两种语言中的所有语音的音素集。另外,这一音素集应当足够紧凑以便于跨语言音素共享并产生大小合理的TTS模型。此处描述了用于找出可能的声音共享候选的若干示例性方法。如参考试验结果所讨论的(参见例如,图12),共享准则可以是客观的和/或主观的。 有时,术语“切实可行”用于共享(例如,音素、子音素、复杂音素等的共享),这意味着多语言系统能够在可接受的出错水平下操作。一种示例性方法检查第一语言的音素和第二语言的音素的IPA符号以便进行音素共享。IPA是供在转录任何口语的语音时使用的国际标准。该标准根据音素的语音-发音特征来对音素进行分类。IPA相当准确地表示音素并且古典歌手经常使用IPA来帮助演唱各种语言中的任一种的歌曲。在忽略语音感知的语言相关方面时,由相同的IPA符号标记的不同语言的音素应当被认为是相同的音素。示例性IPA方法和示例性Kullback-Leibler散度(KLD)方法参考图4来描述,注意,图4主要涉及KLD方法(按照框408),但它示出了与IPA方法相关的英语音素(EP)410 和普通话音素(MP) 420。图4示出了用于分析两种语言的音素以便在这两种语言之间进行共享的示例性基于KLD的方法400。在图4的示例中,提供框404提供英语(EP 410)和普通话(MP 420) 中的所有音素,其中英语音素集包括24个辅音、11个单元音和5个双元音,而普通话音素集是更精细的集合,包括27个简单辅音、具有滑音的30个辅音和36个声调元音。框404还包括上标1-4,这些上标如下1用作音节开始(声母);2用作音节结尾;3用作滑音;而4 用作音节核或结尾。在检查IPA符号的示例性IPA方法中,八个辅音/kh/、/ph/、/th/、/f/、/s/、/m/、/ n/和/1/以及两个元音(忽略声调信息)/ε/和/a/能够在两种语言之间共享。因此,该 IPA方法可确定共享音素集。在示例性基于KLD的方法中,判定框408通过检查EP 410和MP 420以查找可共享音素(SP)430来执行基于KLD的分析。该KLD技术提供对两个概率分布之间的相似(异) 性的信息论度量。当语言HMM的时间结构通过动态编程来对齐时,可进一步修改KLD以测量两种进化的语音的HMM之间的差异。图5示出了示例性KLD技术440,该技术适用于英语音素集中的音素“i”的英语音素HMM(i)411和普通话音素集中的音素“j”的普通话音素HMM(j)421。根据该KLD技术, 对于两个给定的连续随机变量的分布P和Q,P和Q之间的KLD的对称型由图5的等式KLD 444来表示。在该等式中,ρ和q表示P和Q的密度。对于两个多元高斯分布,等式444具有闭型
权利要求
1.一种至少部分地由计算机实现的用于基于文本来生成语音的方法,所述方法包括构建第一语言专用决策树;构建第二语言专用决策树;将来自所述第一树的叶节点映射到所述第二树的叶节点;接收所述第二语言的文本;以及至少部分地基于将来自所述第一树的叶节点映射到所述第二树的叶节点来生成对应于所接收到的文本的所述第二语言的语音。
2.如权利要求1所述的方法,其特征在于,将来自所述第一树的叶节点映射到所述第二树的叶节点包括使用KLD技术。
3.如权利要求1所述的方法,其特征在于,还包括将来自所述第二树的叶节点映射到所述第一树的叶节点。
4.如权利要求1所述的方法,其特征在于,一个决策树的多个叶节点映射到另一决策树的单个叶节点。
5.如权利要求1所述的方法,其特征在于,所述第一语言包括普通话。
6.如权利要求1所述的方法,其特征在于,所述第一语言和所述第二语言包括英语和普通话。
7.如权利要求1所述的方法,其特征在于,所述生成语音在不使用以所述第二语言所提供的语音的情况下发生。
8.—种至少部分地由计算机实现的用于多语言TTS系统的方法,所述方法包括提供用于第一语言中的声音的HMM ;提供用于第二语言中的声音的HMM ;确定所述第一语言中的声音的线谱对;确定所述第二语言中的声音的线谱对;基于所述第一语言中的声音和所述第二语言中的声音的线谱对来计算KLD得分,其中所述KLD得分指示所述第一语言中的声音和所述第二语言中的声音之间的相似性/相异性;以及构建多语言基于HMM的TTS系统,其中所述TTS系统包括基于KLD得分的共享声音。
9.如权利要求8所述的方法,其特征在于,所述第一语言中的声音包括音素并且其中, 所述第二语言中的声音包括音素。
10.如权利要求8所述的方法,其特征在于,所述第一语言中的声音包括子音素并且其中,所述第二语言中的声音包括子音素。
11.如权利要求8所述的方法,其特征在于,所述第一语言中的声音包括复杂音素并且其中,所述第二语言中的声音包括两个或更多音素。
12.如权利要求8所述的方法,其特征在于,所述第一语言中的声音包括上下文相关声
全文摘要
一种用于基于一种或多种语言的文本来生成语音的示例性方法,该方法包括提供两种或更多语言的音素集、训练包括跨语言状态级共享的多语言HMM、接收该多语言HMM的语言中的一种或多种语言的文本、以及至少部分地基于该多语言HMM来生成对应于所接收到的文本的语音。其他示例性技术包括第一语言的决策树和第二语言的决策树之间的映射和可任选地反方向的映射、以及对多语言文本-语音系统的Kullback-Leibler散度分析。
文档编号G10L13/06GK102360543SQ20111029121
公开日2012年2月22日 申请日期2008年8月19日 优先权日2007年8月20日
发明者F·K-P·宋, Y·钱 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1