一种用于嵌入式语音合成系统的音库结构压缩及使用方法

文档序号:2825178阅读:227来源:国知局
专利名称:一种用于嵌入式语音合成系统的音库结构压缩及使用方法
技术领域
本发明总的来说涉及一种用于嵌入式语音合成系统的结构化音库压缩及使用方法,尤其是存储和运算资源有限的终端设备。
背景技术
语音合成技术的目的是让机器还原自然的人类语音,嵌入式设备应用广泛,终端类嵌入式设备与用户交互频繁,而语音是最自然的交互手段。一般的语音合成系统可分为三个主要的功能模块文本分析模块、韵律生成模块和声学合成模块。基于大规模语料库的拼接合成方法由于技术简单,合成音质高被广泛采用。但是,这种方法的音库规模大,虽然通过聚类、编码和压缩等技术手段处理后,空间可以降低,但音质受到损伤,且灵活度下降。 因此,近年来基于大规模语料库的统计建模参数合成方法被广泛研究,基本思想是,对大量的原始语音库进行参数化表示和统计建模,合成时依照特定规则挑选模型构成模型序列, 进一步计算得到合成语句的参数序列,通过参数化合成的方法合成符合要求的语音。通过参数化统计建模方法合成的语音具有较高的自然度和智能度。在这种方法中,为保证合成效果,原始语音库需要尽可能覆盖韵律特征,得到的模型库可达到数百兆字节。经过模型聚类,可将模型库压缩至十兆左右。这种规模对一些掌上电脑等中高端设备的存储和计算能力来说可以满足,但对于运算和存储资源有限的终端设备来说仍无法满足实用的要求。在参数化统计建模语音库的训练过程中,常采用的语音特征参数为基音频率、声道谱系数和时长特征,参数化模型为隐半马尔科夫模型(HSMM)。根据HSMM的状态跳转特性,每种特征的模型包括各个状态的决策树和表示决策树叶节点的概率分布函数。目前常采用的概率密度函数表示方法为单高斯模型。最终得到的模型中,频谱系数的模型占最终模型大小的80% 90%的空间,是最需要压缩的部分。目前已有的减小频谱参数模型规模的方法采用降低数值精度、控制聚类因子和捆绑方差等方式。在采用音节作为合成系统基本单元的前提下,控制训练数据量至合成语音听感可接受的最小值时,基于上述方法得到的模型库至少也需要1兆字节的存储空间。并且,若对聚类进行更严格的控制,则合成语音的自然度和音质都会显著下降。上述系统对资源有限的设备来说仍然开销较大,难以满足用户的需求。因此,需要一种改进的方法,用于在嵌入式平台下实现占用资源较小的参数化语音合成系统。

发明内容
本发明所要解决的技术问题是提供一种应用于嵌入式中文语音合成系统的结构化音库压缩和使用方法。它使语音模型库占用极小的空间资源,提高运算速度,同时保持了较好的合成自然度和音质。为实现上述目的,本文提供了一种参数化统计模型的结构化压缩和使用方法,用于减小模型库占用的空间并维持合成的音质。原始模型库的训练和合成过程采用汉语中的音节作为基本单元;模型库的压缩过程分为下述三个步骤
A.使用训练语音的增益、基频和声道谱系数特征参数创建基于汉语音节的初始模型库;B.根据初始模型中声道谱系数模型各个状态的上下文决策树叶节点的分布情况, 进行码本分配和结构化压缩;C.对声道谱系数模型的方差进行二次压缩,并与其他模型合并得到最终的压缩模型库。上述的参数化统计模型的压缩和使用方法,其特征是所述基于汉语音节为单元的初始模型库创建过程分为下述五个步骤A.创建基于汉语音节的原始语音库;B.提取语音库中所有音节的增益、基音频率、声道谱参数。训练不考虑上下文语境的音节模型;C.根据所有音节的语境信息训练考虑上下文语境的音节模型,并使用基于决策树的方法对模型进行状态聚类;D.将聚类后的模型参数进行捆绑训练;E.返回步骤C重复步骤C、D,输出参数化统计模型。上述的参数化统计模型的结构化压缩和使用方法,其特征是所述声道谱系数模型的结构化压缩过程分为下述六个步骤A.计算声道谱模型每个状态决策树的叶节点数目和总的叶节点数目,根据压缩目标码本规模得到压缩比和每棵决策树的目标码本数目;B.将第一棵状态决策树作为待压缩决策树;C.所有同父叶节点状态分布的均值矢量(包含静态特征、一阶动态特征和二阶动态特征)的距离,找到距离最近的两个同父叶节点,其父节点为待合并节点;D.计算待合并节点的两个子节点的状态均值和方差矢量的平均值,作为合并后新的叶节点的状态均值和方差矢量。将原来两个子节点从叶节点列表中删除,插入新的叶节点。E.更新决策树结构,判断叶节点数目是否等于目标码本数目。如果是,则一颗决策树压缩完毕;如果否,则返回步骤C重复步骤C、D ;F.判断是否所有状态决策树压缩完成。如果是,声道谱系数模型的结构化压缩过程结束;如果否,则将下一状态决策树作为待压缩决策树,返回步骤C重复步骤C、D、E。上述的参数化统计模型的结构化压缩和使用方法,其特征是所述声道谱系数模型二次压缩及合并过程分为以下两个步骤A.将压缩后所有状态分布的方差矢量(包含静态特征、一阶动态特征和二阶动态特征)进行平均,得到全局方差矢量;B.将压缩后的叶节点序号作为均值矢量码本索引代替,最后存入全局方差值。其他模型按照需要依次存放。上述方法可大幅度压缩采用音节作为基元的声道谱系数模型,同时保持了原模型合成的音质和自然度。为更好的满足嵌入式设备运算速度的要求,本发明还提供了一种嵌入式语音合成系统。包括下述四个步骤
A.文本分析及韵律生成模块,用于对合成文本进行内容分析,得到对应的音节序列,同时每个音节附着相关的以上下文语境标识的韵律信息,其格式与模型训练时使用的标识相同;B.模型决策模块,用于接收上述附着韵律信息的音节序列,利用训练得到的模型决策树生成相应的模型状态序列,并得到时长决策结果;C.参数序列生成模块,用于接收上述模型状态序列,利用所述的压缩频谱模型计算全局方差加窗矩阵,最后计算得到增益序列、声道谱参数序列和基频参数序列;D.语音波形合成输出模块,用于接收所述的参数序列,生成所要合成的语音波形数据,并输出播放或存储。上述的嵌入式语音合成系统,其特征是所述参数序列生成模块分为以下5个步骤A.根据增益的状态序列计算得到增益序列,根据声道谱系数的状态序列计算得到频谱系数序列,根据基音频率的状态序列计算得到基音频率序列;B.根据全局方差计算全局方差矩阵。在参数生成过程中,采用逐维生成的方式计算所需要合成的特征参数,每次计算取一维的均值或方差;C.根据接收的模型状态序列对应的状态声道谱均值码本序列,获取一维声道谱均值码本序列;D.根据接收的全局方差矩阵和状态声道谱均值码本序列求解一维声道谱特征参数序列;E.判断是否处理完全部声道谱系数。如果是,则声道谱系数求解结束;如果否,则返回步骤C重复步骤C、D。依照上述方法建立的嵌入式语音合成系统,完全可以在所述嵌入式系统下应用, 且其所占用的空间资源和需要的计算复杂度均不超过嵌入式设备所具备的能力。下面结合附图和实施例对本发明进一步说明,通过结合附图对系统各组成部件的详细说明将会更好地描述实现本发明的步骤和过程。


附图1基于汉语音节的嵌入式语音合成系统的结构框图附图2声道谱系数模型结构化压缩过程示意图
附图3模型二次压缩过程示意图附图4声道谱参数生成过程示意中1.文本输入,2.文本分析及韵律生成,3.模型决策,4.参数生成,5.波形合成,6.语音输出,7.训练语音库,8. HMM模型训练,9.模型结构化压缩,10.模型二次压缩, 11.模拟训练部分,12.压缩模型库,102.语音合成系统,103.文本输入模块,104.语音信号输出模块,13.结束,14.所有决策树完成?,15.叶节点数等于码本?,16.合并最近叶节点,17.寻找待合并节点,18.确定待压缩决策树,19.码本分配,20.声道谱系数模型, 21.是,22.否,23.是否处理完18维参数?,24.求解一维声道谱系数序列,25.获取状态相应维度的码本序列,26.计算全局方差矩阵,27.开始。
具体实施例方式在附图1中,在本发明的实施方案中,本发明的语音合成系统部署在一种嵌入式操作系统中,该嵌入式语音合成系统包括模型训练部分(11),文本输入模块(103),语音合成部分(10 和语音信号输出模块(104)。其中,语音合成模型训练部分(11)只在系统线下使用,仅用于生成语音合成系统工作时所需要的压缩模型库(12)。其中训练语音库(7)包括录制好的原始语音,由训练语
音库(7)线下生成压缩模型库(12)的过程包括HMM模型训练步骤(8)、模型结构化压缩步骤(9)和模型二次压缩(90)。在步骤(8)中,首先利用语音识别工具包HTK对录制好的原始训练语音库以音节为单位进行自动切分,得到粗切边界信息,并手工进行校对。然后根据音节的上下文语境和韵律信息进行标注,包括当前音节、当前音节音调、前一音节、前一音节音调、后一音节、后一音节音调以及对文本进行文法分析得到的高层次韵律信息,即低层次韵律单元在高层次韵律单元中的位置和数目,本实例考虑的韵律层次包括韵律词、韵律短语和句子。利用语音合成模型训练工具包HTS对原始训练语音进行HSMM模型训练,模型内容包括增益、基音频率、声道谱系数和时长参数。时长以帧数表示,帧长5毫秒。模型分为10个状态,每个状态采用单高斯模型表示状态概率分布。训练过程中根据需要通过适度控制模型聚类因子控制增益、基音频率和时长模型的大小,得到原始语音模型库。在步骤模型结构化压缩(9)中,如附图2所示。模型结构化压缩过程分为下述五个步骤步骤码本分配(19),统计计算各个状态声道谱系数决策树的叶节点数目之和,根据总的码本规模得到每个状态的码本数目为
权利要求
1.一种用于嵌入式语音合成系统的参数化统计模型的结构化压缩和使用方法,用于减小模型库占用的空间并维持合成的音质。原始模型库的训练和合成过程采用汉语中的音节作为基本单元;模型库的压缩过程分为下述三个步骤A.使用训练语音的增益、基频和声道谱系数特征参数创建基于汉语音节的初始模型库;B.根据初始模型中声道谱系数模型各个状态的上下文决策树叶节点的分布情况,进行码本分配和结构化压缩;C.对声道谱系数模型的方差进行二次压缩,并与其他模型合并得到最终的压缩模型库。
2.根据权利要求1所述的参数化统计模型的结构化压缩和使用方法,其特征是所述A 步,基于汉语音节为单元的初始模型库创建过程分为下述五个步骤A.创建基于汉语音节的原始语音库;B.提取语音库中所有音节的增益、基音频率、声道谱参数。训练不考虑上下文语境的音节模型;C.根据所有音节的语境信息训练考虑上下文语境的音节模型,并使用基于决策树的方法对模型进行状态聚类;D.将聚类后的模型参数进行捆绑训练;E.返回步骤C重复步骤C、D,输出参数化统计模型。
3.根据权利要求1所述的参数化统计模型的结构化压缩和使用方法,其特征是所述B 步,声道谱系数模型的结构化压缩过程分为下述六个步骤A.计算声道谱模型每个状态决策树的叶节点数目和总的叶节点数目,根据压缩目标码本规模得到压缩比和每棵决策树的目标码本数目;B.将第一棵状态决策树作为待压缩决策树;C.所有同父叶节点状态分布的均值矢量(包含静态特征、一阶动态特征和二阶动态特征)的距离,找到距离最近的两个同父叶节点,其父节点为待合并节点;D.计算待合并节点的两个子节点的状态均值和方差矢量的平均值,作为合并后新的叶节点的状态均值和方差矢量。将原来两个子节点从叶节点列表中删除,插入新的叶节点;E.更新决策树结构,判断叶节点数目是否等于目标码本数目。如果是,则一颗决策树压缩完毕;如果否,则返回步骤C重复步骤C、D ;F.判断是否所有状态决策树压缩完成。如果是,声道谱系数模型的结构化压缩过结束; 如果否,则将下一状态决策树作为待压缩决策树,返回步骤C重复步骤C、D、E。
4.根据权利要求1所述的参数化统计模型的压缩和使用方法,其特征是所述C步,声道谱系数模型二次压缩及合并过程分为以下两个步骤A.将压缩后所有状态分布的方差矢量(包含静态特征、一阶动态特征和二阶动态特征)进行平均,得到全局方差矢量;B.将压缩后的叶节点序号作为均值矢量码本索引代替,最后存入全局方差值。其他模型按照需要依次存放。
5.一种嵌入式语音合成系统。包括以下四个步骤A.文本分析及韵律生成模块,用于对合成文本进行内容分析,得到对应的音节序列,同时每个音节附着相关的以上下文语境标识的韵律信息,其格式与模型训练时使用的标识相同;B.模型决策模块,用于接收上述附着韵律信息的音节序列,利用训练得到的模型决策树生成相应的模型状态序列,并得到时长决策结果;C.参数序列生成模块,用于接收上述模型状态序列,利用所述的压缩频谱模型计算全局方差加窗矩阵,最后计算得到增益序列、声道谱参数序列和基频参数序列;D.语音波形合成输出模块,用于接收所述的参数序列,生成所要合成的语音波形数据, 并输出播放或存储。
6.根据权利要求5所述的嵌入式语音合成系统,其特征是所述C步,参数序列生成过程分为以下五个步骤A.根据增益的状态序列计算得到增益序列,根据声道谱系数的状态序列计算得到频谱系数序列,根据基音频率的状态序列计算得到基音频率序列;B.根据全局方差计算全局方差矩阵。在参数生成过程中,采用逐维生成的方式计算所需要合成的特征参数,每次计算取一维的均值或方差;C.根据接收的模型状态序列对应的状态声道谱均值码本序列,获取一维声道谱均值码本序列;D.根据接收的全局方差矩阵和状态声道谱均值码本序列求解一维声道谱特征参数序列;E.判断是否处理完全部声道谱系数。如果是,则声道谱系数求解结束;如果否,则返回步骤C重复步骤C、D。
全文摘要
本发明公开了一种用于嵌入式语音合成系统的音库结构压缩及使用方法,用于嵌入式系统,将接收到的任意文字转换成语音输出。以汉语中的音节作为合成系统及语音模型库的基本单元;首先创建基于音节的原始语音模型库,然后对所述原始语音模型库进行结构化的压缩,得到最终的压缩模型库。依据本发明提供的方法可以降低合成系统在嵌入式平台下所占用的空间资源,并提高合成速度,同时使合成语音保持良好的自然度和音质。
文档编号G10L13/02GK102201232SQ20111014546
公开日2011年9月28日 申请日期2011年6月1日 优先权日2011年6月1日
发明者何娅玲, 何宇新, 谢湘, 那兴宇 申请人:北京宇音天下科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1