一种基于加权混合激励的嵌入式语音合成方法

文档序号：2825180阅读：167来源：国知局

专利名称：一种基于加权混合激励的嵌入式语音合成方法
技术领域：
本发明总的来说涉及一种基于自适应加权谱内插系数的嵌入式语音合成方法，尤其是存储和运算资源有限的终端设备。
背景技术：
随着移动互联网及物联网技术的蓬勃发展，手机、电子书等嵌入式设备终端逐步成为人们日常最直接的信息获取及处理途径，而语音则是最自然最直接的交互手段，因此嵌入式语音合成技术的发展乃大势所趋，具有迫切的市场应用需求。语音合成技术的宗旨是完美再现人类的声音，也就是让机器能够模仿人类的嗓音、发音风格及韵律等特点。传统的语音合成技术是建立在基于大规模语料库的拼接合成方法上，技术简单且合成音质高，一度被广泛采用。但这种方法的音库规模大，虽然通过聚类、编码和压缩等技术手段处理后，空间可以降低，但音质受到损伤，且灵活度下降。因此，近年来基于大规模语料库的统计建模参数合成方法被广泛研究，基本思想是，对大量的原始语音库进行参数化表示和统计建模，合成时依照特定规则挑选模型构成模型序列，进一步计算得到合成语句的参数序列，通过参数化合成的方法合成符合要求的语音。通过参数化统计建模方法合成的语音具有较高的自然度和智能度。目前被大家广泛研究及采用的为基于HMM的语音合成技术。语音特征参数的选择很大程度上决定了合成语音的音质，特征参数一般包括激励源参数及声道谱参数等。一般的声道谱系数是从短时傅里叶变换谱中提取，在合成端可以直接通过传统参数合成器(如倒谱滤波器或线性预测滤波器)完成语音的合成，音质较好。近些年提出的自适应加权谱内插(STRAIGHT)语音分析合成算法通过将现有短时傅里叶变换谱中时域频域的周期性去除，得到了无周期性扰动的平滑的频谱，可以合成出更高音质的更加自然的语音。如果直接只用STRAIGHT作为谱特征从而改善原有的FFT谱虽然可以很大程度的改善语音合成音的音质和自然度，但是单纯的使用二元激励并没有完全利用STRAIGHT算法的全部优势，其非周期成分是合成高质量高自然度语音的关键，也是音质和自然度提升的主要途径。因此，需要一种改进的方法，可以在嵌入式平台下实现占用计算资源较小的参数化语音合成系统，不但能够使用STRAIGHT谱特征，还能够通过合理使用STRAIGHT算法中的非周期成分，使合成语音的音质接近STRAIGHT的合成语音。

发明内容
本发明所要解决的技术问题是将STRAIGHT的非周期成分在较低运算量的基础上通过混合激励的模式加入到合成语音的激励源中，改善原有的二元激励，使生成的合成语音具有更接近STRAIGHT合成音的音质和自然度。为实现上述目的，本文提供了一种基于加权混合激励的嵌入式语音合成方法，用于嵌入式操作系统，将接收到的任意文字转换成语音输出。在合成端通过混合激励代替原有的二元激励，在保证较低运算速度的同时，提高了合成语音的自然度和音质，达到与STRAIGHT合成器近似的效果。应用该方法的语音合成系统分为下述两个部分A.训练部分首先对语音信号提取STRAIGHT谱、基频及非周期成分，然后对 STRAIGHT谱提取声道谱特征系数，并将非周期成分在5个频带内取平均值，进而通过HTS对特征系数建模、训练。B.合成部分通过模型得到解算出特征系数序列后，通过非周期成分加权混合激励及传统参数合成器得到合成语音。以上所述的基于自适应加权谱内插系数的嵌入式语音合成方法，语音合成训练端特征系数序列的提取过程分为下述五个步骤A.对训练语音数据库中的语音信号进行参数提取，分别为基频、增益、STRAIGHT 谱及非周期成分。B.从得到的STRAIGHT谱中再提取声道谱特征系数。C.将增益与声道谱特征系数结合成为新的声道谱特征系数。D.将非周期成分按照0 1ΚΗζ、1 2KHz、2 4KHz、4 6KHz及6 8KHz五个频带，然后对每个频带内的非周期成分去平均，每个频带得到一个非周期成分权值，将这5 个权值作为特征参数序列的一部分。系统采用一般嵌入式系统较为常用的16K采样率。E.将基频、新的声道谱系数及分带的非周期成分加权值一并作为特征参数序列进行HMM模型训练以上所述的基于自适应加权谱内插系数的嵌入式语音合成方法，语音合成的合成端合成器合成语音过程分为下述三个步骤A.通过参数解算算法从模型中生成基频、声道谱系数及非周期成分加权序列。B.由基频及非周期成分加权序列生成合成语音的激励源，采用混合激励的模型。C.将激励源和声道谱系数序列通过传统参数合成器得到合成语音。下面结合附图和实施例对本发明进一步说明，通过结合附图对系统各组成部件的详细说明将会更好地描述实现本发明的步骤和过程。

附图1基于HMM的语音合成系统结构框图附图2系统特征参数序列提取示意图附图3非周期成分加权混合激励语音合成器结构框中1.语音语料数据库，2.激励源参数提取，3. HMM模型训练，4. HMM模型集，5.由 HMM模型生成参数，6.文本分析，7.激励源生成，8.合成滤波，9.声道谱参数提取，10.语音信号，11.激励源参数，12.声道谱参数，13.合成语音，14.合成文本，15.训练部分，16.合成部分，17.标注文本，18.训练端特征参数提取，19.语音信号数据，20. TANDEM-STRAIGHT 分析，21. STRAIGHT谱，22. LSP系数，23.新LSP系数，24.增益，25.基频，26.非周期成分， 27.分5个频带取平均，28.带分加权非周期成分，29. Isp
, 27. Isp2ipc，28. LPC滤波器， 29.合成端参数合成滤波，30.合成端参数合成滤波，31. Isp21pc，32.混合激励，33.加权， 34.非周期权值，35.脉冲序列，36.白噪声。
具体实施例方式
4
如附图1所示，在本发明的实施方案中，语音合成系统部署在一种嵌入式操作系统中，该嵌入式语音合成系统包括语音合成训练端和合成端。其中，语音合成模型训练部分只在系统线下使用，仅用于生成语音合成系统工作时所需要的压缩模型库；而语音合成的合成部分则是在芯片上完成。由于本发明重在参数的提取与合成，而文本标注、文本分析、建模、训练及参数生成并不是本发明的关注点，所以下面着重介绍训练端的参数提取及参数重建，和合成端的混合激励的生成。本实施例选择了 LSP系数0 作为声道谱参数，并选用LPC滤波器08)作为合成滤波器，语音数据为16K采样。训练端的特征参数提取(18)步骤1，对训练语音数据进行时域稳定功率谱估计(TANDEM-STRAIGHT算法)从而得到基频05)、STRAIGHT谱(21)、增益Q4)及非周期成分06)。步骤2，使用广义倒谱分析算法从STRAIGHT谱Ql)中提取LPC系数，其中使用美尔广义倒谱分析的概念来转换谱系数，然后将所得的LPC系数转换成LSP系数02)。步骤3，将增益代替LSP的第O维参量，生成新的LSP声道谱系数。步骤4，通过TANDEM-STRAIGHT分析QO)得到非周期成分06)，然后将非周期成分06)在频域轴上分成五个带，对于1 采样的语音，频带被分为O 1000Hz，1000 2000Hz,2000 4000Hz、4000 6000Hz及6000 8000Hz五个带，在每个带内对非周期成分取平均值，再将这个值作为该频带非洲成分的加权值，因此每帧语音的非周期成分被简化为5个系数。步骤5，将新的LSP声道谱、基频0 及非周期成分06)加权值一起做为语音信号的特征参数使用HMM模型训练(3)。合成端的混合激励的生成(如图3)步骤1，由基频05)来控制脉冲序列(35)和高斯白噪声(36)的生成。步骤2，通过非周期成分06)加权值来控制脉冲序列(3 和高斯白噪声(36)的加权混合，得到混合激励(32)。步骤3，将混合激励(3 通过由声道参数控制的MLSA滤波器，在通过PSOLA滤波器生成最后的合成语音(1 波形。上述实例为本发明的较佳实施例，其中声道谱参数(12)可选用MGC，相应的合成滤波器则选用MLSA滤波器，效果同样很好，但是MLSA滤波器相对于LPC滤波器对计算能力要求偏高，所以在嵌入式设备中，选择LSP系数02)为佳。本发明在嵌入式设备上使用时，所有的音频输入输出均可使用设备本身提供的输入输出接口。语音功能可以随时在设备上开启或关闭。在未启用语音功能时，原设备的各种功能不受任何影响。本发明的应用可用于各种嵌入式终端设备。根据本发明的主要构思，本领域的普通技术人员均可以产生多种类低的或等价的应用。因此，本发明的保护应以权利要求的保护范围为准。
权利要求
1.一种基于加权混合激励的嵌入式语音合成方法，用于嵌入式操作系统，将接收到的任意文字转换成语音输出。在合成端通过混合激励代替原有的二元激励，在保证较低运算速度的同时，提高了合成语音的自然度和音质，达到与STRAIGHT合成器近似的效果。应用该方法的语音合成系统分为下述两个部分A.训练部分首先对语音信号提取STRAIGHT谱、基频及非周期成分，然后对STRAIGHT 谱提取声道谱特征系数，并将非周期成分在5个频带内取平均值，进而通过HTS对特征系数建模、训练；B.合成部分通过模型得到解算出特征系数序列后，通过非周期成分加权混合激励及传统参数合成器得到合成语音。
2.根据权利要求1所述的基于自适应加权谱内插系数的嵌入式语音合成方法，其特征是所述A步，语音合成训练端特征系数序列的提取过程分为下述五个步骤A.对训练语音数据库中的语音信号进行参数提取，分别为基频、增益、STRAIGHT谱及非周期成分；B.从得到的STRAIGHT谱中再提取声道谱特征系数；C.将增益与声道谱特征系数结合成为新的声道谱特征系数；D.将非周期成分按照0 1ΚΗζ、1 2KHz、2 4KHz、4 6KHz及6 8KHz五个频带，然后对每个频带内的非周期成分去平均，每个频带得到一个非周期成分权值，将这5个权值作为特征参数序列的一部分。系统采用一般嵌入式系统较为常用的16K采样率；E.将基频、新的声道谱系数及分带的非周期成分加权值一并作为特征参数序列进行 HMM模型训练。
3.根据权利要求1所述的基于自适应加权谱内插系数的嵌入式语音合成方法，其特征是所述B步，语音合成的合成端合成器合成语音过程分为下述三个步骤A.通过参数解算算法从模型中生成基频、声道谱系数及非周期成分加权序列；B.由基频及非周期成分加权序列生成合成语音的激励源，采用混合激励的模型；C.将激励源和声道谱系数序列通过传统参数合成器得到合成语音。
全文摘要
本发明公开了一种基于加权混合激励的嵌入式语音合成方法，用于嵌入式操作系统，将接收到的任意文字转换成语音输出。在训练端，首先对语音信号提取基频自适应加权谱内插(STRAIGHT谱)系数、基频及非周期成分；在合成端，通过基频及非周期成分构建混合激励，然后通过传统的参数合成器得到合成语音。依据本发明提供的方法在合成端通过混合激励代替原有的二元激励，在保证较低运算速度的同时，提高了合成语音的自然度和音质，达到与STRAIGHT合成器近似的效果。
文档编号G10L13/02GK102231275SQ201110145479
公开日2011年11月2日申请日期2011年6月1日优先权日2011年6月1日
发明者何娅玲, 王朝民, 谢湘, 那兴宇申请人:北京宇音天下科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王朝民;那兴宇;谢湘;何娅玲
技术所有人：北京宇音天下科技有限公司
我是此专利的发明人

上一篇：说话人估计方法和说话人估计设备的制作方法
上一篇：一种基于自适应加权谱内插系数的嵌入式语音合成方法