一种非周期成分音节模型建立、及语音合成的方法和设备的制作方法

文档序号：2826071阅读：221来源：国知局

一种非周期成分音节模型建立、及语音合成的方法和设备的制作方法
【专利摘要】本发明公开了一种非周期成分音节模型建立、及语音合成的方法和设备，包括：根据原始语音波形文件中每一个音节的每一帧在划分得到的每一个频带信息上的非周期成分代表值，利用离散余弦变换方法得到该音节在选择频带信息上的非周期成分谱拟合曲线，生成包含了所述原始语音波形文件的每一个音节在不同频带信息上的非周期成分谱拟合曲线的非周期成分音节模型，这样将音节模型中包含频段数量*音节帧数的数据信息，转换成为包含频段数量的拟合曲线，缩小了语音建模的规模，节省了系统资源，同时在建立每一音节的非周期成分谱拟合曲线，充分考虑了音节的帧与帧之间的连续性，使得拟合曲线保留了音节原有的音质，并在合成时提高了合成语音的质量。
【专利说明】一种非周期成分音节模型建立、及语音合成的方法和设备

【技术领域】
[0001] 本发明涉及语音处理【技术领域】，尤其涉及一种非周期成分音节模型建立、及语音合成的方法和设备。

【背景技术】
[0002] 语音合成技术是指通过机械的、电子的方法产生人造语音的技术。例如：TTS(Text To Speech，文语转换）技术，即将文本信息转换成为语音信息，并通过放音设备播放转换后的语音信息的技术。
[0003] 语音合成的前提是对语音信息进行分析，例如：语音参数化分析。所谓语音参数化分析的方法包括直接波形分析法和语音参数化分析法。目前比较通用的语音分析方法是语音参数化分析法。所谓语音参数化分析法是指对提取到的语音参数进行分析的方法，其中，在对语音信息进行语音参数提取后，得到的语音参数包括：语音声道谱参数(例如：线性预测系数、美尔道谱系数以及线谱对等等)、语音声源参数(例如：基谱、非周期成分谱等)。通过对这些语音参数的分析，全面了解语音携带的信息，为语音合成做准备。
[0004] 例如：现有技术中存在的自适应加权普内插技术（即STRAIGHT分析技术)，有效地将语音声源以及声道信息分离，得到声道谱SP参数，基谱曲线R)参数以及非周期成分谱AP 参数。
[0005] 在语音参数化分析的基础上，统计参数语音合成技术发展迅猛，逐渐取代了拼接语音合成技术，成为语音合成技术的主流。所谓统计参数语音合成技术是通过语音识别处理方法将大量的语音数据标注后训练成模型，然后在进行语音合成时利用参数生成算法得到语音参数，最后通过线性预测过滤技术得到语音波形。
[0006] 其中，在统计参数语音合成技术中涉及到HMM (Hidden Markov Model,隐马尔可夫）语音模型建立和LPC语音波形的形成。
[0007] 具体地，所述HMM语音模型建立的具体包括：
[0008] 第一，提取每一个音节的非周期成分谱。
[0009] 第二，将一帧内的非周期成分谱按照设定的频段进行划分。
[0010] 例如，设定的频段为5段，分别是0?1000MHz，1000?2000Mhz，2000?4000MHz， 4000 ?6000MHz,6000 ?8000MHz。
[0011] 第三，将得到的每一个频段内的非周期成分谱进行平均运算，得到每一个频段的非周期成分频带代表值。
[0012] 最后，针对每一个音节的每一帧，得到5个非周期成分频带代表值，相对于对于每一音节的每一巾贞进行了巾贞内建模。
[0013] 利用HMM语音模型对语音进行合成，将出现以下问题：
[0014] 1、HMM语音模型建立的语音模型的数据量比较大，不适合在嵌入式系统中使用。
[0015] HMM语音模型建立后，当划分频段数量为N时，针对每一个音节的每一帧，将出现N 个非周期成分频带代表值对应，也就是说，当每一个音节包含Μ帧时，HMM语音模型中针对一个音节将出现M*N各非周期成分频带代表值，数据量太大，不适合嵌入式系统使用。
[0016] 2、现有的HMM语音模型在建立时，以一个音节的每一帧为单位确定非周期成分频带代表值，并没有考虑帧与帧之间非周期成分谱之间的相关性，使得合成后的语音信息的非周期成分谱的连贯性较差，使得合成音的音质不高。

【发明内容】

[0017] 本发明实施例提供了一种非周期成分音节模型建立、及语音合成的方法和设备，用于解决现有技术中存在的HMM语音模型数据量大、且合成后的语音信息的非周期成分谱的连贯性差，导致合成音的音质不高的问题。
[0018] -种非周期成分音节模型建立的方法，包括：
[0019] 分解语音数据库中的原始语音波形文件，得到所述原始语音波形文件中每一个音节的非周期成分谱信息、基频信息和声道谱信息；
[0020] 根据预设的为音节的每一帧划分的至少一个频带信息和音节的非周期成分谱信息，计算所述原始语音波形文件中每一个音节的每一帧在划分得到的每一个频带信息上的非周期成分代表值；
[0021] 针对所述原始语音波形文件中任意一个音节，依次执行以下操作，直至得到所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线：
[0022] 选择一个频带信息，查找在该频带信息上该音节对应的每一帧的非周期成分代表值，并根据查找到的非周期成分代表值，利用离散余弦变换方法得到该音节在选择的频带信息上的非周期成分谱拟合曲线；
[0023] 判断该音节是否已得到划分的每一个频带信息上的非周期成分谱拟合曲线，若是，则选择下一个音节，继续执行得到该音节在划分的每一个频带信息上非周期成分拟合曲线的操作；否则，选择下一个频带信息，继续执行得到该音节在选择的下一个频带信息上非周期成分拟合曲线的操作；
[0024] 在得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线后，建立原始语音波形文件的标注文件与所述原始语音波形文件的每一个音节信息之间的对应关系，并根据建立的对应关系生成非周期成分音节模型，其中，所述每一个音节信息中包含了每一个音节的基频信息、声道谱信息以及在不同频带信息上的非周期成分谱拟合曲线。
[0025] 所述根据查找到的非周期成分代表值，利用离散余弦变换方法得到该音节在选择的频带信息上的非周期成分谱拟合曲线，具体包括：
[0026] 利用查找到的非周期成分代表值，通过以下方式计算得到该音节在选择的频带信息上的非周期成分谱拟合曲线：
[0027]

【权利要求】
1. 一种非周期成分音节模型建立的方法，其特征在于，包括：分解语音数据库中的原始语音波形文件，得到所述原始语音波形文件中每一个音节的非周期成分谱信息、基频信息和声道谱信息；根据预设的为音节的每一帧划分的至少一个频带信息和音节的非周期成分谱信息，计算所述原始语音波形文件中每一个音节的每一帧在划分得到的每一个频带信息上的非周期成分代表值；针对所述原始语音波形文件中任意一个音节，依次执行以下操作，直至得到所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线：选择一个频带信息，查找在该频带信息上该音节对应的每一帧的非周期成分代表值，并根据查找到的非周期成分代表值，利用离散余弦变换方法得到该音节在选择的频带信息上的非周期成分谱拟合曲线；判断该音节是否已得到划分的每一个频带信息上的非周期成分谱拟合曲线，若是，则选择下一个音节，继续执行得到该音节在划分的每一个频带信息上非周期成分拟合曲线的操作；否则，选择下一个频带信息，继续执行得到该音节在选择的下一个频带信息上非周期成分拟合曲线的操作；在得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线后，建立原始语音波形文件的标注文件与所述原始语音波形文件的每一个音节信息之间的对应关系，并根据建立的对应关系生成非周期成分音节模型，其中，所述每一个音节信息中包含了每一个音节的基频信息、声道谱信息以及在不同频带信息上的非周期成分谱拟合曲线。
2. 如权利要求1所述的方法，其特征在于，所述根据查找到的非周期成分代表值，利用离散余弦变换方法得到该音节在选择的频带信息上的非周期成分谱拟合曲线，具体包括：利用查找到的非周期成分代表值，通过以下方式计算得到该音节在选择的频带信息上的非周期成分谱拟合曲线： 2 π 1 = -l^bap(n)t cos[-?/(/ +-)]；丄 1 - 其中，（^为该音节在选择的频带信息上的非周期成分谱拟合曲线，τ为该音节的帧数， bap (n) t为该音节的第t帧在选择的频带信息上的非周期成分代表值，η为选择的频带信息的频段标识，d和D为离散余弦变换的阶数，取值范围是1?D-l, t为音节的巾贞数,取值为 0 ?T-1。
3. 如权利要求1或2所述的方法，其特征在于，在得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线后，根据建立的对应关系生成非周期成分音节模型之前，所述方法还包括：利用聚类算法，将得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线进行聚类处理，确定所述原始语音波形文件中每一个音节的非周期成分聚类曲线组；所述建立原始语音波形文件标识与所述原始语音波形文件的每一个音节信息之间的对应关系，具体包括：建立原始语音波形文件的标注文件、所述原始语音波形文件的每一个音节的非周期成分聚类曲线组、每一个音节的基频信息以及每一个音节的声道谱信息之间的对应关系。
4. 一种基于非周期成分音节模型的语音合成方法，其特征在于，包括：利用文本分析设备将获取的待语音合成的文本信息转换成原始语音波形文件，并根据转换得到的原始语音波形文件得到该原始语音波形文件的标注文件；根据非周期成分音节模型中建立的原始语音波形文件的标注文件与原始语音波形文件的每一个音节信息之间的对应关系，确定转换得到的原始语音波形文件的标注文件对应的每一个音节的非周期成分谱拟合曲线、基频信息和声道谱信息；根据确定的每一个音节的非周期成分谱拟合曲线，计算得到所述原始语音波形文件中每一个音节的每一帧在不同频带信息上的非周期成分代表值；利用所述每一个音节的每一帧在不同频带信息上的非周期成分代表值、每一个音节的基频信息以及每一个音节的声道谱信息执行激励操作，并合成语音。
5. 如权利要求4所述的方法，其特征在于，所述根据确定的每一个音节的非周期成分谱拟合曲线，计算得到所述原始语音波形文件中每一个音节的每一帧在不同频带信息上的非周期成分代表值，具体包括：利用确定的每一个音节的非周期成分谱拟合曲线通过以下方式计算得到所述原始语音波形文件中每一个音节的每一帧在一个频带信息上的非周期成分代表值： hap{n), = |c0 cos[^(/ +? ；其中，bap (n)t为一个音节的第t帧在频段标识为n的频带信息上的非周期成分代表值，cd为该音节在频段标识为η的频带信息的非周期成分谱拟合曲线，C(l为该音节在频段标识为η的频带信息上的非周期成分谱拟合曲线的因子，η为频段标识，d和D为离散余弦变换的阶数，取值范围是1?D-l，t为音节的帧数，取值为0?T-1。
6. -种非周期成分音节模型建立设备，其特征在于，所述设备包括：非周期成分代表值确定模块，用于分解语音数据库中的原始语音波形文件，得到所述原始语音波形文件中每一个音节的非周期成分谱信息、基频信息和声道谱信息；并根据预设的为音节的每一帧划分的至少一个频带信息和音节的非周期成分谱信息，计算所述原始语音波形文件中每一个音节的每一帧在划分得到的每一个频带信息上的非周期成分代表值；非周期成分谱拟合曲线生成模块，用于针对所述原始语音波形文件中任意一个音节，依次执行以下操作，直至得到所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线：选择一个频带信息，查找在该频带信息上该音节对应的每一帧的非周期成分代表值，并根据查找到的非周期成分代表值，利用离散余弦变换方法得到该音节在选择的频带信息上的非周期成分谱拟合曲线；判断该音节是否已得到划分的每一个频带信息上的非周期成分谱拟合曲线，若是，则选择下一个音节，继续执行得到该音节在划分的每一个频带信息上非周期成分拟合曲线的操作；否则，选择下一个频带信息，继续执行得到该音节在选择的下一个频带信息上非周期成分拟合曲线的操作；非周期成分音节模型建立模块，用于在得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线后，建立原始语音波形文件的标注文件与所述原始语音波形文件的每一个音节信息之间的对应关系，并根据建立的对应关系生成非周期成分音节模型，其中，所述每一个音节信息中包含了每一个音节的基频信息、声道谱信息以及在不同频带信息上的非周期成分谱拟合曲线。
7. 如权利要求6所述的设备，其特征在于，所述非周期成分谱拟合曲线生成模块，具体用于利用查找到的非周期成分代表值，通过以下方式计算得到该音节在选择的频带信息上的非周期成分谱拟合曲线：心=⑷< cos[7rf('+ 令]; I t=Q 1 2 其中，（^为该音节在选择的频带信息上的非周期成分谱拟合曲线，T为该音节的帧数， bap (n) t为该音节的第t帧在选择的频带信息上的非周期成分代表值，η为选择的频带信息的频段标识，d和D为离散余弦变换的阶数，取值范围是1?D-l, t为音节的巾贞数,取值为 0 ?T-1。
8. 如权利要求6或7所述的设备，其特征在于，所述设备还包括：所述非周期成分聚类曲线组生成模块，用于在得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线后，根据建立的对应关系生成非周期成分音节模型之前，利用聚类算法，将得到的所述原始语音波形文件中每一个音节在划分的每一个频带信息上的非周期成分谱拟合曲线进行聚类处理，确定所述原始语音波形文件中每一个音节的非周期成分聚类曲线组；所述非周期成分音节模型建立模块，具体用于建立原始语音波形文件的标注文件、所述原始语音波形文件的每一个音节的非周期成分聚类曲线组、每一个音节的基频信息以及每一个音节的声道谱信息之间的对应关系。
9. 一种基于非周期成分音节模型的语音合成设备，其特征在于，所述设备包括：文件获取模块，用于利用文本分析设备将获取的待语音合成的文本信息转换成原始语音波形文件，并根据转换得到的原始语音波形文件得到该原始语音波形文件的标注文件；音节信息确定模块，用于根据非周期成分音节模型中建立的原始语音波形文件的标注文件与原始语音波形文件的每一个音节信息之间的对应关系，确定转换得到的原始语音波形文件的标注文件对应的每一个音节的非周期成分谱拟合曲线、基频信息和声道谱信息；非周期成分代表值确定模块，用于根据确定的每一个音节的非周期成分谱拟合曲线，计算得到所述原始语音波形文件中每一个音节的每一帧在不同频带信息上的非周期成分代表值；语音合成模块，用于利用所述每一个音节的每一帧在不同频带信息上的非周期成分代表值、每一个音节的基频信息以及每一个音节的声道谱信息执行激励操作，并合成语音。
10. 如权利要求9所述的设备，其特征在于，所述非周期成分代表值确定模块，具体用于利用确定的每一个音节的非周期成分谱拟合曲线通过以下方式计算得到所述原始语音波形文件中每一个音节的每一帧在一个频带信息上的非周期成分代表值： J .七j· 露 ] hap(n)i = - c0 + 2^crf cos[-1/(/ + -)]； 2 '，. , / 2 其中，bap (n)t为一个音节的第t帧在频段标识为n的频带信息上的非周期成分代表值，cd为该音节在频段标识为η的频带信息的非周期成分谱拟合曲线，C(l为该音节在频段标识为η的频带信息上的非周期成分谱拟合曲线的因子，η为频段标识，d和D为离散余弦变换的阶数，取值范围是1?D-l，t为音节的帧数，取值为0?T-1。
【文档编号】G10L13/02GK104282300SQ201310282732
【公开日】2015年1月14日申请日期:2013年7月5日优先权日:2013年7月5日
【发明者】王朝民, 刘琨, 焦伟申请人:中国移动通信集团公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王朝民;刘琨;焦伟
技术所有人：中国移动通信集团公司
我是此专利的发明人

上一篇：键盘乐器和控制键盘乐器中的致动器的方法
上一篇：丢包掩蔽装置和方法以及音频处理系统的制作方法