一种基于文本信息的波形拼接语音合成方法

文档序号：2827671阅读：143来源：国知局

一种基于文本信息的波形拼接语音合成方法
【专利摘要】本发明一种基于文本信息的波形拼接语音合成方法，该方法包括：步骤S1：通过音段切分，提取原始音频中所有基元的声学参数与文本参数，根据提取的参数训练时长预测模型与权重预测模型；步骤S2：采用分层预选方法，利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选，获得候选基元；步骤S3：对目标基元、候选基元和权重预测模型预测的权重信息计算，得到目标代价；对相邻两个基元的契合度进行计算，得到拼接代价；用维特比搜索方法对目标代价和拼接代价进行搜索，得到最小代价路径，进而得到最佳基元并经过平滑拼接得到合成语音。
【专利说明】一种基于文本信息的波形拼接语音合成方法

【技术领域】
[0001] 本发明属于智能信息处理领域，涉及一种基于文本信息的波形拼接系统。

【背景技术】
[0002] 语音作为人机交互的主要手段之一，语音合成主要目的是让计算机能够产生高清晰度、高自然度的连续语音。语音合成主要有两种方式，早期的研究主要是采用参数语音合成，最常用的合成方法是基于隐马尔柯夫的参数语音合成方法。该方法作为一种基于统计声学建模方法的具休实现，对语音的声学参数进行隐马尔柯夫建模，并通过参数生成算法来重构声学参数轨迹，最后调用语音合成器来产生语音波形。该方法的不足在于合成语音的音质、自然度和清晰度都不够理想，与实际语音具有较大的差距。另一种方法是基于语料库的语音拼接合成方法，该方法是直接从原始录制的语料库中挑选合适的基元来进行拼接合成语音。
[0003] 但该方法虽能合成出较为接近原始语音的波形，但受限于语料库大小的制约，合成语音的稳定性不够理想（音库过大，合成语音速度较慢，无法实时合成；音库过小，合成语音不稳定），很大程度上影响的听感。并且现有的拼接合成系统，在计算代价时缺少考虑文本信息对基元的影响，合成出的语音在韵律表现上也不是很好。

【发明内容】

[0004] (一）要解决的技术问题
[0005] 为解决上述的一个或多个问题，本发明的目的是提供一种基于文本信息的波形拼接语音合成方法。
[0006] (二）技术方案
[0007] 为达成所述目的，本发明提供的一种基于文本信息的波形拼接语音合成方法实现的步骤包括：
[0008] 步骤S1 :通过音段切分，提取原始音频中所有基元的声学参数与文本参数，根据提取的参数训练时长预测模型与权重预测模型；
[0009] 步骤S2 :采用分层预选方法，利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选，获得候选基元；
[0010] 步骤S3 :对目标基元、候选基元和权重预测模型预测的权重信息计算，得到目标代价；对相邻两个基元的契合度进行计算，得到拼接代价；用维特比搜索方法对目标代价和拼接代价进行搜索，得到最小代价路径，进而得到最佳基元并经过平滑拼接得到合成语音。
[0011] (三）有益效果
[0012] 从上述技术方案可以看出，本发明基于文本特征的波形拼接语音合成方法具有以下有益效果：
[0013] (1)该方法结合待合成语音与原始语音的文本特征，在基元预选时用分层预选方法，不仅能有效率的在保证候选基元接近目标基元的情况下，减少基元的个数，降低后期代价计算的时间开销，提高了合成语音的效率，增强拼接合成的实时性；并且加入的时长预测模型能保证选到的基元在时长上的连续性，提高了合成语音自然度；
[0014] (2)目标代价的计算方法采用的是基于文本信息结合预测得到的权重信息得到的代价，保证了代价最小的基元在韵律上与目标基元的一致性，拼接合成出高自然度，并提高了合成语音的韵律表现；
[0015] 该方法包括：对原始切分过的大音库进行参数提取（包括声学参数与文本参数）。结合相应文本标注信息，对基元的时长信息进行建模，结合基元的上下文信息与基元所在词的词性等信息，生成分层预选模型对基元进行预选。这种预选方法不仅可以达到在大语料库的情况下缩短系统运行时间、增强系统合成语音的实时性和提高基元选取的准确率的目的，而且保证了候选基元在时长上的连续性。在计算目标代价时，在训练阶段，用决策树算法与线性回归算法结合文本特征与声学特征进行建模，预测出相关文本特征的权重信息。在拼接合成语音时，输入相应的候选基元与目标基元的文本信息距离，结合决策树与线性回归模型预测出的权重信息，就得到相对应候选基元的目标代价，再结合拼接代价的计算，最后就能拼接合成出语音，本发明合成出较高音质的语音。

【专利附图】

【附图说明】
[0016] 图1为根据本发明基于文本信息的波形拼接语音合成方法流程图；
[0017] 图2为本发明中训练时长预测模型一实施例的流程图；
[0018] 图3为本发明中训练权重预测模型一实施例的流程图；
[0019] 图4为根据本发明一实施例的分层预选流程图；
[0020] 图5为根据本发明一实施例的基于文本特征的目标代价的计算。

【具体实施方式】
[0021] 为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。
[0022] 需要说明的是，在附图或说明书描述中，相似或相同的部分都使用相同的图号。附图中未绘示或描述的实现方式，为所属【技术领域】中普通技术人员所知的形式。另外，虽然本文可提供包含特定值的参数的示范，但应了解，参数无需确切等于相应的值，而是可在可接受的误差容限或设计约束内近似于相应的值。
[0023] 本发明方法结合待合成语音与原始语音的文本特征，首先对音库中的基元进行分层预选，提高了合成语音的效率，增强了合成语音的实时性，然后结合基于文本信息预测出的权重信息，计算代价，挑选合适的基元，最后拼接合成出高自然度与高韵律表现的语音。
[0024] 如图1示出本发明基于文本信息的的波形拼接语音合成方法流程图，该方法包括以下步骤：
[0025] 步骤S1 :通过音段切分，提取原始音频中所有基元的声学参数与文本参数，根据提取的参数训练时长预测模型与权重预测模型；模型训练模块，根据训练文本与对应的音频提取基元的文本参数与声学参数进行模型训练，获取分层预选中的时长预测模型与目标代价计算时所需的权重预测模型；
[0026] 如图2所示为本发明中训练时长预测模型一实施例的流程图；所述训练时长预测模型包括以下步骤：
[0027] 步骤S11 :对音库进行音段切分，切分为波形拼接所需的最小基本单元，以切分后的基元为单位，按巾贞提取基频参数、梅尔倒谱参数与能量；在本发明一实施例中，谱参数是提取的12阶梅尔倒谱系数。
[0028] 步骤S12 :对所述原始音频对应文本进行文本分析，根据音段切分结果，提取所有基兀对应的上下文文本特征信息与时长信息，并与提取的声学参数对应；
[0029] 步骤S13 :根据与声学参数一一对应的文本特征与时长信息，采用决策树训练时长预测模型。
[0030] 如图3所示为本发明中训练权重预测模型一实施例的流程图，所述训练权重预测模型的包括以下步骤：
[0031] 步骤S1A :对音库进行音段切分，切分为波形拼接系统所需的最小基本单元，并以切分后的基元为单位，按帧提取基频参数、梅尔倒谱参数与能量；在本发明一实施例中，谱参数是提取的12阶梅尔倒谱系数。
[0032] 步骤S1B :对所述原始音频对应文本进行文本分析，根据音段切分结果，提取所有基兀对应的上下文文本特征信息与时长信息，并与提取的声学参数对应；
[0033] 步骤S1C :根据提取的所有基元的文本特征与声学特征，按基元进行分类；
[0034] 步骤S1D :对于每一类基元，计算所有任意两个基元对应的文本特征参数与声学参数之间的距离，存储所有距离信息作为训练样本；
[0035] 步骤S1F :采用决策树和线性回归算法（M5P)，进行权重预测模型的训练：文本的距离信息作为决策树的节点，在叶节点处与声学参数的距离作线性回归。即可得到文本信息对应的权重。
[0036] 叶节点处的回归可以用以下公式表示：
[0037] WoIxq-x' ol+wJxfX' J+...+Wnlxn-χ' η| = Πο?ΡΟ-ΡΟ' + π 11Dur-Dur' | + π 2 Ε-Ε/ (1)
[0038] 其中f i和Xi为两基元对应的文本特征，R)和RV为对应的基频信息，Dur和 Dur'为对应的时长信息，E和E'为能量信息。本实例取[^，^，ji2]的值为[1，1，0. 5]。经过叶节点处的回归运算，Wl，...，wn)即为预测得到的权重信息。
[0039] 步骤S2 :采用分层预选方法，利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选，获得候选基元；基元预选模块，采用分层预选方法，对语料库中的基元进行初步预选，以减少后期代价计算的复杂度，提高合成效率。
[0040] 如图4所示为根据本发明一实施例的分层预选流程图，所述分层预选包括以下步骤：
[0041] 步骤S21 :设置标识参数flag = 0,第一层预选采用基元上下文特征信息作为预选信息进行预选；
[0042] 步骤S22 :第二层预选是在第一层预选的基础上，采用文本特征信息、词性和重音信息作为预选信息进行基元预选，如果标识参数flag = 0,则执行步骤S23 ;如果标识参数 flag = 1，则输出第二层候选基元；
[0043] 步骤S23 :第三层预选是在第二层预选的基础上，采用根据文本特征预测出来的时长信息作为预选信息进行预选，如果候选基元个数不为〇,设置标识参数flag = 1，返回步骤S21 ;如果候选基元个数不为0,则输出第三层候选基元。
[0044] 步骤S3 :对目标基元、候选基元和权重预测模型预测的权重信息计算，得到目标代价；对相邻两个基元的契合度进行计算，得到拼接代价；用维特比搜索方法对目标代价和拼接代价进行搜索，得到最小代价路径，进而得到最佳基元并经过平滑拼接得到合成语音。
[0045] 选音合成模块，包括目标代价与拼接代价的计算。利用代价和最小原则挑选得到最佳基兀。
[0046] 如图5所示为本发明的基于文本特征的目标代价的计算，获取所述目标代价包括以下步骤：
[0047] 步骤S31 :根据待合成语句的文本分析结果提取的相关基元的文本参数作为目标基元的参数，经过分层预选后的基元的文本参数作为候选基元的参数；
[0048] 步骤S32 :计算目标基元与候选基元文本特征之间的距离，结合预测出的权重信息，经过线性回归运算得到的结果即为目标代价；
[0049] 在拼接代价计算中，计算相邻两个基元的相邻N帧（本实例中N = 3)的声学参数距离，作为拼接代价；
[0050] 表格1为根据本发明一实施例的所需要的文本特征。
[0051]

【权利要求】
1. 一种基于文本信息的波形拼接语音合成方法，其特征在于，该方法包括：步骤S1 :通过音段切分，提取原始音频中所有基元的声学参数与文本参数，根据提取的参数训练权重预测模型与时长预测模型；步骤S2 :采用分层预选方法，利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选，获得候选基元；步骤S3 :对目标基元、候选基元和权重预测模型预测的权重信息计算，得到目标代价；对相邻两个基元的契合度进行计算，得到拼接代价；用维特比搜索方法对目标代价和拼接代价进行搜索，得到最小代价路径，进而得到最佳基元并经过平滑拼接得到合成语音。
2. 根据权利要求1所述的方法，其特征在于，所述训练权重预测模型包括以下步骤：步骤S11 :对音库进行音段切分，切分为波形拼接系统所需的最小基本单元，并以切分后的基元为单位，按巾贞提取基频参数、梅尔倒谱参数与能量；步骤S12 :对原始音频对应文本进行文本分析，提取所有基元对应的上下文文本特征信息与时长信息，并与提取的声学参数对应；步骤S13:根据与声学参数一一对应的文本特征与时长信息，采用决策树训练时长预测模型。
3. 根据权利要求1所述的方法，其特征在于，所述训练权重预测模型包括以下步骤：步骤S1A :对音库进行音段切分，切分为波形拼接系统所需的最小基本单元，并以切分后的基元为单位，按巾贞提取基频参数、梅尔倒谱参数与能量；步骤S1B :对所述原始音频对应文本进行文本分析，提取所有基元对应的上下文文本特征信息与时长信息，并与提取的声学参数一一对应；步骤S1C :根据提取的所有基元的文本特征与声学特征，按基元进行分类；步骤S1D :对于每一类基元，计算所有任意两个基元对应的文本特征参数与声学参数之间的距离，存储所有距离信息作为训练样本；步骤S1F :采用决策树和线性回归算法，训练权重预测模型。
4. 根据权利要求2或3所述的方法，其特征在于，所述文本特征的距离信息作为决策树的节点，在叶节点处与声学参数的距离作线性回归，即可得到文本信息对应的权重。
5. 根据权利要求1所述的方法，其特征在于，所述分层预选包括以下步骤：步骤S21 :设置标识参数flag = 0,第一层预选采用基元上下文特征信息进行预选；步骤S22 :第二层预选是在第一层预选的基础上，采用文本特征信、词性和重音信息作为预选信息进行基元预选，如果标识参数flag = 0,则执行步骤S23 ;如果标识参数flag = 1，则输出第二层候选基元；步骤S23 :第三层预选是在第二层预选的基础上，采用根据文本特征预测出来的时长信息作为预选信息进行预选，如果候选基元个数不为〇,设置标识参数flag = 1，返回步骤 S21 ;如果候选基元个数不为0,则输出第三层候选基元。
6. 根据权利要求1所述的方法，其特征在于，获取所述目标代价包括以下步骤：步骤S31 :根据待合成语句的文本分析结果提取的相关基元的文本参数作为目标基元的参数，将分层预选后的基元的文本参数作为候选基元的参数；步骤S32 :计算目标基元与候选基元文本特征间的距离，结合预测出的权重信息，经过线性回归运算得到的结果即为目标代价。
【文档编号】G10L13/02GK104112444SQ201410362838
【公开日】2014年10月22日申请日期:2014年7月28日优先权日:2014年7月28日
【发明者】陶建华, 刘善峰申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陶建华;刘善峰
技术所有人：中国科学院自动化研究所
我是此专利的发明人