一种基于文本信息的波形拼接语音合成方法

文档序号：8261266阅读：673来源：国知局

一种基于文本信息的波形拼接语音合成方法
【技术领域】
[0001] 本发明涉及一种波形拼接语音合成方法，尤其涉及一种基于文本信息的波形拼接语音合成方法，属于智能信息处理领域。
【背景技术】
[0002] 语音作为人机交互的主要手段之一，语音合成主要目的是让计算机能够产生高清晰度、高自然度的连续语音。语音合成主要有两种方式，早期的研宄主要是采用参数语音合成，最常用的合成方法是基于隐马尔柯夫的参数语音合成方法。该方法作为一种基于统计声学建模方法的具休实现，对语音的声学参数进行隐马尔柯夫建模，并通过参数生成算法来重构声学参数轨迹，最后调用语音合成器来产生语音波形。该方法的不足在于合成语音的音质、自然度和清晰度都不够理想，与实际语音具有较大的差距。另一种方法是基于语料库的语音拼接合成方法，该方法是直接从原始录制的语料库中挑选合适的基元来进行拼接合成语音。但该方法虽能合成出较为接近原始语音的波形，但受限于语料库大小的制约，合成语音的稳定性不够理想（音库过大，合成语音速度较慢，无法实时合成；音库过小，合成语音不稳定），很大程度上影响的听感。并且现有的拼接合成系统，在计算代价时缺少考虑文本信息对基元的影响，合成出的语音在韵律表现上也不是很好。

【发明内容】

[0003] 为了解决上述技术所存在的不足之处，本发明提供了一种基于文本信息的波形拼接语音合成方法。
[0004] 为了解决以上技术问题，本发明采用的技术方案是：一种基于文本信息的波形拼接语音合成方法，该方法包括以下步骤：
[0005] 步骤S1 :通过音段切分，提取原始音频中所有基元的声学参数与文本参数，根据提取的参数训练时长预测模型与训练权重预测模型；
[0006] 步骤S2 :采用分层预选方法，进行分层预选，利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选，获得候选基元；
[0007] 步骤S3 :对目标基元、候选基元和权重预测模型预测的权重信息计算，获得目标代价；对相邻两个基元的契合度进行计算，得到拼接代价；用维特比搜索方法对目标代价和拼接代价进行搜索，得到最小代价路径，进而得到最佳基元并经过平滑拼接得到合成语音。
[0008] 训练时长预测模型包括以下步骤：
[0009] 步骤S11 :对原始音库进行音段切分，切分为波形拼接所需的最小基本单元，以切分后的基元为单位，按帧提取基频参数、梅尔倒谱参数与能量；
[0010] 步骤S12 :对所述原始音频对应文本进行文本分析，根据音段切分结果，提取所有基元对应的上下文文本的特征信息与时长信息，并与提取的声学参数一一对应；
[0011] 步骤S13 :根据与声学参数一一对应的文本特征与时长信息，采用决策树训练时长预测模型。
[0012] 训练权重预测模型包括以下步骤：
[0013] 步骤S1A:对原始音库进行音段切分，切分为波形拼接系统所需的最小基本单元，并以切分后的基元为单位，按帧提取基频参数、梅尔倒谱参数与能量；在本发明一实施例中，谱参数是提取的12阶梅尔倒谱系数；
[0014] 步骤S1B:对所述原始音频对应文本进行文本分析，根据音段切分结果，提取所有基元对应的上下文文本的特征信息与时长信息，并与提取的声学参数一一对应：
[0015] 步骤S1C:根据提取的所有基元的文本特征与声学特征，按基元进行分类；
[0016] 步骤S1D:对于每一类基元，计算所有任意两个基元对应的文本特征参数与声学参数之间的距离，存储所有距离信息作为训练样本；
[0017]步骤S1F:采用决策树和线性回归算法（M5P)，进行权重预测模型的训练。
[0018] 文本的特征信息与时长信息作为决策树的节点，在叶节点处与声学参数的距离作线性回归；得到文本信息对应的权重。
[0019] 分层预选包括以下步骤：
[0020] 步骤S21 :设置标识参数flag= 0,第一层预选采用基元上下文特征信息作为预选信息进行预选；
[0021] 步骤S22 :第二层预选是在第一层预选的基础上，采用文本特征信息、词性和重音信息作为预选信息进行基元预选，如果标识参数flag= 0,则执行步骤S23 ;如果标识参数 flag= 1，则输出第二层候选基元；
[0022] 步骤S23 :第三层预选是在第二层预选的基础上，采用根据文本特征预测出来的时长信息作为预选信息进行预选，如果候选基元个数不为〇,设置标识参数flag= 1，返回步骤S21;如果候选基元个数不为0,则输出第三层候选基元。
[0023] 获得目标代价包括以下步骤：
[0024] 步骤S31 :根据待合成语句的文本分析结果提取的相关基元的文本参数作为目标基元的参数，经过分层预选后的基元的文本参数作为候选基元的参数；
[0025] 步骤S32:计算目标基元与候选基元文本特征之间的距离，结合预测出的权重信息，经过线性回归运算得到的结果即为目标代价。
[0026] 本发明的有益效果：
[0027] (1)本发明结合待合成语音与原始语音的文本特征，在基元预选时用分层预选方法，不仅能有效率的在保证候选基元接近目标基元的情况下，减少基元的个数，降低后期代价计算的时间开销，提高了合成语音的效率，增强拼接合成的实时性；并且加入的时长预测模型能保证选到的基元在时长上的连续性，提高了合成语音自然度；
[0028] (2)目标代价的计算方法采用的是基于文本信息结合预测得到的权重信息得到的代价，保证了代价最小的基元在韵律上与目标基元的一致性，拼接合成出高自然度，并提高了合成语音的韵律表现。
【附图说明】
[0029] 下面结合附图和【具体实施方式】对本发明作进一步详细的说明。
[0030]图1为根据本发明基于文本信息的波形拼接语音合成方法流程图。
[0031] 图2为本发明中训练时长预测模型的流程图。
[0032] 图3为本发明中训练权重预测模型的流程图。
[0033] 图4为本发明实施例的分层预选流程图。
[0034] 图5本发明实施例的基于文本特征的目标代价的计算流程图。
【具体实施方式】
[0035] 如图1所示，文本信息的的波形拼接语音合成方法流程图，该方法包括以下步骤：
[0036] 步骤S1 :通过音段切分，提取原始音频中所有基元的声学参数与文本参数，根据提取的参数训练权重预测模型与时长预测模型；
[0037] 模型训练模块，根据训练文本与对应的音频提取基元的文本参数与声学参数进行模型训练，获取分层预选中的时长预测模型与目标代价计算时所需的权重预测模型；
[0038] 如图2所示，训练时长预测模型包括以下步骤：
[0039] 步骤S11 :对原始音库进行音段切分（基元切分），切分为波形拼接所需的最小基本单元，以切分后的基元为单位，按帧提取基频参数、梅尔倒谱参数与能量；谱参数是提取的12阶梅尔倒谱系数。
[0040] 步骤S12 :对所述原始音频对应文本进行文本分析，根据音段切分结果，提取所有基元对应的上下文文本的特征信息与时长信息（文本的距离信息），并与提取的声学参数 --对应；
[0041] 步骤S13:根据与声学参数一一对应的文本特征与时长信息，采用决策树训练时长预测模型；
[0042] 如图3所示，训练权重预测模型包括以下步骤：
[0043] 步骤S1A:对原始音库进行音段切分，切分为波形拼接系统所需的最小基本单元，并以切分后的基元为单位，按帧提取基频参数、梅尔倒谱参数与能量；在本发明一实施例中，谱参数是提取的12阶梅尔倒谱系数；
[0044]步骤S1B:对所述原始音频对应文本进行文本分析，根据音段切分结果，提取所有基元对应的上下文文本的特征信息与时长信息（文本的距离信息），并与提取的声学参数 --对应；
[

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐明星;
技术所有人：北京时代瑞朗科技有限公司;
我是此专利的发明人

上一篇：机器人识别系统的制作方法
上一篇：一种语音信号的处理方法及装置的制造方法