一种基于文本信息的波形拼接语音合成方法

文档序号:2827671阅读:143来源:国知局
一种基于文本信息的波形拼接语音合成方法
【专利摘要】本发明一种基于文本信息的波形拼接语音合成方法,该方法包括:步骤S1:通过音段切分,提取原始音频中所有基元的声学参数与文本参数,根据提取的参数训练时长预测模型与权重预测模型;步骤S2:采用分层预选方法,利用文本分析的目标基元、时长预测模型预测的时长对语料库中的基元进行初步预选,获得候选基元;步骤S3:对目标基元、候选基元和权重预测模型预测的权重信息计算,得到目标代价;对相邻两个基元的契合度进行计算,得到拼接代价;用维特比搜索方法对目标代价和拼接代价进行搜索,得到最小代价路径,进而得到最佳基元并经过平滑拼接得到合成语音。
【专利说明】一种基于文本信息的波形拼接语音合成方法

【技术领域】
[0001] 本发明属于智能信息处理领域,涉及一种基于文本信息的波形拼接系统。

【背景技术】
[0002] 语音作为人机交互的主要手段之一,语音合成主要目的是让计算机能够产生高清 晰度、高自然度的连续语音。语音合成主要有两种方式,早期的研究主要是采用参数语音合 成,最常用的合成方法是基于隐马尔柯夫的参数语音合成方法。该方法作为一种基于统计 声学建模方法的具休实现,对语音的声学参数进行隐马尔柯夫建模,并通过参数生成算法 来重构声学参数轨迹,最后调用语音合成器来产生语音波形。该方法的不足在于合成语音 的音质、自然度和清晰度都不够理想,与实际语音具有较大的差距。另一种方法是基于语料 库的语音拼接合成方法,该方法是直接从原始录制的语料库中挑选合适的基元来进行拼接 合成语音。
[0003] 但该方法虽能合成出较为接近原始语音的波形,但受限于语料库大小的制约,合 成语音的稳定性不够理想(音库过大,合成语音速度较慢,无法实时合成;音库过小,合成 语音不稳定),很大程度上影响的听感。并且现有的拼接合成系统,在计算代价时缺少考虑 文本信息对基元的影响,合成出的语音在韵律表现上也不是很好。


【发明内容】

[0004] (一)要解决的技术问题
[0005] 为解决上述的一个或多个问题,本发明的目的是提供一种基于文本信息的波形拼 接语音合成方法。
[0006] (二)技术方案
[0007] 为达成所述目的,本发明提供的一种基于文本信息的波形拼接语音合成方法实现 的步骤包括:
[0008] 步骤S1 :通过音段切分,提取原始音频中所有基元的声学参数与文本参数,根据 提取的参数训练时长预测模型与权重预测模型;
[0009] 步骤S2 :采用分层预选方法,利用文本分析的目标基元、时长预测模型预测的时 长对语料库中的基元进行初步预选,获得候选基元;
[0010] 步骤S3 :对目标基元、候选基元和权重预测模型预测的权重信息计算,得到目标 代价;对相邻两个基元的契合度进行计算,得到拼接代价;用维特比搜索方法对目标代价 和拼接代价进行搜索,得到最小代价路径,进而得到最佳基元并经过平滑拼接得到合成语 音。
[0011] (三)有益效果
[0012] 从上述技术方案可以看出,本发明基于文本特征的波形拼接语音合成方法具有以 下有益效果:
[0013] (1)该方法结合待合成语音与原始语音的文本特征,在基元预选时用分层预选方 法,不仅能有效率的在保证候选基元接近目标基元的情况下,减少基元的个数,降低后期代 价计算的时间开销,提高了合成语音的效率,增强拼接合成的实时性;并且加入的时长预测 模型能保证选到的基元在时长上的连续性,提高了合成语音自然度;
[0014] (2)目标代价的计算方法采用的是基于文本信息结合预测得到的权重信息得到的 代价,保证了代价最小的基元在韵律上与目标基元的一致性,拼接合成出高自然度,并提高 了合成语音的韵律表现;
[0015] 该方法包括:对原始切分过的大音库进行参数提取(包括声学参数与文本参数)。 结合相应文本标注信息,对基元的时长信息进行建模,结合基元的上下文信息与基元所在 词的词性等信息,生成分层预选模型对基元进行预选。这种预选方法不仅可以达到在大语 料库的情况下缩短系统运行时间、增强系统合成语音的实时性和提高基元选取的准确率的 目的,而且保证了候选基元在时长上的连续性。在计算目标代价时,在训练阶段,用决策树 算法与线性回归算法结合文本特征与声学特征进行建模,预测出相关文本特征的权重信 息。在拼接合成语音时,输入相应的候选基元与目标基元的文本信息距离,结合决策树与线 性回归模型预测出的权重信息,就得到相对应候选基元的目标代价,再结合拼接代价的计 算,最后就能拼接合成出语音,本发明合成出较高音质的语音。

【专利附图】

【附图说明】
[0016] 图1为根据本发明基于文本信息的波形拼接语音合成方法流程图;
[0017] 图2为本发明中训练时长预测模型一实施例的流程图;
[0018] 图3为本发明中训练权重预测模型一实施例的流程图;
[0019] 图4为根据本发明一实施例的分层预选流程图;
[0020] 图5为根据本发明一实施例的基于文本特征的目标代价的计算。

【具体实施方式】
[0021] 为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照 附图,对本发明进一步详细说明。
[0022] 需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。附 图中未绘示或描述的实现方式,为所属【技术领域】中普通技术人员所知的形式。另外,虽然本 文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接 受的误差容限或设计约束内近似于相应的值。
[0023] 本发明方法结合待合成语音与原始语音的文本特征,首先对音库中的基元进行分 层预选,提高了合成语音的效率,增强了合成语音的实时性,然后结合基于文本信息预测出 的权重信息,计算代价,挑选合适的基元,最后拼接合成出高自然度与高韵律表现的语音。
[0024] 如图1示出本发明基于文本信息的的波形拼接语音合成方法流程图,该方法包括 以下步骤:
[0025] 步骤S1 :通过音段切分,提取原始音频中所有基元的声学参数与文本参数,根据 提取的参数训练时长预测模型与权重预测模型;模型训练模块,根据训练文本与对应的音 频提取基元的文本参数与声学参数进行模型训练,获取分层预选中的时长预测模型与目标 代价计算时所需的权重预测模型;
[0026] 如图2所示为本发明中训练时长预测模型一实施例的流程图;所述训练时长预测 模型包括以下步骤:
[0027] 步骤S11 :对音库进行音段切分,切分为波形拼接所需的最小基本单元,以切分后 的基元为单位,按巾贞提取基频参数、梅尔倒谱参数与能量;在本发明一实施例中,谱参数是 提取的12阶梅尔倒谱系数。
[0028] 步骤S12 :对所述原始音频对应文本进行文本分析,根据音段切分结果,提取所有 基兀对应的上下文文本特征信息与时长信息,并与提取的声学参数 对应;
[0029] 步骤S13 :根据与声学参数一一对应的文本特征与时长信息,采用决策树训练时 长预测模型。
[0030] 如图3所示为本发明中训练权重预测模型一实施例的流程图,所述训练权重预测 模型的包括以下步骤:
[0031] 步骤S1A :对音库进行音段切分,切分为波形拼接系统所需的最小基本单元,并以 切分后的基元为单位,按帧提取基频参数、梅尔倒谱参数与能量;在本发明一实施例中,谱 参数是提取的12阶梅尔倒谱系数。
[0032] 步骤S1B :对所述原始音频对应文本进行文本分析,根据音段切分结果,提取所有 基兀对应的上下文文本特征信息与时长信息,并与提取的声学参数 对应;
[0033] 步骤S1C :根据提取的所有基元的文本特征与声学特征,按基元进行分类;
[0034] 步骤S1D :对于每一类基元,计算所有任意两个基元对应的文本特征参数与声学 参数之间的距离,存储所有距离信息作为训练样本;
[0035] 步骤S1F :采用决策树和线性回归算法(M5P),进行权重预测模型的训练:文本的 距离信息作为决策树的节点,在叶节点处与声学参数的距离作线性回归。即可得到文本信 息对应的权重。
[0036] 叶节点处的回归可以用以下公式表示:
[0037] WoIxq-x' ol+wJxfX' J+...+Wnlxn-χ' η| = Πο?ΡΟ-ΡΟ' + π 11Dur-Dur' | + π 2 Ε-Ε/ (1)
[0038] 其中f i和Xi为两基元对应的文本特征,R)和RV为对应的基频信息,Dur和 Dur'为对应的时长信息,E和E'为能量信息。本实例取[^,^,ji2]的值为[1,1,0. 5]。 经过叶节点处的回归运算,Wl,...,wn)即为预测得到的权重信息。
[0039] 步骤S2 :采用分层预选方法,利用文本分析的目标基元、时长预测模型预测的时 长对语料库中的基元进行初步预选,获得候选基元;基元预选模块,采用分层预选方法,对 语料库中的基元进行初步预选,以减少后期代价计算的复杂度,提高合成效率。
[0040] 如图4所示为根据本发明一实施例的分层预选流程图,所述分层预选包括以下步 骤:
[0041] 步骤S21 :设置标识参数flag = 0,第一层预选采用基元上下文特征信息作为预选 信息进行预选;
[0042] 步骤S22 :第二层预选是在第一层预选的基础上,采用文本特征信息、词性和重音 信息作为预选信息进行基元预选,如果标识参数flag = 0,则执行步骤S23 ;如果标识参数 flag = 1,则输出第二层候选基元;
[0043] 步骤S23 :第三层预选是在第二层预选的基础上,采用根据文本特征预测出来的 时长信息作为预选信息进行预选,如果候选基元个数不为〇,设置标识参数flag = 1,返回 步骤S21 ;如果候选基元个数不为0,则输出第三层候选基元。
[0044] 步骤S3 :对目标基元、候选基元和权重预测模型预测的权重信息计算,得到目标 代价;对相邻两个基元的契合度进行计算,得到拼接代价;用维特比搜索方法对目标代价 和拼接代价进行搜索,得到最小代价路径,进而得到最佳基元并经过平滑拼接得到合成语 音。
[0045] 选音合成模块,包括目标代价与拼接代价的计算。利用代价和最小原则挑选得到 最佳基兀。
[0046] 如图5所示为本发明的基于文本特征的目标代价的计算,获取所述目标代价包括 以下步骤:
[0047] 步骤S31 :根据待合成语句的文本分析结果提取的相关基元的文本参数作为目标 基元的参数,经过分层预选后的基元的文本参数作为候选基元的参数;
[0048] 步骤S32 :计算目标基元与候选基元文本特征之间的距离,结合预测出的权重信 息,经过线性回归运算得到的结果即为目标代价;
[0049] 在拼接代价计算中,计算相邻两个基元的相邻N帧(本实例中N = 3)的声学参数 距离,作为拼接代价;
[0050] 表格1为根据本发明一实施例的所需要的文本特征。
[0051]

【权利要求】
1. 一种基于文本信息的波形拼接语音合成方法,其特征在于,该方法包括: 步骤S1 :通过音段切分,提取原始音频中所有基元的声学参数与文本参数,根据提取 的参数训练权重预测模型与时长预测模型; 步骤S2 :采用分层预选方法,利用文本分析的目标基元、时长预测模型预测的时长对 语料库中的基元进行初步预选,获得候选基元; 步骤S3 :对目标基元、候选基元和权重预测模型预测的权重信息计算,得到目标代价; 对相邻两个基元的契合度进行计算,得到拼接代价;用维特比搜索方法对目标代价和拼接 代价进行搜索,得到最小代价路径,进而得到最佳基元并经过平滑拼接得到合成语音。
2. 根据权利要求1所述的方法,其特征在于,所述训练权重预测模型包括以下步骤: 步骤S11 :对音库进行音段切分,切分为波形拼接系统所需的最小基本单元,并以切分 后的基元为单位,按巾贞提取基频参数、梅尔倒谱参数与能量; 步骤S12 :对原始音频对应文本进行文本分析,提取所有基元对应的上下文文本特征 信息与时长信息,并与提取的声学参数 对应; 步骤S13:根据与声学参数一一对应的文本特征与时长信息,采用决策树训练时长预 测模型。
3. 根据权利要求1所述的方法,其特征在于,所述训练权重预测模型包括以下步骤: 步骤S1A :对音库进行音段切分,切分为波形拼接系统所需的最小基本单元,并以切分 后的基元为单位,按巾贞提取基频参数、梅尔倒谱参数与能量; 步骤S1B :对所述原始音频对应文本进行文本分析,提取所有基元对应的上下文文本 特征信息与时长信息,并与提取的声学参数一一对应; 步骤S1C :根据提取的所有基元的文本特征与声学特征,按基元进行分类; 步骤S1D :对于每一类基元,计算所有任意两个基元对应的文本特征参数与声学参数 之间的距离,存储所有距离信息作为训练样本; 步骤S1F :采用决策树和线性回归算法,训练权重预测模型。
4. 根据权利要求2或3所述的方法,其特征在于,所述文本特征的距离信息作为决策树 的节点,在叶节点处与声学参数的距离作线性回归,即可得到文本信息对应的权重。
5. 根据权利要求1所述的方法,其特征在于,所述分层预选包括以下步骤: 步骤S21 :设置标识参数flag = 0,第一层预选采用基元上下文特征信息进行预选; 步骤S22 :第二层预选是在第一层预选的基础上,采用文本特征信、词性和重音信息作 为预选信息进行基元预选,如果标识参数flag = 0,则执行步骤S23 ;如果标识参数flag = 1,则输出第二层候选基元; 步骤S23 :第三层预选是在第二层预选的基础上,采用根据文本特征预测出来的时长 信息作为预选信息进行预选,如果候选基元个数不为〇,设置标识参数flag = 1,返回步骤 S21 ;如果候选基元个数不为0,则输出第三层候选基元。
6. 根据权利要求1所述的方法,其特征在于,获取所述目标代价包括以下步骤: 步骤S31 :根据待合成语句的文本分析结果提取的相关基元的文本参数作为目标基元 的参数,将分层预选后的基元的文本参数作为候选基元的参数; 步骤S32 :计算目标基元与候选基元文本特征间的距离,结合预测出的权重信息,经过 线性回归运算得到的结果即为目标代价。
【文档编号】G10L13/02GK104112444SQ201410362838
【公开日】2014年10月22日 申请日期:2014年7月28日 优先权日:2014年7月28日
【发明者】陶建华, 刘善峰 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1