一种基于多情感说话人自适应的情感语音合成方法与流程

文档序号:15969540发布日期:2018-11-16 23:23阅读:346来源:国知局

本发明属于语音合成技术领域,具体的说是一种基于多情感说话人自适应的情感语音合成方法。

背景技术

近些年来,随着语音合成技术的不断发展,从最初的物理机理的语音合成方法、源-滤波器的语音合成方法,到目前日趋成熟的波形拼接的语音合成方法、统计参数的语音合成方法,以及当下研究正盛的基于深度学习的语音合成方法,合成语音的音质得到明显改善。然而,传统的语音合成方法,研究人员仅仅实现了把书面文字、字符转换为简单的口语输出,却忽略了说话人在言语表达过程中所携带的情感信息。如何提高合成语音表现力,将成为情感语音合成技术研究的重要内容,也将是未来语音信号处理领域研究的必然趋势。



技术实现要素:

本发明的目的在于提供一种基于多情感说话人自适应的情感语音合成方法,该方法能够减小语音库中说话人的差异所造成的影响,提高合成语音的情感相似度。

本发明所采用的技术方案为:

提供了一种基于多情感说话人自适应的情感语音合成方法,包括:

从多说话人目标情感的第一情感语音数据库中提取训练模型所需的声学参数文件;

从目标文本文件中得到标注文件;

对基元模型进行hmm训练,得到hmm模型库;

对多说话人情感语音数据模型进行说话人自适应训练,获得多说话人情感语音数据的平均音模型;

在目标说话人情感语音数据的指导下,对平均音模型进行说话人自适应变换,得到说话人相关的自适应模型;

通过对待合成目标说话人目标情感和语音文本进行文本分析,得到目标文本的上下文相关的标注文件;

在自适应模型的指导下,通过决策分析得到目标语音的上下文相关的hmm决策序列,并生成相应的语音参数;

将语音参数合成得到目标说话人目标情感的语音。

进一步的,所述提取训练模型所需的声学参数文件,通过straight参数提取。

进一步的,所述声学参数文件至少包括基频、谱参数。

进一步的,所述从目标文本文件中得到标注文件,包括:文本文件经过文本分析,由标注生成程序得到包含音素信息的单音素标注文件和包含上下文语境信息的上下文相关的标注文件。

进一步的,所述对基元模型进行hmm训练,在上下文属性和问题集的指导下进行。

进一步的,所述hmm模型库通过决策树聚类得到。

进一步的,所述对多说话人情感语音数据模型进行说话人自适应训练,通过约束最大似然线性回归算法进行;和/或,

所述对平均音模型进行说话人自适应变换,通过约束最大似然线性回归算法进行。

进一步的,所述说话人相关的自适应模型采用最大后验概率进行修正和更新。

进一步的,所述目标文本的上下文相关的标注文件,通过标注生成程序生成。

进一步的,所述将语音参数合成,采用straight语音合成器进行。

进一步的,所述对多说话人情感语音数据模型进行说话人自适应训练,包括:

给定训练情感语音数据和目标说话人情感语音数据;

对声学参数进行表征,并对声学参数的状态输出分布和时长分布进行估计、建模;

用线性回归方程对训练语音数据模型状态输出分布和平均音模型状态输出分布的差异进行归一化处理。

进一步的,所述给定训练情感语音数据和目标说话人情感语音数据之后,还包括:

采用最大似然准则估计两者之间的线性变换,并得到调整模型分布的协方差矩阵。

与现有技术相比,本发明的有益效果为:

1、本发明示例的语音合成方法,通过实验证明,与传统的基于隐markov模型的语音合成系统相比,在训练阶段加入了说话人自适应训练过程,获得多个说话人的情感语音平均音模型,通过此方法,可以减小语音库中说话人的差异所造成的影响,提高合成语音的情感相似度,在平均音模型的基础上,通过说话人自适应变换算法,只用少量的待合成的情感语料,就能够合成出自然度、流利度、情感相似度都很好的情感语音。

2、本发明示例的语音合成方法,采用多个说话人共同进行情感语音数据库的搭建,不仅可以提高可行性,数据库的情感内容也更丰富。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1为本发明实施例的工作流程图;

图2为本发明实施例说话人自适应算法流程图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示,本发明的一个实施例提供了一种基于多情感说话人自适应的情感语音合成方法,包括:

s1:从多说话人目标情感的第一情感语音数据库中提取训练模型所需的声学参数文件;

s2:从目标文本文件中得到标注文件;

s3:对基元模型进行hmm训练,得到hmm模型库;

s4:对多说话人情感语音数据模型进行说话人自适应训练,获得多说话人情感语音数据的平均音模型;

s5:在目标说话人情感语音数据的指导下,对平均音模型进行说话人自适应变换,得到说话人相关的自适应模型;

s6:通过对待合成目标说话人目标情感和语音文本进行文本分析,得到目标文本的上下文相关的标注文件;

s7:在自适应模型的指导下,通过决策分析得到目标语音的上下文相关的hmm决策序列,并生成相应的语音参数;

s8:将语音参数合成得到目标说话人目标情感的语音。

本实施例中,基元模型是指初始模型,训练模型是指训练以后获得的模型。

具体的,可分为训练阶段、自适应阶段、合成阶段三部分,如下:

训练阶段:给定多说话人目标情感的第一情感语音数据库和目标说话人目标情感的第二语音数据库,其中语音数据文件经过straight参数提取过程,得到训练模型所需的基频、谱参数等声学参数文件,文本文件经过文本分析过程,由标注生成程序得到包含音素信息的单音素标注文件和包含上下文语境信息的上下文相关的标注文件。然后在上下文属性和问题集的指导下,对基元模型进行hmm训练,并通过决策树聚类得到hmm模型库。训练阶段提取的声学参数文件,包括后续使用的straight参数、基频、谱参数等参数,训练阶段得到的hmm模型库,应用于整个hmm训练过程中。

自适应阶段:首先采用约束最大似然线性回归算法对多说话人情感语音数据模型进行说话人自适应训练,从而获得多说话人情感语音数据的平均音模型。之后,在目标说话人目标情感语音数据的指导下,同样采用约束最大似然线性回归算法对平均音模型进行说话人自适应变换,得到说话人相关的自适应模型,最后采用最大后验概率对自适应模型进行修正和更新。

合成阶段:和基于hmm的统计参数语音合成方法原理相同,首先输入待合成目标说话人目标情感的语音文本,然后通过文本分析过程,由标注生成程序生成得到目标文本的上下文相关的标注文件。在自适应模型的指导下,通过决策分析得到目标语音的上下文相关的hmm决策序列,并生成相应的语音参数。最后采用straight语音合成器,合成得到目标说话人目标情感的语音。

在传统的基于隐markov模型统计参数的情感语音合成系统中,为了训练得到优质的情感语音模型库,对情感语音数据的需求和要求都是比较严格的,如果采用单个说话人实现情感语音数据的录制,不仅需要耗费大量的时间和精力,情感语音数据的质量也得不到保证,可行性较低。但是,如果我们采用多个说话人共同进行情感语音数据库的搭建,不仅可以提高可行性,数据库的情感内容也更丰富。所以,本实施例选取了多个情感说话人进行情感语料库的搭建。

为了提高合成情感语音质量,本实施例采用多个情感说话人语音数据训练得到平均音模型,由于情感说话人性别、性格、情感表达等方面的差异,声学模型会有较大偏差。为了避免因为说话人变化对训练模型所造成的影响,本实施例采用说话人自适应训练(speakeradaptiontraining,sat)的方法,对说话人差异进行归一化,以此提高模型的准确度,进而提高合成情感语音质量。考虑到汉语清音和无音段没有基频,本文采用多空间概率分布hmm(multi-spaceprobabilitydistribution,msd-hmm)实现基频建模。基于上下文相关的msd-hsmm语音合成单元,本实施例采用约束最大似然线性回归算法(constrainedmaximumlikelihoodlinearregression,cmllr)对多说话人情感语料库进行说话人自适应训练,从而获得多说话人情感语音的平均音模型。

首先,给定训练情感语音数据和目标说话人情感语音数据,为了反映两个模型之间差异,本实施例采用最大似然准则去估计两个模型数据之间的线性变换,并得到调整模型分布的协方差矩阵。在自适应训练过程中,需要对基频参数、频谱参数、时长参数等声学参数进行表征,并对这些参数的状态输出分布和时长分布进行估计、建模,但是最初的隐markov模型没有对时长分布的精确描述,所以本实施例采用具有精确时长分布的半隐markov模型(hiddensemi-markovmodel,hsmm)对状态输出和时长分布进行同时控制建模,本实施例用一组线性回归方程,如公式(2.1)、公式(2.2)所示,来对说话人语音模型差异进行归一化处理:

其中,公式(2.1)所示为状态输出分布变换方程,表示训练语音数据模型s的状态输出的均值向量,w=[a,b]为训练语音数据模型s的状态输出分布与平均音模型之间差异的变换矩阵,oi为其平均观测向量;公式(2.2)所示为状态时长分布变换方程,表示训练语音数据模型s的状态时长的均值向量。x=[α,β]为训练语音数据模型s的状态时长分布与平均音模型之间差异的变换矩阵,di为其平均时长,其中,ξ=[ot,1]。

然后,在进行完说话人自适应训练后,就可以利用待合成目标说话人的少量情感语句,采用cmllr自适应算法对平均音模型进行说话人自适应变换,从而获得代表目标说话人的说话人自适应模型。在说话人自适应变换中,主要是利用说话人的状态输出和时长的概率分布的均值以及协方差矩阵,将混合语言平均音模型中的基频、频谱和时长参数变换为待合成语音的特征参数。如公式(2.3)所示为状态i下,特征向量o的变换方程,如公式(2.4)所示为状态i下,状态时长d的变换方程:

bi(o)=n(o;aμi-b,a∑iat)=|a-1|n(wξ;μi,∑i)(2.3)

其中,ξ=[ot,1],ψ=[d,1]t,μi为状态输出分布的均值,mi为时长分布的均值,∑i为对角协方差矩阵,为方差。w=[a-1b-1]为目标说话人状态输出概率密度分布的线性变换矩阵,x=[α-1-1]为状态时长概率密度分布的变换矩阵。

通过基于hsmm的自适应变换算法,可对语音声学特征参数进行归一化和特征处理。对于长度为t的自适应数据o,可对变换λ=(w,x)进行最大似然估计。

其中,λ为hsmm的参数集。

当目标说话人数据量有限,不能满足每个模型分布都可以对应一个转换矩阵进行估计,这就需要多个分布共享一个转换矩阵,也就是回归矩阵的绑定,最终可以通过采用较少的数据实现较好的自适应效果。如图2所示。

本实施例采用最大后验概率(maximumaposteriori,map)算法对模型进行修正和更新。对于给定的hsmm参数集,假设其前向概率为αt(i),后向概率为βt(i),在状态i下,其连续观测序列ot-d+1......ot的生成概率是:

最大后验概率估计描述如下:

式中,代表线性回归变换之后的均值向量,ω代表状态输出的map估计参数,而τ代表其时长分布map估计参数。代表自适应均值向量以及的加权平均map估计值。

搭建了本实施例所述的情感语音合成系统和传统基于隐markov模型的语音合成系统,通过实验证明,与传统的基于隐markov模型的语音合成系统相比,在训练阶段加入了说话人自适应训练过程,获得多个说话人的情感语音平均音模型,通过此方法,可以减小语音库中说话人的差异所造成的影响,提高合成语音的情感相似度,在平均音模型的基础上,通过说话人自适应变换算法,只用少量的待合成的情感语料,就能够合成出自然度、流利度、情感相似度都很好的情感语音。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

除说明书所述的技术特征外,其余技术特征为本领域技术人员的已知技术,为突出本发明的创新特点,其余技术特征在此不再赘述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1