本发明涉及语音转换,尤其涉及一种基于基频特征段的混合模型语音情感转换方法。
背景技术:
1、随着语音转换技术的快速发展,语音转换的质量、相似度和自然度都得到了很大的提升,语音转换技术向不同方向不断的前进,诞生了诸多延伸领域。其中语音情感转换是语音技术领域的一个新兴研究领域,其旨在不改变其语言内容的情况下转换语音信号的情感表达。近年来,由于深度学习的迅速发展,关于深度学习的语音情感研究取得了显著的成绩,其能够学习到语音频谱的非线性特征的细节,且更加符合语音转换特点。其中分为使用非平行语音数据的方法和使用平行语音数据的方法。在使用非平行语音数据的方法中,包括利用cyclegan和stargan学习情感域之间的转换、用自动编码器从语音中分离情感元素,以及利用文本到语音(tts)或自动语音识别(asr)进行情感的建模。上述方法通常在依赖说话者的任务中工作得很好,不需要平行训练数据,但是需要大量的非平行训练数据,以及消耗大量的训练和转换时间,在实际应用中不适用。然而在使用平行训练数据的方法中,例如深度神经网络、高速公路神经网络、深度双向长短期记忆网络(dbilstm)和序列对序列模型。这些方法通常在预处理时,使用时间动态规划算法(dtw)进行平行语音数据的对齐,然后通过深度学习模型学习平行数据之间的语音特征映射关系,进而进行语音情感的转换,并且上述方法在训练和转换速度上占有优势,且不需要大量的训练数据。
2、在使用平行语料的方法中,深度双向长短期记忆网络dbilstm已经能够在语言学习、语音识别、tts合成和语音转换等序列建模任务中显示出良好的效果。但现有技术的dbilstm方案中基频和频谱特征是使用同一模型一起进行转换,没有针对基频特征单独转换,导致基频特征和频谱特征相互影响,同时由于只对基频特征进行了线性转换,没有使用机器学习的方法转换不同情感的基频特征,而基频特征又是影响音色的主要特征之一,导致转换后的语音自然度不高。
技术实现思路
1、本发明的目的是提供一种基于基频特征段的混合模型语音情感转换方法,该方法不仅对情感语音的频谱特征进行了转换,同时对基频特征也进行了单独的模型训练与转换,相较于传统高斯归一化转换有着更好的转换效果,从而能实现高质量的语音情感转换。
2、本发明的目的是通过以下技术方案实现的:
3、一种基于基频特征段的混合模型语音情感转换方法,所述方法包括:
4、步骤1、首先通过soundfile库将样本中的源语音和目标语音导入,获得语音情感数据和采样率,并对语音情感数据进行低能量过滤操作;
5、步骤2、使用world声码器从步骤1处理后的源语音和目标语音中提取出基频特征和频谱特征,并通过动态时间规整dtw算法进行对齐操作,使源语音的特征和目标语音的特征形成映射关系;
6、步骤3、针对提取出的频谱特征,利用深度双向长短期记忆网络dbilstm模型进行频谱特征的训练转换;
7、步骤4、针对提取出的基频特征,利用人工神经网络ann模型进行基频特征的训练转换;
8、步骤5、通过步骤3和步骤4训练完成的dbilstm模型和ann模型,分别转换输入语音的频谱特征和基频特征,达到语音情感转换的目的。
9、由上述本发明提供的技术方案可以看出,上述方法不仅对情感语音的频谱特征进行了转换,同时对基频特征也进行了单独的模型训练与转换,相较于传统高斯归一化转换有着更好的转换效果,从而能实现高质量的语音情感转换。
1.一种基于基频特征段的混合模型语音情感转换方法,其特征在于,所述方法包括:
2.根据权利要求1所述基于基频特征段的混合模型语音情感转换方法,其特征在于,在步骤1中,对语音情感数据进行低能量过滤操作的过程为:
3.根据权利要求1所述基于基频特征段的混合模型语音情感转换方法,其特征在于,在步骤2中,通过dtw算法进行对齐操作,使源语音的特征和目标语音的特征形成映射关系的过程为:
4.根据权利要求1所述基于基频特征段的混合模型语音情感转换方法,其特征在于,在步骤3中,所述深度双向长短期记忆网络dbilstm模型结构根据ming文中使用两个双向lstm层,再加一个全连接层构成的一个深层网络体系结构,能向前和向后学习上下文信息,以捕获语音特征的高级表示;
5.根据权利要求1所述基于基频特征段的混合模型语音情感转换方法,其特征在于,所述步骤4的过程为:
6.根据权利要求1所述基于基频特征段的混合模型语音情感转换方法,其特征在于,在步骤5中,所述dbilstm模型和ann模型的损失函数都是均方误差mse,样本(x,y)的误差l(x,y;w,b)表示为:
7.根据权利要求6所述基于基频特征段的混合模型语音情感转换方法,其特征在于,所述使用自适应矩估计优化器adam作为梯度下降算法来更新神经网络的权重过程具体为: