一种基于频谱包络和基音周期的男女语音转换方法与流程

文档序号:15195377发布日期:2018-08-18 21:25阅读:764来源:国知局

本发明属于音频信号处理领域,涉及一种基于频谱包络和基音周期的男女语音转换方法。



背景技术:

随着人工智能技术的发展,人类的生活日益丰富,听演唱会,玩手机游戏和虚拟现实逐渐成为大众喜欢的娱乐方式,人们为了得到更好的听觉体验,对语音的要求也越来越高。科技的快速发展,使得音频行业与人类生活紧密地结合在一起,其中语音转换技术发挥着重要作用,现在语音在日常生活中有着广泛的使用,例如手机语音助手、智能家庭机器人、智能声控开关等。随着人类对语音的要求越来越高,语音转换技术显得越来越重要,应用也越来越普遍。在娱乐领域里电影、电视节目的配音中,可以将源演员的声音特征加入到本地化电影配音中,让配音更原汁原味;在卡拉ok等数字化娱乐中,加入可调比重的原唱者声音特征,改善听觉效果;在医疗领域里,声音转换技术可以恢复受损语音,帮助声道受损的病人提高声音的可懂性;在军事国防领域里,语音转换技术可以在通信中对说话人语音进行个性化伪装。

语音转化有着重要的理论价值和应用价值,大致分为三种方法:参数法、非参数法和混合法。参数法主要采用分析合成技术,根据语音信号的产生模型,分离语音信号的声源信息和声道信息,提取特征参数,将这些参数进行转换,合成新的语音。非参数法采用全局最优的方法进行转换,不明显的提取语音特征参数,根据统计意义上的数据进行转换,在一定程度上改变语音的个性特征。混合法仅提取语音信号的特征,对其余参数采用全局最优的方法,进行大致的转换。不管采用哪一种方法,都是获取声源和声道参数,让源语音与目标语音能够最优匹配。



技术实现要素:

本发明提出了一种基于频谱包络和基音周期的男女语音转换方案,可以解决个性化语音合成问题,例如在为电影配音时,有时很难找到需要配音的演员,可以通过男女语音转换技术合成所需要的配音效果,以节省电影耗时以及成本问题。

为了达到上述目的,本发明的方法包括为:

s1:男女语音训练阶段,先对男性和女性语音进行预处理,然后提取其频谱包络参数和基音周期,建立转换模型;

s2:男女语音转换阶段,将男性/女性语音的频谱包络参数和基音周期输入转换模型中,将模型输出参数进行语音合成,合成目标性别语音。

进一步,所述步骤s1中,所述的预处理是指设置一系列参数,对语音进行分帧加窗预处理。参数包括:帧长、帧移、窗函数,lsp系数的阶数。

其中,所述帧长,是指经过数字化的音频信号实际上是一个时变信号,为了能对音频信号进行分析,可以假设音频信号在几十毫秒的时间内是平稳的。为了得到短时音频信号,将语音信号分为一段一段地来分析其特征,其中每一段称为“一帧”,分帧是连续的,帧长一般取10~30毫秒,此时方案将分帧定为20毫秒。

其中,所述帧移,是指后一帧对前一帧的位移量,这样相邻两帧之间存在重叠部分。在分帧处理中,往往设置在相邻两帧之间有一部分重叠,如果相邻两帧之间不重叠,给出的基音可能有一个跳变,特征参数有可能变化较大,为了使特征参数平滑地变化,在两个不重叠的帧之间插一些帧来提取特征参数,此时方案的帧移为5毫秒。

其中,所述窗函数,是指为了减少频谱能量泄漏,可采用不同的截取函数对信号进行截断,截断函数称为窗函数。不同的窗函数对信号频谱的影响不一样,可根据信号的性质和处理要求选择不同的窗函数。如果分析窄带信号,且有较强的干扰噪声,则应选用旁瓣幅度小的窗函数,如汉宁窗、三角窗等;对于随时间按指数衰减的函数,可采用指数窗来提高信噪比。此时方案将窗函数定为海明窗。

其中,所述lsp(linearspectrumpair)系数,是线性预测编码lpc(linearpredictioncoding)系数的等效系数,其阶数选择的范围是8~24,此时方案将lsp系数的阶数定为10。lsp不仅具有良好的动态范围和滤波稳定性,还具有误差独立性,即某个频率点上的lsp的偏差只对该频率附近的语音频率产生影响,lsp良好的内插特性和量化特性比lpc系数能更好地代表音谱信息。

进一步,所述步骤s1中,所述的频谱包络参数提取中进行lsp分析,求出lsp系数。所述的韵律特征提取中,采用循环平均幅度差函数法获取基音周期t。

进一步,所述步骤s1中,所述建立转换模型中,分别通过bp(backpropagation)神经网络和grnn(generalregressionneuralnetwork)神经网络找出频谱包络参数lsp和基音周期t的非线性转换关系。

所述步骤s2中,进一步包括:

s21:获得男性/女性语音的频谱包络参数lsp和基音周期t

s22:将男性/女性语音的频谱包络参数lsp和基音周期t输入到转换模型中,得到转换后的目标性别语音的频谱包络参数lsp和基音周期t;;

s23:将目标性别语音的频谱包络参数lsp和基音周期t进行语音合成,最后输出并画出语音声纹图。

基于上述技术方案,本发明提出的基于频谱包络和基音周期的男女语音转换方法可以有效地实现性别之间的语音转换。

有益效果

本发明提出了一种基于频谱包络和基音周期的男女语音转换方案,利用神经网络获得男性和女性语音的频谱包络参数lsp和基音周期t的转换模型,用所求得的转换模型实现性别之间的语音转换。本发明可以创造出具有所希望性别的语音,解决了娱乐或教育领域中的困难,例如在为电影配音时,有时很难找到需要配音演员,人们可以通过男女语音转换技术合成所需要的配音效果,以节省电影耗时以及成本问题;在军事国防通信方面,由于保密性要求很高,利用男女语音转换技术,可以进行语音个性化伪装,按照保密协议改变说话人的语音,即使信息遭到窃听,也不会暴露说话人的身份信息。此外本发明在网络应用领域中也有着重要的作用,可以用于网络音乐直播或有声贺卡等网络娱乐中,为人们的生活增添了乐趣。

附图说明

图1是基于频谱包络和基音周期的男女语音转换方案框图

图2是男女语音转换频谱包络参数lsp的均方误差对比图

图3是男声转女声的语谱图

图4是女声转男声的语谱图

图5是男女语音转换基音周期t的均方误差对比结果

具体实施方式

下面将结合附图和实施例对本发明做进一步的说明。

本发明的优先实施例所用到的语料库为caisa汉语情感语料库,该语料库由中国科学院自动化研究所建立,由四位专业人士录制(两男两女)。采用matlab对情感语音转换方案进行仿真,在仿真中输入男性/女性语音,在说话内容相同的条件下,实现性别之间的语音转换,最后输出语音。

根据图1所示的基于频谱包络和基音周期的男女语音转换方案框图,具体实施步骤如下:

步骤a.男女语音训练阶段。

先对男性和女性语音进行预处理,然后提取其频谱包络参数lsp和基音周期t,建立转换模型。预处理是指设置一系列参数,对语音进行分帧加窗预处理。参数包括:帧长、帧移、窗函数,lsp系数的阶数。采用线性预测分析法提取频谱包络参数lsp,采用循环平均幅度差函数法提取基音周期t。分别通过bp神经网络和grnn神经网络找出频谱包络参数lsp和基音周期t的非线性转换关系,建立转换模型。

其中,线性预测分析法是用预测系数表示声道模型,声道模型表达式如下,g为增益常数,ai为预测系数,p为lsp系数的阶数,a(z)为预测误差滤波器。

lsp系数可通过求解p+1阶对称与反对称多项式的共轭复根得到,p+1阶对称与反对称多项式表示如下:

p(z)=a(z)+z-(p+1)a(z-1)

q(z)=a(z)-z-(p+1)a(z-1)

如果p是偶数,p(z)和q(z)各有一个实根,其中p(z)有一个实根z=-1,q(z)有一个实根z=1。如果p是奇数,则q(z)有±1两个实根,p(z)没有实根。假设p是偶数,p(z)和q(z)各有p/2个共轭复根位于单位圆上,共轭复根的形式为设p(z)的零点为q(z)的零点为则满足

0<w1<θ1<…<wp/2<θp/2<π

wi和θi分别为p(z)和q(z)的第i个根。求解lsp系数,就是求解下列公式等于0时的coswi和cosθi的值。

其中,基音周期t可由短时平均幅度差函数法来确定。语音信号的时间序列为x(n),加窗分帧后得到第i帧语音信号xi(m),帧长为n,则短时平均幅度差函数表示如下,k为延迟量,当k=0,±t,±2t,±3t,…时,di(k)=0。

累加计算项m=n-k-1随着k的增加而减小,这使di(k)极大值的幅值随着延迟时间k的增加而逐渐下降,相应极小值深度变浅,为了克服该问题,采用循环平均幅度差函数法,将平均幅度差函数重新定义如下,k=0~n-1。

其中,bp神经网络具有很强的非线性映射能力和柔性的网络结构,能够有效地获得频谱包络参数lsp的非线性转换规则。输入层信号xi通过隐含层节点作用于输出层节点,经过非线形变换,产生输出信号yk。网络训练的每个样本包括输入向量x和期望输出量t,依据网络输出值y与期望输出值t之间的偏差来调整输入节点与隐含层节点的权值wij和阈值bj以及隐层节点与输出节点之间的权值tjk和阈值bk,使误差沿梯度方向下降,经过反复学习训练,确定与最小误差相对应的网络参数(权值和阈值),训练即停止。此时经过训练的神经网络即能对类似样本的输入信息,自行处理输出误差最小的经过非线形转换的信息。bp网络模型包括节点输出模型、作用函数模型、误差计算模型和自学习模型。

1.节点输出模型

隐含层节点输出:

输出层节点输出:

m是输入层节点数,n是输出层节点数,b为神经元阈值,f为激活函数。

2.激活函数模型,

选取sigmoid函数,表达式为:

3.误差计算模型

误差计算模型是反映神经网络期望输出与计算输出之间误差大小的函数,表达式如下,tpj是第i个节点的期望输出值,opj是第i个节点的计算输出值。

4.自学习模型

神经网络的学习过程,是连接上下层节点之间权重w和阈值b的修正过程,自学习模型为:

输入层和隐含层之间的权值和阈值调整:

隐含层和输出层之间的权值和阈值调整:

因为时域上的基音周期t与频域上的lsp关联度不大,所以使用grnn神经网络来获得基音周期t的转换模型。grnn神经网络具有很强的非线性映射能力和学习速度,样本数据少时,预测效果很好,还可以处理不稳定数据,能够有效地获得基音周期t的转换模型。

grnn是四层网络结构:输入层,模式层,求和层和输出层。输入层直接将输入变量传递给模式层,输入变量通过模式层的传递函数传递到求和层,求和层有两个节点,第一个节点是所有模式层神经元的输出进行算术求和,第二个节点是所有模式层神经元进行加权求和。第二个节点除以第一个节点就是输出层的输出。

模式层的传递函数:

求和层第一个节点的传递函数:

求和层第二个节点的传递函数:

步骤b.男女语音转换阶段

选取男性/女性测试语音样本,根据男女语音训练阶段设置好的参数进行相同的预处理操作,提取其频谱包络参数lsp和基音周期t,用求得的转换模型将男性/女性语音的谱包络参数lsp和基音周期t转换成目标性别语音的谱包络参数lsp和基音周期t,然后进行语音合成,最后输出。

本实施例选用随机85句男性和女性语音作为训练集,15句作为测试集来评价实现效果。在频谱包络参数lsp转换中,提取了10阶lsp系数进行模型转换。采用均方误差(mse)的评判方法将bp和传统的gmm的转换效果进行了对比,图2的结果表明了bp神经网络能更好实现频谱包络参数lsp的匹配拟合。在基音周期t转换中,同样采用均方误差的评判方法将grnn和常用的rbf的转换效果进行了对比,图5的结果表明grnn神经网络实现基音周期t的匹配拟合效果更好。

对于男女语音转换,随机展示了不同性别语音转换的结果。图3和图4是男声转女声和女声转男声的语谱图,可从图中看到,转换后的实际性别语音与目标性别语音的声纹一致,该结果表明,在相同语义的情况下,男女语音转换是可以实现的。上面结合附图对本发明进行了示例性描述,显然本发明具体实现不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行各种改进,或未经过改进直接应用于其他场合,均在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1