一种使用盲语音分离的语音转换系统和方法

文档序号:2833055阅读:1134来源:国知局
专利名称:一种使用盲语音分离的语音转换系统和方法
技术领域
本发明涉及语音转换、分析以及信号处理,具体涉及ー种使用盲语音分离的语音转换系统和方法。
背景技术
语音转换是要改变ー个说话人的语音,使之听起来象是另外ー个人的语音,即实现特定的源说话人到目标说话人之间音色特征的转换。语音转换系统要进行两次语音输入,第一次需要采集一定量的源说话人语音和目标说话人语音建立两个平行语音库,然后通过对源和目标语音库中的语音进行特征參数提取及训练,建立源到目标的转换函数;第二次需要输入任意内容的源说话人语音到转换函数中,转换系统即可输出相同内容的目标说话人语音。语音转换是语音信号处理领域的一个较新的分支,具有很重要的理论价值和实用价值。语音转换的研究对语音分析、语音编码、语音合成、语音增强、语音识别、说话人识别等语音信号处理的其它各个领域有重要的促进作用。目前常用的语音转换方法是语音特征參数转换,这种方法需要精确提取源说话人和目标说话人语音的特征參数,因此对语音转换器输入的语音的清晰度和信噪比都有较高的要求。现在的语音转换系统输入的语音一般是在低噪声条件下或将声源与环境隔离得到的高质量语音。但在现实生活中,很多地方都存在背景噪声,包括普通环境产生的多种噪音信号、其他人的背景谈话产生的信号以及从这些信号中的每ー种信号中产生的回声、反射和混响。这就极大的限制了语音转换器的对各种环境的适应性和实用性。现有技术噪音滤波器将具有预定特征的信号识别为白噪声信号。然后从输入信号中减去这些信号。虽然这些方法对实时语音去噪是足够简单和快速的,但却不容易适应不同的声音环境,并且会导致待分辨语音信号的明显恶化。噪音特征的预定假设可能涵盖过广,也可能涵盖不足。结果这些方法可能会将个人语音的某些部分视为“噪音”并因此将其从输入语音信号中除去。同时,这些方法可能会将背景噪音的某些部分,例如音乐或谈话, 视为非噪音,并因此将其包含在输出语音信号中。语音转换系统的输入模块对于在不同的噪声环境下观测所得的语音信号x(t),是没有任何先验知识的。也就是要在预先并不知道观测信号x(t)各独立源的相关信息的条件下,分离出想要的源信号s (t)(期望语音),这被称作盲信源分离(BSS)技木。独立分量分析(ICA)是ー种用于分离混合源信号的方法,它的目的是将来自多个独立源的混合信号进行分离。ICA的发展与盲信源分离(BSS)是紧密相连的。对于基于独立分量分析的盲分离技术,1986年JeannyHerauh第一次提出了对盲源分离问题的研究。2004年,Zhi jianYuan和ErkkiOja提出了ー种用于非负独立分量分析的FastICA。目前,国际国内对盲源分离方法扔处在不断发展的阶段,新的理论和新的方法在源源不断的涌现。到目前为止,对盲源分离的研究主要分为两个类别,分别是多通道盲源分离算法的研究和单通道盲源分离算法的研究。但当前流行的基于ICA的盲信源分离方法,算法复杂度较高,分离过程的运算量较大,不能满足语音转换系统对实时性的要求。由以可知,想在噪声环境中实现语音转换,需要将想要的源(或目标)说话人的语音从背景噪声之中分离出来。即所需要的是一种在噪音环境下能够实时地实现盲信源分离 (BSS)的语音转换系统。

发明内容
为避免以上现有技术的不足,本发明提出一种使用盲语音分离的语音转换系统和方法,以解决在有背景噪声的影响下,提高语音转换的效果。本发明的目的通过以下技术方案来实现一种使用盲语音分离的语音转换系统和方法,该方法包括如下步骤I)将采集到的语音信号利用子带分解成低频和高频部分,且分别将低频部分转换得到的语音作为ICA的第一路观测信号X1 (t),将高频部分转换得到的语音信号作为ICA的第二路观测信号X2 (t);2)对所述观测信号进行语音分离;3)对分离出的语音信号提取语音特征参数,获得的源和目标说话人语音的语音特征参数;4)对所述语音特征参数输入进行语音转换;5)对进行语音转换后的语音特征参数进行语音合成得到合成语音。进一步,所述步骤2)对所述观测信号进行语音分离包括如下步骤201)将所述两路信号X1 (t)、X2 (t)构成二维观测信号矩阵X (t) = [xi(t),x2(t)] T,作为待分离观测信号;202)将观测信号X (t)进行分块处理,根据观测信号X (t)的维度合理设置块的大203)对所有分块的观测信号进行处理,得到他们各自的最优分离信号Yi⑴,再按观测信号分块过程的逆向变换得到整个观测信号的最优分离信号Y(t);204)去除信号Y(t)中的背景噪音信号部分,保留Y(t)中期望得到的说话人语音信号,得到语音转换系统需要输入的源或和目标说话人的语音信号;进一步,所述步骤3)对分离出的语音信号提取语音特征参数是分别提取源和目标说话人的语音信号的基音频率和线谱对频率LSF,提取方式如下对分离出的语音信号进行不等长的分帧,对分帧后的语音进行倒谱变换,根据倒谱波形中第二个冲激的位置可求得对应的基音频率;对分帧后的语音进行线性预测分析 LPC,将分析得到的线性预测系数进行等价变换,得到线谱对频率参数LSF。进一步,所述步骤4)中对所述语音特征参数输入进行语音转换是采用高斯混合模型对源和目标说话人的语音特征参数进行语音转换,得到转换后的目标说话人语音的特征参数。进一步,所述步骤5)中对进行语音转换后的语音特征参数进行语音合成得到合成语音,具体是指采用激励源-声道模型的语音合成器对步骤4中转换后的目标说话人语音的特征参数进行合成,得到转换后的目标说话人语音。一种使用盲语音分离的语音转换系统,该系统包括
子带分离単元,将采集到的语音信号利用子带分解成低频和高频部分,且分别将低频部分转换得到的语音作为ICA的第一路观测信号X1 (t),将高频部分转换得到的语音信号作为ICA的第二路观测信号X2 (t);语音分离单元,对所述观测信号进行语音分离;特征提取単元,对分离出的语音信号提取语音特征參数,获得的源和目标说话人语音的语音特征參数;语音转换单元,对所述语音特征參数输入进行语音转换;语音合成単元,对进行语音转换后的语音特征參数进行语音合成得到合成语音。本发明的优点在于I.将语音转换技术与盲语音分离技术有机的结合起来,在有背景噪声的情境下实现语音的正确转换,能实现了在各种噪声环境下的语音转换,克服了现有语音转换系统对低噪声环境的依赖性,使得语音转换系统能够在更多更普遍的场合实现应用。2.将子带分解技术应用于盲信源分离,改进了盲信源分离方法,相对于现有盲信源分离方法,分离结果得到优化。3.在独立分量分析之前加入分块处理,优化了分块之后的学习过程,相对于现有独立分量分析方法,运算效率得到提高,整个语音转换系统的实时性提高。


图I :本发明语音转换合成方法流程示意图。
具体实施例方式下面结合图I详述本发明语音转换合成方法的具体步骤。步骤ー采用子带分解获得两通道数据语音转换系统需要的源说话人或目标说话人的语音通常由麦克风得到,麦克风采集到的含噪说话人语音只能构成单通道信号,而独立分量分析(ICA)需要观测信号Xi (t) (即背景噪声与期望语音的混合信号)数大于或等于源信号(即混合之前的各独立源信号)数,故将采集到的语音信号采用现有的子带分解技术成两部分低频部分与高频部分。分别将低频部分转换得到的语音作为ICA的第一路观测信号X1 (t),同理将高频部分转换得到的语音信号作为ICA的第二路观测信号X2(t)。步骤ニ 根据分块处理的独立分量分析原理ICA分离语音信号独立分量分析(ICA)方法g在求出ー个分离矩阵W,使得观测信号X(t)(即背景噪声与期望语音的混合信号)经过分离矩阵W之后的得到的分离信号Y(t) = [yi,y2,y3…… yJT逼近具有多个独立分量的源信号S (t),即Y = WX,且分离后的各信源之间相互独立。I、将步骤一得到的两路信号Xl(t)、X2(t)构成ニ维观测信号矩阵X(t) = [X1 (t), x2(t)]T,作为ICA的待分离观测信号。2、将观测信号X(t)进行分块处理,根据语音信号长度合理设置块的大小。3、选择第一个语音信号块,将分离矩阵和学习步长的迭代初值分别设为任意矢量 W(O)和U (0),得到初次已分离矩阵Y(O) =W(O)X0i)将上一次迭代过程的分离矩阵W(k)、学习步长y (k)、已分离信号Y(k)输入自然梯度算法的在线迭代式(式2,其中f(Y(k))为非线性激活函数),输出新的分离矩阵 W(k+1)。(k表不迭代序号)当AW = ff(k+l)-ff(k)收敛于0时,结束迭代,此时得到的分离矩阵W (k+1)为最优分离矩阵,如AW未收敛到0,则继续执行步骤ii)。ii)将分离矩阵W(k)、ff(k+l)和学习步长U (k)输入YUAN LX算法的学习步长迭代式(式3,其中traceO表示求矩阵的迹,P表示相关的概率密度函数),输出新的学习步长U (k+1);将分离矩阵W(k+1)和观测信号块Xi (t)输入到分离关系式(式1),输出 Y(k+1)。iii)将步骤i)中输出的W(k+1)、步骤ii)中输出的U (k+1)和Y(k+1)作为步骤 i)的输入,再次进行迭代。通过上述的迭代方法,得到当前语音块的最优分离矩阵Wi (t)和相应的最优分离信号Yi(t)。Y(k) = ff(k)X(k)(I)W(k+1) =ff(k) + u (k) [1-f (Y(k))YT(k)]ff(k) (2)u (k+1) = U (k) +ptrace (ffT (k+1) W (k))(3)4.选择下一个语音信号块,将分离矩阵的迭代初值W(O)设为上一个语音块通过步骤3找到的最优分离矩阵,将学习步长的迭代初值y (0)设为步骤3中与此最优分离矩阵对应的学习步长。执行步骤3,得到当前块的最优分离矩阵和最优分离信号。5.对所有语音信号块执行步骤4,得到他们各自的最优分离信号Yi⑴,按语音信号分块过程的逆向变换得到整个语音信号的最优分离信号Y(t)。6.矩阵Y(t)中背景噪声与期望语音已相互分离开来,去除Y(t)中的背景噪音信号部分,保留Y(t)中期望得到的说话人语音信号(即语音转换系统需要输入的源或目标说话人的语音信号)。步骤三提取语音特征参数对于通过步骤二从含背景噪声的混合信号中分离出来的期望语音信号(即希望获得的源和目标说话人语音),本发明采用了一种新的语音特征参数的提取。在对语音参数提前,都要进行语音的预处理,其中包括分帧。传统的分针都是固定帧长、固定时长的分帧。这里我们采用的是不等长分帧。将分离出噪声之后的语音信号根据能量谱先进行清浊音判断,由于浊音承载着的语音信息比清音部分要大,因此可以对清音部分分帧的长度比浊音部分分帧长度长一些,但是离散傅里叶变换时应该进行等点变换。这样做的优点是不仅可以减小计算量、还可减小语音信号中的噪声。提取的语音特征参数主要是基音频率和频谱参数(线谱对频率LSF):对分帧后的语音进行倒谱变换,根据倒谱波形中第二个冲激的位置可求得对应的基音频率;对分帧后的语音进行线性预测分析(LPC),将分析得到的线性预测系数进行等价变换,得到线谱对频率参数LSF。基音频率和线谱对频率参数LSF就是待转换的每一帧语音的特征参数。对源说话人和目标说话人的语音分别提取语音特征参数。步骤四采用高斯混合模型进行语音转换将通过步骤三得到的源说话人和目标说话人的语音特征参数输入语音转换器进行转换。
语音转换器采用高斯混合模型,该模型是现有模型,具体步骤如下I、对源语音特征参数序列和目标特征参数序列进行动态时间规整(DTW),形成 ——对应的特征矢量对2、利用高斯混合模型对源语音特征参数空间进行概率密度建模3、用源和目标特征参数的联合矩阵进行训练,得到高斯混合模型的三个参数加权系数a m,均值向量U111和协方差矩阵E m。4、根据上述3得到高斯混合模型的三个参数矩阵,将相应的参数先代入式(5)求出转换函数的权重系数,再将权重系数I和相应的均值向量以及协方差矩阵Em代入转换函数的表达式(式4),确立两特定人声之间的转换函数。
W=I
_ (5)式(4)即为根据输入的源说话人和目标说话人语音的特征参数得到源-目标的语音转换函数5、将待转换的源说话人语音的特征参数矩阵输入到转换函数(式4)中,得到转换后的目标说话人语音的特征参数。步骤五采用激励源-声道模型的语音合成器合成语音语音合成模块输入的是通过步骤四转换得到的目标说话人语音的特征参数(包括转换得到的基音频率及声道谱参数LSF),它输出的是转换后的目标说话人语音。该模块是现有技术。语音合成模块采用激励源-声道滤波器模型。由输入的基音周期控制的周期脉冲发生器与随机噪声发生器组成语音信号激励源;由输入的线谱对频率(LSF)参数逆变换得线性预测(LPC)系数,据此确定声道全极点滤波器,如式(6)所示。将语音信号激励源输入声道滤波器,得到合成语音。
H(z)=^y——(6)
i=l其中ai是线性预测(LPC)系数,i表示线性预测器的阶数,G是声道全极点滤波器的增益常数。本发明还包括一种使用盲语音分离的语音转换系统,该系统包括子带分离单元,将采集到的语音信号利用子带分解成低频和高频部分,且分别将低频部分转换得到的语音作为ICA的第一路观测信号X1 (t),将高频部分转换得到的语音信号作为ICA的第二路观测信号X2 (t);语音分离单元,对所述观测信号进行语音分离;特征提取单元,对分离出的语音信号提取语音特征参数,获得的源和目标说话人语音的语音特征参数;语音转换单元,对所述语音特征参数输入进行语音转换;
8
语音合成単元,对进行语音转换后的语音特征參数进行语音合成得到合成语音。本发明提出的盲语音分离的语音转换系统可以在各种噪声环境下实现特定人声之间的转换,例如,如要在KTV这种嘈杂的存在背景音乐的环境下实现唱歌人用歌星或他人的声音唱出歌曲,首先就要用盲信源分离技术,将语音转换系统所需要的唱歌人的声音从麦克风所接收到的混合信号(其中含有环境噪声、背景音乐、其他人的声音和所需唱歌人的声音)中分离出来,然后输入语音转换系统进行转换并合成出目标人的歌声。由于唱歌对整个语音转换系统的实时性要求很高,所以这时盲信源分离的运算效率就显得尤为重要。同样,该系统也可以应用到常出现声音反射及混响的演讲或会议发言等场合,以满足人们在这些场合语音转换的需要。应当理解,以上借助优选实施例对本发明的技术方案进行的详细说明是示意性的而非限制性的。本领域的普通技术人员在阅读本发明说明书的基础上可以对各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
权利要求
1.一种使用盲语音分离的语音转换方法,其特征在于,该方法包括如下步骤1)将采集到的语音信号利用子带分解成低频和高频部分,且分别将低频部分转换得到的语音作为ICA的第一路观测信号X1 (t),将高频部分转换得到的语音信号作为ICA的第二路观测信号X2 (t);2)对所述观测信号进行语音分离;3)对分离出的语音信号提取语音特征参数,获得的源和目标说话人语音的语音特征参数;4)对所述语音特征参数输入进行语音转换;5)对进行语音转换后的语音特征参数进行语音合成得到合成语音。
2.根据权利要求I所述的一种使用盲语音分离的语音转换系统和方法,其特征在于, 所述步骤2)对所述观测信号进行语音分离包括如下步骤201)将所述两路信号X1(t)、X2 (t)构成二维观测信号矩阵X (t) = [Xl(t),X2(t)]T,作为待分离观测信号;202)将观测信号X(t)进行分块处理,根据观测信号X(t)的维度合理设置块的大小;203)对所有分块的观测信号进行处理,得到他们各自的最优分离信号Yi(t),再按观测信号分块过程的逆向变换得到整个观测信号的最优分离信号Y(t);204)去除信号Y(t)中的背景噪音信号部分,保留Y(t)中期望得到的说话人语音信号, 得到语音转换系统需要输入的源或和目标说话人的语音信号。
3.根据权利要求I所述的一种使用盲语音分离的语音转换系统和方法,其特征在于, 所述步骤3)对分离出的语音信号提取语音特征参数是分别提取源和目标说话人的语音信号的基音频率和线谱对频率LSF,提取方式如下对分离出的语音信号进行不等长的分帧,对分帧后的语音进行倒谱变换,根据倒谱波形中第二个冲激的位置可求得对应的基音频率;对分帧后的语音进行线性预测分析LPC, 将分析得到的线性预测系数进行等价变换,得到线谱对频率参数LSF。
4.根据权利要求I所述的一种使用盲语音分离的语音转换系统和方法,其特征在于, 所述步骤4)中对所述语音特征参数输入进行语音转换是采用高斯混合模型对源和目标说话人的语音特征参数进行语音转换,得到转换后的目标说话人语音的特征参数。
5.根据权利要求I所述的一种使用盲语音分离的语音转换系统和方法,其特征在于, 所述步骤5)中对进行语音转换后的语音特征参数进行语音合成得到合成语音,具体是指采用激励源-声道模型的语音合成器对步骤4中转换后的目标说话人语音的特征参数进行合成,得到转换后的目标说话人语音。
6.一种使用盲语音分离的语音转换系统,其特征在于,该系统包括子带分离单元,将采集到的语音信号利用子带分解成低频和高频部分,且分别将低频部分转换得到的语音作为ICA的第一路观测信号X1 (t),将高频部分转换得到的语音信号作为ICA的第二路观测信号X2⑴;语音分离单元,对所述观测信号进行语音分离;特征提取单元,对分离出的语音信号提取语音特征参数,获得的源和目标说话人语音的语音特征参数;语音转换单元,对所述语音特征参数输入进行语音转换;语音合成单元,对进行语音转换后的语音特征参数进行语音合成得到合成语音。
全文摘要
本发明涉及一种使用盲语音分离的语音转换系统和方法,通过在语音转换系统前端的语音输入模块中,运用子带分解与独立分量分析(ICA)结合的盲语音分离方法,将背景噪音与期待语音的混合信号进行分离,将分离得到的期待语音经过不等长分帧处理后进行转换,实现了在噪声环境中特定人声之间的转换。
文档编号G10L15/14GK102592607SQ201210090640
公开日2012年7月18日 申请日期2012年3月30日 优先权日2012年3月30日
发明者张嘉驰, 杨柳, 汶跃龙, 申艳, 范礼乾, 蒋诗慧 申请人:北京交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1