强鲁棒性语音分离方法

文档序号：2837064阅读：691来源：国知局

专利名称：强鲁棒性语音分离方法
技术领域：
本发明涉及一种实现两混合语音分离而鲁棒性较强的方法。
背景技术：
鸡尾酒会效应通常会影响语音质量。如何将两个不同方向传来的混合语音分离，现有的解决办法是1)使用扬声器阵列实现波达方向(DOA)识别技术及2)基于独立分量分析(ICA)的盲分离技术。阵列方法主瓣宽度难以做到很窄，旁瓣难以抑制；盲分离技术则要求信号互不相关，这使得此技术的实际应用受阻。
中国专利公开CN00804884.3用于语音识别的声调特性，(皇家菲利浦电子有限公司)增强的声音声调特性首先通过引入带有自适应切除的在线的先行追溯基频(F0)轮廓而得到，这个基频用作为信号预处理前端。F0轮廓随后借助于时变的加权移动平均(MA)滤波器并结合F0轮廓的加权的(更多地关注元音)最小平方而被分解为词汇声调影响、词组语调影响、和随机影响。词组语调影响被定义为发声的F0轮廓的长期趋势，它可用F0轮廓的加权移动平均来近似，而其加权值与信号的周期性程度有关。
CN200510067777.0利用中枢网络分离语音信号，它能够分离和重建在语音信号的频率成分被背景噪声掩盖的环境中传输的语音信号。该语音分离系统从一个音频源获得一个伴有噪声的语音信号。然后噪声语音信号可通过一个已训练为能够从背景噪声中隔离和重建纯净语音信号的中枢网络进行馈送。一旦噪声语音信号通过中枢网络进行馈送，该语音信号分离系统就产生一个充分降噪的估值语音信号。
CN00815076.1语音识别的健壮特征提取方法和装置，涉及一种在有噪声环境下用于语音识别的健壮(robust)特征提取方法和装置，在其中按频谱分量的特征对一个语音信号分段。将语音信号划分成L次能带中的许多短期频谱分量，其中的L＝1，2，...，并且根据仅含噪声的片段估算一个噪声频谱。然后根据对应的短期频谱执行对估算的噪声频谱的频谱减法，并且为各个短期频谱分量计算出含噪声的概率。最后为含语音的概率很低的各短期频谱的这些频谱分量执行内插，以便平滑那些仅含噪声的短期频谱。通过对含噪声的频谱分量执行内插就能从近旁找到可靠的频谱语音分量。
但现有技术未涉及混合语音分离过滤，尤其是鲁棒性高，计算量较小的语音分离方法并未作为专利提出。
如图1，假设房间中有两个声源发出音频信号(s1和s2)，同时有两个麦克风对信号采样(x1和x2)。如果两声源同时发声，s1和s2通过房间固有的传递函数Hij，i，j＝1，2混合，麦克风将会得到混合语音。

发明内容
本发明的目的是提供一种鲁棒性高，计算量较小的语音分离算法。该方法假设声源存在足够长的单声源作用时段，采用简单的单声源作用时段检测方法，在单声源作用时段实现分离滤波器估计，两声源同时作用时段进行混合语音分离。
本发明是通过以下技术方案来实现的强鲁棒性语音分离方法，采用两路麦克风接收信号x1和x2，且每路信号分别联接分离滤波器Wij(n)，i，j＝1，2(如图1)，同时x1和x2分别联接检测滤波器Di(n)，i＝1，2(如图2)，使用单声源作用检测方法检测出单声源作用时段后，再进行分离滤波器估计，这样，两声源同时作用时就可以进行混合语音分离；本发明提供一种鲁棒性较强的方法，可以实现混合语音的分离，在系统输出分别得到s1和s2还原后的信号u1和u2。方法的关键在于假设声源存在足够长的单声源作用时段(即只有si，i＝1或2，作用的时段)，此时x1、x2分别为xj(n)=Σk=0K-1hji(k)si(n-k)+vj(n),j=1,2]]>(1)其中，hji(k)是分离滤波器Hji的第k个系数。利用自适应仿射算法最小化u3-i(n)，即得W3-i,i&cong;-Ai&CircleTimes;H3-i,i,W3-i,3-i&cong;Ai&CircleTimes;Hji]]>(2)其中Ai是长度为(L-K+1)的任意滤波器(假设L＞K)。
估计出分离滤波器后，两声源同时发声时可以在输出端得到分离后的语音信号u1(n)&cong;A1Σk=02K-2D(k)s1(n-k)]]>u2(n)&cong;A2Σk=02K-2D(k)s2(n-k).]]>(3)其中，D＝H11H22-H12H21，“”代表卷积。
A)采用单声源作用检测方法，使用检测滤波器Di(n)，i＝1，2实现单声源作用时段的检测即检测出只有一个声源(s1或s2)发声的时段。当然，两麦克风接收到的信号(x1和x2)同时输入；B)当单声源作用时段被检测出后，开始分离滤波器Wij(n)，i，j＝1，2的估计；C)使用分离滤波器分离混合语音，得到分离后的语音信号ui(n)，i＝1，2。
本发明特点是本发明采用一种简单的单声源作用检测方法，在单声源作用时段进行分离滤波器估计，两声源同时作用时段进行混合语音分离。本方法思路简单，计算量不大，鲁棒性好，较易实现。
四

图1为语音混合原理及分离滤波器(四个分离滤波器中，{Wj1}与x1联接，{Wj2}与x2联接，j＝1，2)的结构框图；图2为检测滤波器(两个检测滤波器D1、D2分别与x1、x2联接)的结构框图。
五具体实施例方式
下面通过实施案例对本发明进行详细说明如图1，假设房间中有两个声源发出音频信号(s1和s2)，两麦克风接收信号，要求麦克风之间的距离大于1米，可以是全指向性的(如麦克风置于房间中间的情况)或者指向声源方向(如麦克风置于房间壁面上的情况)。对于声源的位置没有特别的限制，但两声源之间距离越大，分离效果会越好。检测滤波器的检测、分离滤波器的估计及混合语音的分离均可由软件完成。视听室实地录音中，两扬声器相距1米，两全指向性麦克风相距3米，置于房间中间，该算法在正常的背景噪声下(信噪比为13dB)可达到的信号干扰比(即其任一输出中两声源信号的能量之比值)SIR指标为18dB；低信噪比(5dB)时，SIR仍可达到14dB，完全可以实现混合语音分离，充分体现了此算法的鲁棒性。
本发明实施包括三个阶段单声源作用检测阶段；分离滤波器估计阶段；及混合语音分离阶段。第一阶段即步骤A)由图2所示滤波器组Di(n)，i＝1，2实现，第二、三阶段即步骤B)、C)由图1所示滤波器组Wij(n)，i，j＝1，2实现。第二阶段中，在检测出只有信号s1作用或只有信号s2作用时，对分离滤波器{W1j}{W2j}，j＝1，2，分别进行估计。
首先令i＝1，估计W11和W12(如图1所示x1、x2分别经W11、W12滤波)(1)即步骤A)两个检测滤波器(如图2x1、x2分别经D1、D2滤波)工作，滤波器长度为L(大小视房间混响时间及采样频率而定)，按式(4)(5)更新，步长较大，具体可根据实际情况调节但须满足μj＜1，(j＝1，2)，P＝5Ei(n)＝XTe(n)[DTi(n)DT3-i(n)]T(4)Dj(n+1)＝Dj(n)-μjXP，j(n)[XTP，j(n)XP，j(n)+δI]-1Ei(n) (5)其中，[DTi(n)DT3-i(n)]是由两滤波器系数依次排列组成的长度为2L的行向量且它的第一个系数固定为1；Xe(n)为2LxP的矩阵，XP，j(n)为LxP的矩阵，具体如式(6)(7)所示；I是P阶单位矩阵；δ是一个很小的正数，一般令其为0.01。检测滤波器输出为uD(n)=Σi=12Σl=0L-1Di,l(n)xi(n-l),]]>Di，l(n)是n时刻检测滤波器的第l个系数。
(6)
(2)步骤B)和C)当检测滤波器输出uD(n)的绝对值的平均值(1/N)∑nm＝n-N+1|uD(n)|(N的值根据录音的采样频率而定，一般满足样本uD(n)长度达到100ms)小于某一门限T时(T值根据实际情况调节，约为输入信号能量的1/4)，说明只有一个声源发声。此时令分离滤波器的系数与测量滤波器的系数相同，即Wij＝Dj，j＝1，2，并开始分离滤波器更新；输入信号仍为x1和x2，更新公式如(4)(5)，其中Dj用Wij代替，但步长减小；(3)当检测滤波器输出uD(n)的绝对值的平均值(1/N)∑nm＝n-N+1|uD(n)|大于T时，说明两个声源同时发声，Wij停止更新，令i＝2，重复步骤(1)(2)，估计W22和W21(如图1所示x1、x2分别经W22、W21滤波)。
(4)当检测滤波器输出uD(n)的绝对值的平均值(1/N)∑nm＝n-N+1|uD(n)|大于T时，Wij停止更新。可以按式(8)进行混合语音分离，得到分离信号uj(n)，j＝1，2uj(n)=Σi=1nΣl=0L-1wji(l)xi(n-l),]]>(8)其中，wji(l)是分离滤波器Wji的第l个系数。
权利要求
1.强鲁棒性语音分离方法，其特征是采用单声源作用检测方法检测出单声源作用时段，在单声源作用时段实现分离滤波器估计，两声源同时作用时进行混合语音分离；A)采用单声源作用检测方法，使用检测滤波器Di(n)，i＝1，2实现单声源作用时段的检测即检测出只有一个声源(s1或s2)发声的时段；B)当单声源作用时段被检测出后，在单声源作用时段进行分离滤波器Wij(n)，i，j＝1，2的估计；C)分离滤波器估计完成后，使用分离滤波器分离混合语音，得到分离后的语音信号ui(n)，i＝1，2。
2.根据权利要求1所述的强鲁棒性语音分离方法其特征是在步骤A)时，采用两路麦克风接收信号x1和x2，且每路信号同时串联检测滤波器Di(n)，i＝1，2用于单声源作用时段的检测；步骤B)时，两路麦克风接收信号x1和x2，同时串联检测滤波器Wij(n)，i，j＝1，2用于分离滤波器的估计。
3.根据权利要求1所述的强鲁棒性语音分离方法其特征是在步骤A)检测滤波的方法滤波器长度为L，按式(1)(2)更新，i＝1，满足μj＜1，(j＝1，2)，P＝5Ei(n)＝XTe(n)[DTi(n)DT3-i(n)]T(1)Dj(n+1)＝Dj(n)-μjXP，j(n)[XTP，j(n)XP，j(n)+δI]-1Ei(n)(2)其中，[DTi(n)DT3-i(n)]是由两滤波器系数顺次排列组成的长度为2L的行向量且它的第一个系数固定为1；Xe(n)为2LxP的矩阵，XP，j(n)为LxP的矩阵，具体如式(3)(4)所示；I是P阶单位矩阵；δ是一个很小的正数，一般令其为0.01；Xe(n)=xi(n)xi(n-1)...xi(n-P+1)xi(n-1)............xi(n-L+1)......xi(n-L-P+2)x3-i(n)x3-i(n-1)...x3-i(n-P+1)x3-i(n-1)............x3-i(n-L+1)......x3-i(n-L-P+2)---(3)]]>XPj(n)=xj(n)xj(n-1)...xj(n-P+1)xj(n-1)............xj(n-L+1)......xj(n-L-P+2)---(4)]]>
4.根据权利要求1所述的强鲁棒性语音分离方法其特征是步骤B)和C)中当检测滤波器输出uD(n)的绝对值的平均值(1/N)∑nn＝n-N+1|uD(n)|小于某一门限T时，令Wij＝Dj，并开始分离滤波器更新；输入信号仍为x1和x2，更新公式如(1)(2)，其中Dj用Wij代替，但步长减小；当检测滤波器输出uD(n)的绝对值的平均值(1/N)∑nn＝n-N+1|uD(n)|大于T时，Wij停止更新，令i＝2，重复步骤B)和C)；检测滤波器输出uD(n)的绝对值的平均值(1/N)∑nn＝n-N+1|uD(n)|大于T时，Wij停止更新；可以进行混合语音分离，得到分离信号uj(n)，j＝1，2。
全文摘要
本发明公开了强鲁棒性语音分离算法，采用单声源作用检测方法检测出单声源作用时段，在单声源作用时段实现分离滤波器估计，两声源同时作用时进行混合语音分离；A)采用单声源作用检测方法，使用检测滤波器D
文档编号G10L21/00GK101083078SQ20071002489
公开日2007年12月5日申请日期2007年7月5日优先权日2007年7月5日
发明者褚轶景, 丁和平, 邱小军申请人:南京大学, 加拿大国家研究委员会

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：褚轶景;丁和平;邱小军
技术所有人：南京大学;加拿大国家研究委员会
我是此专利的发明人