基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法

文档序号：2833579阅读：839来源：国知局

专利名称：基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法
技术领域：
本发明属于语音信号处理技术领域，是关于一种语音噪声分离方法，特别是基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法。
背景技术：
语噪分离(Speech and noise separation)就是为了实现在复杂噪声环境中分离出目标说话人语音而对带噪语音所做的处理，其中主要目标就是消除环境噪声对语音的干扰，提高语音质量。语噪分离可以说是语音增强(Speech Enhancement)算法的一种扩展，其处理的噪声甚至可以包括其他说话人语音。在上个世纪，由于计算机计算能力限制，人们的目光主要集中在算法复杂度较低且实现简便的单通道语音增强或语音去噪(Speech denoising)算法中。在这一类算法中典型的有如谱减法(Spectral Subtraction)、维纳滤波法(Wiener Filter)、基于短时幅度谱的最小均方误差估计方法(minimum mean square error approach for shorttime spectral amplitude estimation)、信号子空间法(Signal Subspace)、小波去噪法(Wavelet Denoise)。这类算能够在一定程度上消除部分噪声,但在现实环境中的消噪效果往往并不理想。在现实环境下的噪声抑制仍然是一项富有挑战的课题，特别地，在低信噪比和受多种类型噪声污染的情况下，语音消噪效果往往难于满足实际应用需求。随着计算机能力的飞速提高，许多学者提出了基于盲源分离思想的语噪分离算法以进一步抑制噪声，典型的有(I)非负稀疏编码(Non-negative Sparse Coding, NNSC)。利用非负稀疏编码(NNSC)构造噪声字典并在固定噪声字典的情况下更新语音字典，最后联合语音字典和其对应的投影系数重构出语音幅度谱，去除噪声干扰。(Mikkel N. Schmidt, JanLarsen and Fu-Tien Hsiao. Wind noise reduction using non-negative sparse coding.IEEE Workshop on Machine Learning for Signal Processing, 2007;431-436. ) (2)非负矩阵分解(Non-negative Matrix Factorization, NMF)方法。基于NMF算法,通过训练构造语音和噪声的字典，并将其组合成一个联合字典，利用非负矩阵分解更新带噪语音在联合字典下的投影系数，实现语音去噪。(K. Wilson, B. Raj, P. Smaragdis, and A. Divakaran.Speech denoising using nonnegative matrix factorization with priors.ICASSP,2008;4029-4032.)。但是该方法需要依赖于说话人特征，在实际语音通信系统中难以应用。(3)K-SVD方法。Christian D. Sigg在离线的情况下运用K-SVD算法训练语音字典，在语音停顿的时刻在线学习噪声字典的，然后构造一个由语音字典和噪声字典组合而成的合成字典，通过对带噪语音在合成字典下的稀疏编码得到语音信号的估计，从而实现语音与噪声的分离° (Christian D. Sigg, Tomas Dikk and Joachim M. Buhmann, Speech enhancementwith sparse coding in learned dictionaries. ICASSP, 2010; 4758-4761.)。米用盲源分离的思想实现语音去噪的一个显著优势就是这类算法对噪声能量不敏感，特别适合于极低信噪比条件下的语音去噪。然而，由于目前的语噪分离算法大都依赖于先验知识，即需要事先对语音或噪声数据进行训练，这一特点限制了这些算法在实际场合的应用。

发明内容
本发明的目的在于提供了一种基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法，在不需要噪声先验知识的前提下提升了语噪分离系统的性能，改善了分离后语音的质量。实现本发明目的的技术解决方案为一种基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法，从带噪语音中直接分离出纯净语音，包括如下步骤(I)利用短时傅里叶变换将带噪语音时域波形y(η)变换到时频域，得到带噪语音的幅度谱M ;(2)利用低秩与稀疏矩阵分解算法对带噪语音的幅度谱M进行分解，获得噪声的幅度谱L、语音的幅度谱S和残余噪声的幅度谱R，分解为如下形式M = L+S+R, rank (L) ^ r, card (S) ^ c,·这里,i 称为低秩噪声矩阵，S e 称为稀疏语音矩阵，i e Ka-7"称为残余噪声矩阵，rank(L)表示矩阵L的秩，card(S)表示矩阵S的势，即矩阵非零元素个数；(3)使用短时傅里叶逆变换从语音的幅度谱S中重构出的纯净语音的时域波形>( )本发明与现有技术相比，其显著优点本发明直接将带噪语音分解为噪声矩阵和语音矩阵之和，避免了 NMF，NNSC等方法需要分解和重构的复杂过程，在提升噪声抑制能力的同时减少了语音的重构误差，提高了语音质量；同时，由于本发明不需要预先训练或提取任何特征值，属于无监督的分离方法，具有更大的实用价值。下面结合附图对本发明作进一步详细描述。

图I是本发明所公开的基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法的流程图。图2是本发明所公开的基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法中，利用短时傅里叶变换将带噪语音时域波形y (η)变换到时频域，得到带噪语音的幅度谱Y流程图；图3是本发明所公开的基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法中，利用低秩与稀疏矩阵分解算法对带噪语音的幅度谱M进行分解，获得噪声的幅度谱L、语音的幅度谱S和残余噪声的幅度谱R的流程图；图4是应用本发明的较佳实施例的实施过程示意图。
具体实施例方式首先，图I为本发明所公开的基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法流程图，其针对一段带噪语音资料，将带噪语音中的噪声和语音分离处理，实现噪声的抑制。首先利用短时傅里叶变换将带噪语音时域波形y(η)变换到时频域，得到带噪语音的幅度谱M (步骤100);利用低秩与稀疏矩阵分解算法对带噪语音的幅度谱M进行分解，获得噪声的幅度谱L、语音的幅度谱S和残余噪声的幅度谱R (步骤200);使用短时傅里叶逆变换从语音的幅度谱S中重构出的纯净语音的时域波形i( )(步骤300)。I、其中步骤100包括如图2所示的流程。①首先对带噪语音信号y (η)进行分帧加窗处理，窗函数为Hamming窗，帧长为N，帧间移动长度为H (步骤110)。一般情况下，N取为2的整数次幂，如256或512等。经过对比测试，设置H = N/2可取得较好效果。②对分帧后的语音帧进行K点离散傅里叶变换，获得语音的时频谱Y(k，t)，具体计算公式如下
权利要求
1.一种基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法，其特征在于从带噪语音中直接分离出纯净语音，包括如下步骤 (1)利用短时傅里叶变换将带噪语音时域波形y(η)变换到时频域，得到带噪语音的幅度谱Μ; (2)利用低秩与稀疏矩阵分解算法对带噪语音的幅度谱M进行分解，获得噪声的幅度谱L、语音的幅度谱S和残余噪声的幅度谱R，分解为如下形式M = L+S+R，rank (L) ^ r, card (S) ^ c，这里，Z e 称为低秩噪声矩阵，S e 称为稀疏语音矩阵，i e 为残余噪声矩阵，rank(L)表示矩阵L的秩，card(S)表示矩阵S的势，即矩阵非零元素个数； (3)使用短时傅里叶逆变换从语音的幅度谱S中重构出的纯净语音的时域波形i( )。
2.根据权利要求I所述的基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法，其特征在于步骤(I)的处理过程为 ①对带噪语音信号y(η)进行分帧加窗处理，窗函数为Hamming窗，帧长为N，帧间移动长度为H，N取为2的整数次幂； ②对分帧后的语音帧进行K点离散傅里叶变换，获得语音的时频谱Y(k，t)，具体计算公式如下
3.根据权利要求I所述的基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法，其特征在于步骤(2)的分解步骤如下 ①初始化L和S:首先令L = M，S = 0，这里i e f , S e IIm , K表示离散傅里叶变换时的频率点数，T表示总巾贞数； ②使用如下公式对Z进行更新 /. = M - S1 这里Z为L的预估计值，Si是第i次迭代时对S的估计值； ③对Z进行随机投影，即令K=LA1，同时令A2 = Y1，其中A1为随机矩阵； ④令F2=ZI并对其进行QR分解，即/2 =Pi;=込&洞理令； =LY2 =Q1R1，这里Q1, Q2和R1, R2分别为QR分解后得到的左矩阵和右矩阵； ⑤如果^r= Tank(AlYl)，否则跳转到步骤②； ⑥使用如下公式对L和S进行更新 Lm-Q1IRMIy1Y1 Rmsi+1 = Pi2(M-Lw), 这里Li+1和Si+1分别是L和S第i+Ι次迭代时的估计值，Ω表示矩阵I (M-Li+1) I前面k个最大元素构成的非零子集；⑦若||M-A-S,|t/||Af||i<e则停止迭代，否则跳转到步骤②，这里ε为判定阈值，推荐判定阈值的取值范围为[10_5，10_4])。
4.根据权利要求I所述的基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法，其特征在于步骤(3)的重构公式如下这里,//(O)= !>( )，h (η)为Hamming窗函数，K表示离散傅里叶逆变换时的频率点数， S(k，t)为分解得到语音幅度谱。
全文摘要
本发明公开了一种基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法。该方法首先使用短时傅里叶变换将带噪语音时域波形变换到时频域从而得到带噪语音的幅度谱；利用低秩与稀疏矩阵分解算法将带噪语音的幅度谱分解为噪声幅度谱、语音幅度谱和残余噪声幅度谱三者之和；最后，利用短时傅里叶逆变换从语音的幅度谱中重构出的语音时域波形。本发明不需要语音和噪声的任何先验信息，属于无监督的单通道语噪分离方法，算法从带噪语音中直接分离出纯净语音，简单有效，特别适用于强噪声环境下的人声提取。
文档编号G10L21/0224GK102915742SQ20121042846
公开日2013年2月6日申请日期2012年10月30日优先权日2012年10月30日
发明者张雄伟, 黄建军, 吴海佳, 贾冲, 曾理, 周彬申请人:中国人民解放军理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张雄伟;黄建军;吴海佳;贾冲;曾理;周彬
技术所有人：中国人民解放军理工大学
我是此专利的发明人

上一篇：木质桶盖与塑料桶身组合吉他及其制作方法
上一篇：抑制背景广播的语音指令识别方法与装置的制作方法