基于非负矩阵分解的音乐背景下语音增强方法

文档序号：8431786阅读：532来源：国知局

基于非负矩阵分解的音乐背景下语音增强方法
【技术领域】
[0001] 本发明涉及一种语音增强方法，具体而言涉及一种考虑语音信号稀疏性和背景音乐暂时连续性限制的音乐背景下语音增强方法。属于语音分析或合成、音频分析或处理领域。
【背景技术】
[0002] 由于背景噪声的干扰，自动语音识别系统性能会随着信噪比的降低急剧下降。目前已有良好的语音增强算法可以很好的增强平稳噪声下的语音信号，如谱减法，自适应滤波法，最小均方误差估计法等，从而提高自动语音识别系统在平稳噪声下的识别率。但对于日常生活中最常见非平稳的噪声，至今没有很好的解决方法用于增强此类噪声环境下的语音信号。这也使得在实际环境中的语音识别效果不能达到令人满意的程度。
[0003] 音乐信号作为一种特定的背景噪声，经常会和目标语音信号一起出现，比如在行车过程中播放音乐时接听电话，在一些播放背景音乐的娱乐场所等，从而污染纯净的语音信号，降低自动语音识别系统在音乐背景下的识别率。然而，由于音乐信号的非平稳和频谱特征和语音信号相似的特征，使得从音乐背景中提取出语音信号变得非常困难。
[0004]目前已有的从背景音乐中提取语音信号的算法已经取得了不错的效果，但是大部分算法都没有充分考虑语音和背景音乐信号的先验信息，或者只是考虑了语音信号的稀疏性特征。另一方面，大部分系统都是说话人相关系统，这就需要系统预先知道说话人的身份才能达到最佳的效果，这在一定程度上也限制了系统的应用场景。因此，需要构建一个说话人无关同时又能保持系统性能的方法来完成从背景音乐中提取语音信号，从而使此算法可以应用到更多场景中去。

【发明内容】

[0005] 为了解决上述问题，本发明提出了一种与说话人无关和背景音乐类型相关的基于非负矩阵分解从背景音乐中提取语音信号进行语音增强的方法。
[0006] 本发明所述基于非负矩阵分解的音乐背景下语音增强方法，包括如下步骤：
[0007] (1)针对特定类型的音乐，使用预定时长的该类型的音乐信号，对此音乐信号做短时傅里叶变换；
[0008] (2)随机选择该音乐信号的^帧短时傅里叶变换系数，将此Rm帧的短时傅里叶变换系数的幅度作为该特定类型音乐信号的基本矩阵^" 0保存，1?的维度是MXRm，其中M是短时傅里叶变换后每帧数据的点数；
[0009] (3)对于待处理的包含所述特定音乐背景的混合信号，对其做短时傅里叶变换后获得N帧短时傅里叶变换系数，M是短时傅里叶变换后每帧数据的点数；将此N帧的短时傅里叶变换系数的幅度作为混合信号矩阵V保存，V的维度为MXN。对V按照下式做非负矩阵分解，得到W(s)，H(s)，H(m):
[0010] V=W(s)H(s)+ff(m)H(m)；
[0011] w(s)和H(s)分别对应语音信号的基本矩阵和权重矩阵，它们的矩阵维度分别为 MXRJPRSXN;W(m)和H(m)分别对应背景音乐的基本矩阵和权重矩阵，矩阵维数分别为 MXRm，RmXN，其中Rs+Rm=R;
[0012] 所述对V进行非负矩阵分解采用如下迭代算法实现，在给定w(m)的情况下目标函数为：
【主权项】
1.基于非负矩阵分解的音乐背景下语音增强方法，其特征在于，包括如下步骤： (1) 针对特定类型的音乐，使用预定时长的该类型的音乐信号，对此音乐信号做短时傅里叶变换； (2) 随机选择该音乐信号的Rji贞短时傅里叶变换系数，将此Rji贞的短时傅里叶变换系数的幅度作为该特定类型音乐信号的基本矩阵W w保存，W ?的维度是MXRm，其中M是短时傅里叶变换后每帧数据的点数； (3) 对于待处理的包含所述特定音乐背景的混合信号，对其做短时傅里叶变换后获得 N帧短时傅里叶变换系数，M是短时傅里叶变换后每帧数据的点数；将此N帧的短时傅里叶变换系数的幅度作为混合信号矩阵V保存，V的维度为MXN ;对V按照下式做非负矩阵分解，得到 W(s)，H(s)，Hw: V = W(s)H(s)+W(m)H(m); W(s)和H (s)分别对应语音信号的基本矩阵和权重矩阵，它们的矩阵维度分别为MXR 3和 RsXN ;W(m)和H (m)分别对应背景音乐的基本矩阵和权重矩阵，矩阵维数分别为MXRm，RmXN，其中 Rs+Rm= R; 所述对V进行非负矩阵分解采用如下迭代算法实现，在给定W(m)的情况下目标函数为：
;使用步骤 (2)保存的该特定类型音乐信号的基本矩阵Ww作为迭代算法中W w的初始值，并保EW w 保持固定，在考虑语音的稀疏性和背景音乐的暂时连续性的情况下，迭代规则如下：
其中公式（9)和（11)中的I都是大小为MXN的全1矩阵；h(s)jjP h (111)^分别为H(s)和Hw对应（j，i)位置的元素，λ和μ分别是稀疏性限制强度和暂时连续性限制强度；（· "表示矩阵的转置操作，（·）（s)表示取矩阵的前R s列； (4) 根据步骤（3)获得的^、^、!!《，通过下式得到增强后的语音信号：
?代表点乘，S即为增强后的语音信号的幅度谱； (5) 结合原始混合信号的相位谱和步骤（4)得到的语音信号的幅度谱，恢复出时域信号，即得到提取出增强后的语音信号。
2. 根据权利要求1中所述的基于非负矩阵分解的音乐背景下语音增强方法，其特征在于，步骤（1)和步骤（3)所述对信号做短时傅里叶变换，采用的是汉宁窗或汉明窗。
3. 根据权利要求1中所述的基于非负矩阵分解的音乐背景下语音增强方法，其特征在于，Rm= 24。
4. 根据权利要求1中所述的基于非负矩阵分解的音乐背景下语音增强方法，其特征在于，步骤（3)中R的下限是40。
5. 根据权利要求1中所述的基于非负矩阵分解的音乐背景下语音增强方法，其特征在于，稀疏性限制强度λ = 1。
6. 根据权利要求1中所述的基于非负矩阵分解的音乐背景下语音增强方法，其特征在于，暂时连续性限制强度μ =50。
7. 根据权利要求4中所述的基于非负矩阵分解的音乐背景下语音增强方法，其特征在于，步骤（3)中R为60。
【专利摘要】本发明公开了一种基于非负矩阵分解的音乐背景下语音增强方法，属于语音分析或合成、音频分析或处理领域。本发明对音乐与语音的混合信号进行分帧和加窗，对短时傅里叶变换的幅度谱进行非负矩阵分解，其中背景音乐的基本矩阵通过训练得到，并在分解过程中保持固定，根据分解的结果合成语音信号的幅度谱，再结合原始混合信号的相位谱恢复增强后的语音信号。通过在不同的语音稀疏性限制和音乐的暂时连续性限制下进行测试，可见采用本方法增加背景音乐的暂时连续性限制可以有效的提高音乐背景下的语音增强效果。
【IPC分类】G10L21-0232
【公开号】CN104751855
【申请号】CN201410683490
【发明人】谢湘, 屠明
【申请人】北京理工大学
【公开日】2015年7月1日
【申请日】2014年11月25日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢湘;屠明;
技术所有人：北京理工大学;
我是此专利的发明人

上一篇：一种语音语句识别方法及装置的制造方法
上一篇：一种宽带声学回声消除方法及系统的制作方法