一种基于nmf非负矩阵分解的音频分离方法

文档序号：2825557阅读：3199来源：国知局

一种基于nmf非负矩阵分解的音频分离方法
【专利摘要】本发明属于语音信号分解领域，具体涉及一种基于NMF非负矩阵分解的音频分离方法，包括辅助音乐语音区分模块和NMF非负矩阵分解模块，该方法通过引入NMF这一新的数学研究成果，结合语音音频与音乐音频的音频特征差异，可以较好地将混合的音频当中语音音频与音乐音频进行分离，从而得到较为清晰地音乐音频与语音音频，结合NMF方法与机器学习算法，可以非常高效的完成这一音频的分离工作。
【专利说明】—种基于NMF非负矩阵分解的音频分离方法
【技术领域】
[0001]本发明涉及语音信号分解领域，具体涉及一种基于NMF非负矩阵分解的音频分离方法。
【背景技术】
[0002]当一段音频当中既混杂有背景的音乐音频，也有语音音频时，为了获取单一的语音音频或者音乐音频以便进行相应的编码、信息检索等工作，便需要利用相应的算法将混杂的音频分离为单纯的语音音频与音乐音频。这样的一种音频处理方式，一般会利用信号分离的相关技术来解决。随着音频处理领域的技术发展，对于这样技术的需要也催生了相应的研究成果。
[0003]在面对这类语音和音乐混叠信号的分离的问题时，现在主要是基于基频分析和频谱分解算法来进行的。例如，Klapuri等人提出了一种基于音乐频谱的谐波特性和平滑特性的迭代算法来检测音乐频谱中的多个基频并计算出各基频对应的谐波分量；Li通过检测歌曲音频信号的主要基频轮廓，用聚类学习的方法从混叠信号中分离出歌声信号等等，都取得了不错的音频分离效果。
[0004]目前，NMF即非负矩阵分解法是很多研究者关注的重点。NMF的基本原理是将信号分解为基本矩阵和相应的系数矩阵，根据代价函数来计算各个信源成分所对应的基本矩阵和系数矩阵，从而实现信号的分离。根据一直音频信号的先验知识获得的多少，可以将NMF分为盲信号模型，监督模型，和半盲模型，即完全不知道先验信号成分基本矩阵，知道所有混叠信号成分的基本矩阵，与只知道部分混叠信号成分的基本矩阵。而代价函数的选取主要包括分离前后信号的相似度与根据所处理信号的特性而加入的一些限制条件两类。因此，目前并没有非负矩阵分解的音频分离方法
[0005]本发明所需要处理的问题即属于盲信号模型的NMF信号分离问题；它需要利用分离前后信号的相似度作为代价函数，并辅之以语音音频与音乐音频在音频特征的差异度作为另外的递归终止条件。

【发明内容】

[0006]为克服现有技术上的不足，本发明目的是在于提供了一种基于NMF非负矩阵分解的音频分离方法，其通过利用NMF进行非负矩阵分解，从而将音乐与语音的混杂音频文件分解成为单纯的音乐音频文件和语音音频文件，通过对于每次分解后的音频文件进行特征提取与判别，从而判断每一次分解的结果是否为音乐文件或者语音文件。
[0007]为解决上述问题，本发明采用如下技术方案:一种基于NMF非负矩阵分解的音频分离方法，包括辅助音乐语音区分模块和NMF非负矩阵分解模块，
[0008]所述的辅助音乐语音区分模块主要利用了机器学习的方法，通过提取大量的语音音乐音频的相关音频特征作为训练样本，通过SVM算法进行训练得到识别模型；
[0009]所述的NMF非负矩阵分解模块利用NMF非负矩阵分解方法，通过对原音频信号矩阵进行迭代分解，直到分解结果达到代价函数与辅助区分模块的要求则停止。
[0010]进一步地，所述的辅助音乐语音区分模块利用机器学习的方法步骤:
[0011]a、需要采集大量的语音、音乐以及既非语音也非音乐的音频文件作为训练样本，从而得到相应的区分模型。其中反面样本的选取可以更好的保证；
[0012]b、提取音频特征中的静音帧率、高过零率帧比率、低能量帧率、谱通量以及和谐度五个音频量化特征构成每个音频的特征向量，作为及其学习训练的输入向量集。之所以提取这五个特征，是因为语音音频与音乐音频在这五个特征当中有较大的差异，因此利用这五个特征可以有较好的特征提取效果；
[0013]C、利用SVM算法对于b中所得到的向量集进行建模，得到所需要的用以识别语音与音乐视频的识别模型。
[0014]进一步地，所述的NMF非负矩阵分解模块主要有以下几个方面:
[0015]a、首先，我们会得到下面NMF非负矩阵分解的基本依据公式；
[0016]b、而后，我们会依据在盲状态模型构建出符合本发明要求的欧几里得距离代价函数，即判断分解结束的主要条件；
[0017]C、依据此代价函数与基本函数，我们会得到用以分解原信号矩阵的迭代公式，并依据迭代公式进行迭代分解；
[0018]d、当每次迭代完成之后，将利用预先设定的Jeik1门限进行判别，如果达到门限则提取两个矩阵的相应特征向量，利用之前得到的语音音乐模型进行是否为语音或者音乐的判断。如果判断失败，则继续利用c中所述方法进行迭代分解，如果判断成功则在判断其是否达到门限Jeik2，直到达到该门限时，停止迭代过程。
[0019]进一步地，所述的NMF非负矩阵分解的基本依据公式为:
[0020]Y=Ys+Yffl+V=AsXs+AfflXffl+V
[0021]其中Y e RNXT为观察信号的幅度谱，Ae RNXB,X e RBXT ,V e RNXT分别表示Y的基本矩阵、系数矩阵和误差残留矩阵。上标N，T, B分别表示频率点数、帧数和基本矩阵所含向量的维数。A，X均为非负矩阵，其各元素都大等于O。下表s与m则代表该矩阵属于语音音频的矩阵和音乐音频的矩阵。
[0022]进一步地，所述的欧几里得距离代价函数定义为:
[0023]Jeuc=0.5 |Y_AsXs+AmXj |F2
[0024]进一步地，所述的分解原信号矩阵的迭代公式定义为:.Qj
【权利要求】
1.一种基于NMF非负矩阵分解的音频分离方法，其包括辅助音乐语音区分模块和NMF非负矩阵分解模块，其特征在于:其方法为: 所述的辅助音乐语音区分模块利用机器学习的方法通过提取大量的语音音乐音频的相关音频特征作为训练样本，通过SVM算法进行训练得到识别模型；所述的NMF非负矩阵分解模块利用NMF非负矩阵分解方法，通过对原音频信号矩阵进行迭代分解，直到分解结果达到代价函数与辅助区分模块的要求则停止。
2.根据权利要求1所述的基于NMF非负矩阵分解的音频分离方法，其特征在于:所述的辅助音乐语音区分模块利用机器学习的方法步骤如下: (a)、需要采集大量的语音、音乐以及既非语音也非音乐的音频文件作为训练样本，从而得到相应的区分模型； (b)、提取音频特征中的静音帧率、高过零率帧比率、低能量帧率、谱通量以及和谐度五个音频量化特征构成每个音频的特征向量，作为及其学习训练的输入向量集； (C)、利用SVM算法对于步骤(b)中所得到的向量集进行建模，得到所需要的用以识别语音与音乐视频的识别模型。
3.根据权利要求1所述的基于NMF非负矩阵分解的音频分离方法，其特征在于:所述的NMF非负矩阵分解模块利用NMF非负矩阵分解方法的步骤如下: (1)、首先，建立NMF非负矩阵分解的基本依据公式； (2)、而后，依据在盲状态模型构建出符合要求的欧几里得距离代价函数，即判断分解结束的主要条件；` (3)、依据此代价函数与基本函数，会得到用以分解原信号矩阵的迭代公式，并依据迭代公式进行迭代分解； (4)、当每次迭代完成之后，将利用预先设定的Jtol门限进行判别，若达到门限则提取两个矩阵的相应特征向量，利用之前得到的语音音乐模型进行是否为语音或者音乐的判断；若判断失败，则继续利用c中所述方法进行迭代分解；若判断成功则在判断其是否达到门限Jto2，直到达到该门限时，停止迭代过程。
4.根据权利3所述的基于NMF非负矩阵分解的音频分离方法，其特征在于:所述步骤(1)中，NMF非负矩阵分解的基本依据公式为:
Y=Ys+Ym+V=AsXs+AfflXffl+V 其中，Y e RNXT为观察信号的幅度谱，Ae RNXB,X e RBXT ,V e RNXT分别表示Y的基本矩阵、系数矩阵和误差残留矩阵；上标N，T，B分别表示频率点数、帧数和基本矩阵所含向量的维数； A，X均为非负矩阵，其各元素都大等于O ; 下表s与m则代表该矩阵属于语音音频的矩阵和音乐音频的矩阵。
5.根据权利3所述的基于NMF非负矩阵分解的音频分离方法，其特征在于:所述步骤(2)中，欧几里得距离代价函数定义为:
Jecu=0.5 |Y-Asxs+Amxj I/
6.根据权利3所述的基于NMF非负矩阵分解的音频分离方法，其特征在于:所述步骤(3)中，分解原信号矩阵的迭代公式定义为:
【文档编号】G10L21/028GK103871423SQ201210541700
【公开日】2014年6月18日申请日期:2012年12月13日优先权日:2012年12月13日
【发明者】王雷申请人:上海八方视界网络科技有限公司

完整全部详细技术资料下载