一种基于深度信念网络的单通道音乐的歌声分离方法

文档序号:2828107阅读:460来源:国知局
一种基于深度信念网络的单通道音乐的歌声分离方法
【专利摘要】本发明涉及一种基于深度信念网络的单通道音乐的歌声分离方法:先利用深度信念网络(DBN)抽取出有利于伴奏声和歌声的分离的高层抽象特征,紧接着利用Back-Propagation 神经网络分离出伴奏声和歌声的特征,最后利用重叠相加法得到时域的伴奏声和歌声信号。该方法将待分离的混合音乐分成很短的片段,从而弥补DBN在处理不同时间尺度音乐信号上的缺陷,同时利用了DBN的快速抽取高层抽象特征能力抽取出有利于分离出人声和伴奏声的高层抽象特征。最后考虑到由于单通道音乐信号是属于高维数据,在处理高维输入和高维输出问题上神经网络有着其特有的处理能力,所以选择使用BP神经网络作为最后的人声和伴奏声的分离器。该方法简单灵活,具有较强的实用性。
【专利说明】一种基于深度信念网络的单通道音乐的歌声分离方法

【技术领域】
[0001] 本发明涉及单通道音乐的伴奏声和人声分离领域,特别是一种基于深度信念网络 的单通道音乐的歌声分离方法。

【背景技术】
[0002] 随着计算机信号处理技术和互联网技术的不断发展,单通道音乐的歌声分离越来 越受人们重视。单通道音乐人声分离技术在很多系统都会用到,如KTV系统中音乐伴奏的 获得;音乐检索系统中根据音乐内容来检索的系统特别是根据歌唱者的声音特质检索音 乐、音乐推荐系统中利用歌唱者声音特质来推荐音乐等等。不管是KTV系统中的伴奏获得、 还是基于歌唱者声音的音乐检索系统、抑或是基于歌唱者声音的音乐推荐系统;为了保证 这些系统有较好的性能,必须得到较为纯净的伴奏声或者歌声。而现实中人们能够获得的 音乐信号大部分是单通道音乐信号,所以单通道音乐人声分离技术在这些系统中能够得到 广泛的应用。然而,现在针对单通道音乐的歌声分离技术还远远不能达到人耳系统的性能, 因此对于该领域的研究还有很大的步伐要走。
[0003] 由于单通道音乐信号是极度欠定的,所以在对其进行歌声分离时可用的信息非常 少,这使得针对单通道音乐的歌声分离具有很大的挑战性。尽管,针对单通道语音的分离已 经有很大的成功,但由于歌声的特殊性,很多单通道语音分离技术并不能很好的应用到单 通道音乐歌声分离中。直到2007年Y. Li才首次提出利用人声的音高周期进行单通道音乐 的歌声分离。此后,基于谱分解的方法也相继被提出,如基于非负矩阵分解、稀疏矩阵分解 等等。这些方法都取得了一定的成功,但都不能取得如愿的效果。如基于音高周期的方法, 其本身音高周期检测就是一个学术难题;而基于谱分解的方法又有太多的假设前提。
[0004] 2006年由Hinton等人提出的针对深度信念网络(DBN)的快速学习方法,使得深度 神经网络重新引起科研工作者的关注。由于深度神经网络以其特有的强大特征抽取能力, 使得其在并在图像处理和语音处理这两个领域率先得到应用,并且取得了很好的效果。但 由于DBN并不是专门用来解决时间序列问题的,所以本专利同时提出了针对该问题的DBN 输入数据构造方法。本专利基于对单通道音乐信号和深度学习的认识,提出了一种新的单 通道音乐歌声分离方法,特别是一种基于深度信念网络的单通道音乐的歌声分离方法。


【发明内容】

[0005] 有鉴于此,本发明的目的是在于提供一种基于深度信念网络的单通道音乐的歌声 分离方法,以实现针对单通道音乐特性的歌声分离问题。
[0006] 本发明采用以下方案实现:一种基于深度信念网络的单通道音乐的歌声分离方 法,利用深度信念网络(DBN)抽取出有利于伴奏声和歌声的分离的高层抽象特征,紧接着 利用Back-Propagation神经网络(BP神经网络)分离出伴奏声和歌声特征,最后利用重叠 相加法得到伴奏声和歌声。具体包括以下步骤: Sl :利用傅里叶变换从待分离的单通道音乐片段获得特征; 52 :将从步骤SI得到的特征作为已经训练得到的DBN特征抽取模型的输入,利用所述 DBN特征抽取模型抽取出有利于分离伴奏声和歌声的高层抽象特征;其中所述DBN为深度 信念网络; 53 :利用已训练得到的BP神经网络分离模型分离出伴奏声和歌声特征;由BP神 经网络分离模型输出的伴奏声和歌声的特征得到伴奏声和歌声;其中BP神经网络为 Back-Propagation 神经网络。
[0007] 进一步地,所述步骤Sl中的特征为通过傅里叶变换得到的长度为 I的单通道音乐片段归一化后的幅度谱;其中设输入为则:c是大小为/气而的行向量,其 中Fs是所述音乐片段的采样频率。
[0008] 进一步地,所述的I可取16ms至512ms。
[0009] 进一步地,所述DBN由若干个RBM堆叠而成,其中每个RBM的输入为上一个RBM的 输出;所述的RBM为受限玻尔兹曼机。特别的,具体节点数设置为:所述的RBM由一层可见 层V和一层隐藏层A构成;其中所述的可见层为每个RBM的输入层,第一个RBM的可见层节 点数为,其余的RBM可见层节点数均为;所述的隐藏层为每个RBM的输出,每 个RBM的输出作为下一个RBM的输入,所有RBM的隐藏层节点数均为。
[0010] 具体的,所述步骤S2中已经训练得到的DBN特征抽取模型的训练过程包括以下步 骤: 步骤S21 :构建训练样本(U),其中JT表示所有的训练样本的输入特征,Γ表示纯净 的伴奏声和纯净的歌声归一化后的振幅谱; 步骤S22 :无监督贪心逐层训练DBN ;设所述的DBN由《个受限玻尔兹曼机RBM堆叠而 成,则整个DBN共有《 + 1层;其中对第#1)层训练过程为:由第1-1层和第?层构成的 RBM通过Contractive Divergence算法训练;其中第1层为输入层; 步骤S23 :对DBN进行有监督微调;将步骤S22中通过无监督贪心训练的DBN翻折,得 至握数为2? + 1的自动编码机;利用BP算法对该编码机进行训练,用以微调DBN。
[0011] 具体地,所述的步骤S21具体包括以下步骤: 步骤S211 :构建;给定单通道音乐混合信号i = 1,2…其中《为所述给定单 通道音乐混合信号的个数,其中每个信号的长度可以不一样;使用长度为,偏移量为1/2的 窗函数,对每个信号进行分割,得到

【权利要求】
1. 一种基于深度信念网络的单通道音乐的歌声分离方法,其特征在于包括以下步骤: 51 :利用傅里叶变换从待分离的单通道音乐片段获得特征; 52 :将从步骤Sl得到的特征作为已经训练得到的DBN特征抽取模型的输入,利用所述 DBN特征抽取模型抽取出有利于分离伴奏声和歌声的高层抽象特征;其中所述DBN为深度 信念网络; 53 :将步骤S2中得到的有利于分离伴奏声和歌声的高层抽象特征作为已训练得到的 BP神经网络分离模型的输入,利用所述已训练得到的BP神经网络分离模型分离出伴奏声 和歌声特征;由BP神经网络分离模型输出的伴奏声和歌声的特征得到伴奏声和歌声;其中 BP神经网络为Back-Propagation神经网络。
2. 根据权利要求1所述的一种基于深度信念网络的单通道音乐的歌声分 离方法,其特征在于:所述步骤S1中的特征为通过傅里叶变换得到的长度为 I的单通道音乐片段归一化后的幅度谱,其中1'取值范围为32ms-512ms;其中设输入为X, 则X是大小为的行向量,其中Fs是所述音乐片段的采样频率。
3. 根据权利要求1所述的一种基于深度信念网络的单通道音乐的歌声分离方法,所述 DBN由若干个RBM堆叠而成,其中每个RBM的输入为上一个RBM的输出,所述的RBM为受限 玻尔兹曼机;其特征在于:具体节点数设置为:所述的RBM由一层可见层V和一层隐藏层A 构成;其中所述的可见层为每个RBM的输入层,第一个RBM的可见层节点数为/Ms,其余的 RBM可见层节点数均为Pi%" ;所述的隐藏层为每个RBM的输出,每个RBM的输出作为下 一个RBM的输入,所有RBM的隐藏层节点数均为。
4. 根据权利要求1所述的一种基于深度信念网络的单通道音乐的歌声分离方法,其特 在于:所述步骤S2中已经训练得到的DBN特征抽取模型的训练过程包括以下步骤: 步骤S21:构建训练样本(U),其中X表示所有的训练样本的输入特征,;^表示纯净 的伴奏声和纯净的歌声归一化后的振幅谱; 步骤S22 :无监督贪心逐层训练DBN;设所述的DBN由《个受限玻尔兹曼机RBM堆叠而 成,则整个DBN共有《 + 1层;其中对第?(ι#1)层训练过程为:由第卜1层和第I层构成的 RBM通过ContractiveDivergence算法训练;其中第1层为输入层; 步骤S23 :对DBN进行有监督微调;将步骤S22中通过无监督贪心训练的DBN翻折,得 至握数为2? + 1的自动编码机;利用BP算法对该编码机进行训练,用以微调DBN。
5. 根据权利要求4所述的一种基于深度信念网络的单通道音乐的歌声分离方法,其特 征在于:所述的步骤S21具体包括以下步骤: 步骤S211 :构建;给定单通道音乐混合信号= 其中《为所述给定单 通道音乐混合信号的个数;使用长度为M扁移量为//2的窗函数,对每个信号进行分割,得 到^^+1个长度为/*&的小片段1,其中% 为所述给定单通道音乐混合信号 Si的长度,为所述给定单通道音乐混合信号Si的时长;对所述小片段1进行傅 2(Μ·+1) 里叶变换得到振幅谱,将振幅谱归一化,构建出大小为的Z,其中『=Σ(-\- + 1) ! * ,c=i*Fs; 步骤S212 :构建y;给定伴奏信号_2^_巧和歌声信号swgisgj.i= 1,2…《,其中;^ 为信号的个数,所述给定伴奏信号和歌声信号smgmgj4的长度均与所述给定 单通道音乐混合信号-样;使用长度为/,偏移量为i/2的窗函数将所述伴奏信号 _sc_Si和歌声信号smgmg^st额分别分割成f+1个长度为|*Fs的小片段2 ;其中 Fi 为所述给定单通道音乐混合信号的长度,^为所述给定单通道音乐混合 信号^的时长;对所述小片段2进行傅里叶变换得到振幅谱,将振幅谱归一化;将同 一个窗口分割出来的伴奏信号和歌声信号归一化后的振幅谱连接成大小为Ix(SW3t^s)的 &,其中前/*i?s大小的巧·为所述伴奏信号的归一化振幅谱,后大小的&为所述歌声 信号的归一化振幅谱,进而得到大小为rx(2*c)的:T,其中^Σ(^^ + 1)J=浐泠。 i *
6.根据权利要求4所述的一种基于深度信念网络的单通道音乐的歌声分离方法,其特 征在于:所述步骤S3具体包括以下步骤: 步骤S31 :获得训练样本(Z',Γ);将所述训练样本(2'Γ)中的z通过已经训练好的DBN进行处理,得到大小为rx(2*c)的f,其中/" =Σ(-一-^ + 1) ,c= /*/? ;获得训练样 I * 本(Zj),其中所述F与所述的训练样本(Ζ,Γ)中的F相同; 步骤S32 :有监督训练BP神经网络;将步骤S31中所述的允作为BP神经网络的输入 数据,将步骤S31中所述的Γ作为监督标签数据; 步骤S23 :利用训练好的BP神经网络进行人声分离;将步骤S2中得到的高层抽象特征 作为BP神经网络的输入,由BP神经网络得到人声和伴奏声的特征,并将所述的人声和伴奏 声的特征作为BP神经网络的输出。
【文档编号】G10L15/02GK104464727SQ201410755098
【公开日】2015年3月25日 申请日期:2014年12月11日 优先权日:2014年12月11日
【发明者】余春艳, 林明安, 滕保强, 张栋, 刘灵辉, 叶东毅 申请人:福州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1