一种基于moas的深层特征提取方法

文档序号:10654553阅读:578来源:国知局
一种基于moas的深层特征提取方法
【专利摘要】本发明涉及深层特征提取的方法,更具体地,涉及一种使用MOAS作为输入提取深层特征的方法。包括:(1)构建一个RBM;(2)训练RBM;(3)构建深层特征提取器;(4)将MOAS作为深层特征提取器的输入,提取深层特征。本发明将MOAS作为输入提取有效的深层特征,不仅可以节省训练的深度层数;而且提取到的有用信息会比使用浅层特征作为输入多。
【专利说明】
一种基于MOAS的深层特征提取方法
技术领域
[0001 ] 本发明涉及深层特征提取的方法,更具体地,涉及一种使用M0AS(Movie Origin Audio Sample,电影原始音频采样点)作为输入提取深层特征的方法。
【背景技术】
[0002] 由于互联网技术的发展,依托于网络的电影数据呈爆炸式增长,在线电影资源越 来越庞大。因为电影极易获得,因此拥有大量的观众,当今电影信号处理面临的一个主要问 题是如何对浩如烟海的电影数据进行分析、索引和管理,方便人们快速检索到自己想要的 信息。因此,对电影进行内容分析与理解变得越来越迫切。音频是理解多媒体内容的重要信 息来源(Ghoraani,2011),音频也是电影中的一种重要形式,无论是数量上还是包含的信息 内容上,都占有及其重要的分量。近年来音频信息已经越来越多用在电影内容分析与理解 中(Wang,2006,Benini,2013)。
[0003] 在电影音频内容分析和理解研究中,特征提取是一个很重要的问题,只有把特征 提取好,才能对电影音频信号进行很好的分类和对电影音频场景语义推理进行研究,特征 提取的好坏直接影响着电影音频信号分类的准确程度和电影音频场景的语义推理结果,反 过来,电影音频信号分类的准确程度和电影音频场景的语义推理结果也可以用来评估特征 的性能。
[0004]在以前的电影音频信号的研究中,使用的特征一般都是人工构建的浅层特征,比 如梅尔倒谱系数(Mel-Frequency Cepstral Coeff icient,MFCC),时频特征等(Austin, 2010,Li,2014)。浅层特征仅将原始输入信号转化到特定空间,因此无法有效刻画信号的特 性,因而导致说电影音频信号处理达不到人们理想的要求。而使用深度神经网络(deep neural network,DNN) (Hinton,2006)学习得到的深层特征不仅省去了繁琐和复杂的人工 构建特征的过程而且还可以提取到人工构建得不到的特征(Seide,2011),由于DNN可以学 习到更有用的特征,从而最终提升分类或预测的准确性(余凯,2013)。
[0005] 最近几年,深层特征广泛应用于语音识别领域(Mohamed,2011,Bao,2013),这些深 层特征一般都是通过使用DNN对MFCC特征学习得到,即把MFCC作为DNN的输入,但是这种通 过对MFCC训练得到的深层特征,因为需要去除没用的信息保留有用的信息,所以前面几层 的效果一般不是很好,一般需要比较深的层效果才会好。如果直接将M0AS作为DNN的输入, 这样可以直接使用DNN从M0AS中提取有效的深层特征,可以节省训练的深度层数;另外,由 于MFCC在提取过程中,去除了M0AS中的一些有用的信息,在后面使用DNN对MFCC学习的过程 中,这部分丢失的信息很难学习得到,如果直接M0AS作为DNN的输入,就不会发生这种情况; 因此若直接使用M0AS作为DNN的输入,提取的深层特征需要的深度层数不仅要比使用MFCC 作为DNN的输入少,而且提取的有用信息应该还会多些。

【发明内容】

[0006] 本发明针对目前电影音频深层特征提取的缺陷,提供一种基于M0AS的深层特征提 取方法。
[0007] 为解决上述技术问题,本发明的技术方案如下:
[0008] 一种基于M0AS的深层特征提取方法,将M0AS作为输入,首先构建一个RBM (Restricted Boltzmann Machines,受限波尔兹曼机),其次对这个RBM进行训练,再使用同 样的方法,构建多个RBM,最终得到深层特征提取器,最后将M0AS作为此深层特征提取器的 输入,得到深层特征。
[0009] 上述基于M0AS的深层特征提取方法,具体包括下列步骤:
[0010] si、构建第一个RBM,其由可视层(visual layer)和隐含层(hidden layer)构成2 层神经网络模型;
[0011] s2、将M0AS作为该RBM的输入,训练该RBM,使可视层的似然度达到最大值;
[0012] S3、在s2步骤训练好的RBM的基础上,再增加一个隐含层,即将第一个RBM的隐含层 作为第二个RBM的可视层,构建第二个RBM,训练该RBM;
[0013] s4、采用同样的方法,构建一个含有η层RBM构成的深层特征提取器;
[0014] s5、将s4步骤得到的深层特征提取器进行微调,得到最终的深层特征提取器;
[0015] s6、利用s5步骤训练好的深层特征提取器,将M0AS作为输入,提取出M0AS对应的深 层特征。
[0016] 上述基于M0AS的深层特征提取方法中,所述各个RBM的可视层和隐含层彼此连接, 同层之间无连接。
[0017] 上述基于M0AS的深层特征提取方法中,第一个RBM的可视层的节点数设置为512, 隐含层的节点数设置为39。
[0018] 上述基于M0AS的深层特征提取方法中,第二个RBM的可视层的节点数设置为39,隐 含层的节点数设置为39。
[0019] 上述基于M0AS的深层特征提取方法中,s5步骤使用反向传播(back-propagation, BP)对深层特征提取器的各层之间的权值进行微调,最终得到每层权值都合适的深层特征 提取器。
[0020] 上述基于M0AS的深层特征提取方法中,所述η层RBM构成的深层特征提取器层与层 之间的变换关系为
[0021] df,m+i = 〇(df,m)Km^in
[0022] 其中,df,m+i、df,m:5^ll表示第m+1和m层的深层特征,〇表示sigmoid函数,~⑴:丨川切'')。
[0023] 与现有技术相比,本发明技术方案的有益效果是:
[0024] (1)本发明基于M0AS的深层特征提取方法提取的特征是深层特征,深层特征不仅 省去了复杂和繁琐的人工构建过程,而且还可以提取到人工构建不到的特征。
[0025] (2)本发明将M0AS作为深层特征提取器的输入,和使用浅层特征,比如MFCC作为输 入相比,不仅可以减少训练层数,而且还可以避免在提取MFCC的过程中,丢失一些有用的信 息,也就是说,使用M0AS作为输入,提取到的有用信息会比使用浅层特征作为输入多。
【附图说明】
[0026] 图1为基于M0AS的深层特征提取的流程图;
[0027]图2为第一个RBM的构建过程示意图;
[0028] 图3为第二个RBM的构建过程示意图;
[0029] 图4为深层特征提取器的构建过程示意图。
【具体实施方式】
[0030] 下面结合附图和具体实施例进一步详细说明本发明,但实施例并不对本发明做任 何形式的限定。
[0031] 图1示出了基于电影原始音频采样点提取深层特征的基本处理过程。
[0032] 本发明基于M0AS的深层特征提取的实现过程如下:
[0033] 1.首先要为训练深层特征提取器准备数据,准备数据分为两大部分:预训练数据 和微调数据。其中,预训练数据用于对深层特征提取器进行预训练,得到一个初步的深层特 征提取器,微调数据是用于对得到的深层特征提取器进行微调,不管哪一部分数据,都要为 它们分别提取原始采样点数据和梅尔倒谱系数。
[0034] 2.构建和训练第一个RBM。图2示出了第一个RBM的构建过程,它是由可视层和隐含 层构成的2层的神经网络模型,其中可视层和隐含层彼此连接,同层之间无连接。令v和h分 别代表可视层和隐含层的参数,则一个联合概率(公式如下)可以分配给RBM:
[0036]其中Z代表规范化因子,W代表权值矩阵,b和c分别代表可视层和隐含层的偏移 值,T表示转置。
[0037] 3.在第一个RBM的基础上,构建和训练第二个RBM。图3示出了第二个RBM的构建过 程。其将第一个RBM的隐含层作为可视层,和第一个RBM不同的是,它的可视层和隐含层的节 点数是一样的,采用上面的方法,训练此RBM。
[0038] 4.采用同样的方法,构建一个含有η层RBM构成的深层特征提取器。图4示出了此深 层特征提取器的构建结构图。
[0039] 5.利用微调数据对上面预训练得到的深层特征提取器进行微调。其中微调的方法 是使用反向传播(back-propagat i on,ΒΡ)对深层特征提取器的各层之间的权值进行微调, 最终得到每层权值都合适的深层特征提取器。
[0040] 6.将M0AS输入到此深层特征提取器,即可提取到深层特征。
[0041 ]以电影原始音频采样点进行分帧加窗(帧长32ms,帧移16ms,加汉明窗)为例再具 体描述。
[0042] A1.假设采样频率是16KHz,这样每帧就得到512个采样点,假设得到的采样点矢量 为S,将S分成三部分,分别为和&,其中Si用于预训练,S2用于微调,S3用于提取深层特 征。
[0043] A2.对SjPS2的每帧提取梅尔倒谱系数特征,假设提取到的特征分别为MQ1和MQ2,把 S!作为第一个RBM的输入,把MQ1作为第一个RBM的输出,训练此RBM,当第一个RBM训练完成 后,假设经过第一个RBM的非线性特征变换,Si变换为施。
[0044] A3.在第一个RBM的基础上构建第二个RBM,其中把作为第二个RBM得到输入,把 M〇1作为第二个RBM的输出,训练此RBM,当第二个RBM训练完成后,假设经过第二个RBM的非线 性特征变换,Mi变换为M 2
[0045] A4.用同样的方法,训练一个由η层RBM构成的深层特征提取器,假设层与层之间的 变换关系为
[0046] df,m+i = 〇(df,m)Km^in
[0047] 其中,df,m+l、df,m分别表示第m+l和m层的深层特征,σ表示sigmoid函数,σパ. 1C) = 1/(1+e',)。
[0048] A5.使用SdPM〇2对这个深层特征提取器进行微调,其中把52作为此深层特征提取 器的输入,M Q2作为此深层特征提取器的输出。微调完成后,得到新的层与层之间的非线性特 征变换公式,假设为
[0049] dfm+i = 〇(dfm)
[0050] 其中,dfm+i、dfm分别表示第m+1和m层的深层特征,〇表示sigmoid函数,~)。
[0051] A6.把S3作为此深层特征提取器的输入,使用上面训练得到的层与层之间的非线 性特征变换公式,即可得到&对应的深层特征。
[0052]显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对 本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可 以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本 发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求 的保护范围之内。
【主权项】
1. 一种基于MOAS的深层特征提取方法,其特征在于,将MOAS作为输入,先构建一个RBM 并对该RBM进行训练,再用同样方法,构建多个RBM,得到深层特征提取器,最后将MOAS作为 此深层特征提取器的输入,提取其深层特征。2. 根据权利要求1所述的基于MOAS的深层特征提取方法,其特征在于,包括下列步骤: s 1、构建第一个RBM,其由可视层和隐含层构成2层神经网络模型; s2、将MOAS作为该RBM的输入,训练该RBM,使可视层的似然度达到最大值; s3、在s2步骤训练好的RBM的基础上,再增加一个隐含层,即将第一个RBM的隐含层作为 第二个RBM的可视层,构建第二个RBM,训练该RBM; s4、采用同样的方法,构建一个含有η层RBM构成的深层特征提取器; s5、将s4步骤得到的深层特征提取器进行微调,得到最终的深层特征提取器; s6、利用s5步骤训练好的深层特征提取器,将MOAS作为输入,提取出MOAS对应的深层特 征。3. 根据权利要求2所述的基于MOAS的深层特征提取方法,其特征在于,所述各个RBM的 可视层和隐含层彼此连接,同层之间无连接。4. 根据权利要求2所述的基于MOAS的深层特征提取方法,其特征在于,第一个RBM的可 视层的节点数设置为512,隐含层的节点数设置为39。5. 根据权利要求2所述的基于MOAS的深层特征提取方法,其特征在于,第二个RBM的可 视层的节点数设置为39,隐含层的节点数设置为39。6. 根据权利要求2所述的基于MOAS的深层特征提取方法,其特征在于,s5步骤使用反向 传播对深层特征提取器的各层之间的权值进行微调,最终得到每层权值都合适的深层特征 提取器。7. 根据权利要求2所述的基于MOAS的深层特征提取方法,其特征在于,所述η层RBM构成 的深层特征提取器层与层之间的变换关系为兵屮,dt Vi、Cir m力、別衣不弟m+ i不Pm层的深层特征,O表示S i gmo i d函数,气,#) = L/ (1+e ' 〇。
【文档编号】G10L25/57GK106024011SQ201610333538
【公开日】2016年10月12日
【申请日】2016年5月19日
【发明人】杨继臣, 刘磊安
【申请人】仲恺农业工程学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1