一种基于人工神经网络的空间信息学习方法与流程

文档序号:11216993阅读:394来源:国知局
一种基于人工神经网络的空间信息学习方法与流程
本发明涉及一种一种基于人工神经网络的空间信息学习方法,是一种采用神经网络提取不变性特征的方法,特别涉及采用深层卷积神经网络提取空间信息的方法,属于深度学习
技术领域

背景技术
:卷积神经网络(cnn)作为一个现阶段最优秀的特征提取器之一,其表现力不仅已经在计算机视觉领域大放光彩,而且卷积核的局部感知原理已经让nlp、围棋博弈(alphago)等非视觉领域有了进步。为了提取到更具有表现力的特征,更多的研究者致力于研究如何设计一个高效的卷积神经网络架构。例如,alexnet—它是卷积神经网络近期第一次飞跃式的结果提升,vgg、inception—用较少的参数可以让网络达到更深,残差网络—通过残差单元中的恒等映射来降低信号在每一层之间的传播误差,从而降低训练集的错误率使得我们在理论上可以训练非常深的模型。有了这些具有表现力的特征提取架构,才能使得具体的视觉任务得到根本性的提高。传统的神经网络激活缺乏全局几何不变性。(gongy,wangl,guor,etal.multi-scaleorderlesspoolingofdeepconvolutionalactivationfeatures[c]//europeanconferenceoncomputervision.springerinternationalpublishing,2014:392-407.)传统cnn架构的描述力保留了大量全局空间信息,正是因为这些强全局空间信息极大的削弱了cnn不变性识别能力。因此,神经网络本质上缺乏对于几何不变性的理解。这种不变性能力的缺乏导致了神经网络在具体的视觉任务方面表现出了较差的泛化能力。如果可以在高层特征的全局空间信息进行分析,那么就可以消除卷积神经网络的这种缺陷。几乎所有的神经网络都使用数据增强、dropout和weightdecay的方式来提高模型的泛化能力。dropout方法依靠修改网络架构来提高模型的泛化能力,weightdecay是依靠修改损失函数。而数据增强是通过对原始数据进行变换从而增加了训练样本数量的方法。对于图片识别任务,水平翻转、随机抓取、水平抓取等方法是经常会被用到来对原始数据进行变换的方法。通过比较以上三种提高模型泛化能力的方法,数据增强是唯一一种用来弥补cnn的不变性的方式。但是这种对训练集进行预处理的方式实现的识别正确率的提升并不代表卷积神经网络自身真正的理解了图片的不变性问题。人类大脑的研究给予了我们启示,如附图1所示,在v1之上的其余不少枕叶皮层也涉及到了视觉处理。例如,inferiortemporal(it)cells皮质对目标的空间和全局信息激活有强烈的反馈(youngmp,yamanes.sparsepopulationcodingoffacesintheinferotemporalcortex.[j].science,1992,256(5061):1327.)。这些来自于人脑研究的现象表明了在人脑内部有类似于处理全局空间信息的皮质层。基于此,我们希望在卷积神经网络顶端加入空间信息处理层(sfl),其目的是仿造人脑对于视觉空间信息的学习,弥补cnn在不变性问题中表现的不足。通过有效的空间信息学习,来使卷积神经网络自身具备对图片不变性的学习能力。而具有这种功能区的卷积神经网络应当是不依赖数据增强的方式就可以实现很好的泛化结果。技术实现要素:本发明的目的是针对现阶段人工神经网络依赖数据预处理方法来提高模型泛化能力的问题,提出了一种空间信息学习架构,从而使得人工神经网络捕捉到的特征具有不变性,减少神经网络对于数据预处理的依赖性。本发明技术方案的思想是:效仿人脑视觉处理通路,在高层特征感知器层之上加入一个空间信息处理层(sfl)。其目的有两个:1,高层提取到的特征是全局特征,对全局特征进行相关性分析,使得人工神经网络在最终的特征输出以特征之间的关联关系作为参考进行预测;2,在特征处理层中对特征图进行结构性分析,将原始十分稀疏的特征矩阵映射到较为密集的特征矩阵,使得人工神经网络可以更好的预测发生几何形变的物体。为实现以上目的,本发明采用的技术方案如下:一种基于人工神经网络的空间信息学习方法,该方法包括以下步骤:步骤一、利用传统神经网络对输入图片进行抽象表达,在传统神经网络的中高层提取特征图得到特征向量f;步骤二,对步骤一提取的特征图通过下式进行滤波映射操作得到结构特征矩阵lf以增强数据显著性:lf=conυ(f,filter);其中,filter表示卷积滤波选用的核函数,conv表示滤波映射操作采用的是卷积形式;作为优选,filter的使用,可以采用以下两种方式之一:a.采用先验知识初始化核函数,在每一次计算函数输出值的时候将核函数看成是一个常量;b.将核函数看成是一个自适应滤波器,其值会随反向传播算法而进行调整,最后选择一个最优的核函数。步骤三,对步骤二输出的lf通过卷积神经网络进行卷积操作以得到更加抽象的特征表达x;步骤四,由于计算能力的限制,步骤三计算产生的特征表达x无法在步骤五中计算相关矩阵,因此对抽象特征表达x进行gap降维处理得到特征点x*(featurepoints);步骤五、对步骤四输出的特征点通过如下公式进行相关性分析得到相关矩阵d=x*×x*t(correlationmatrix):步骤六、对步骤五计算生成的相关矩阵通过如下公式进行投影操作,得到结构特征向量cd:cd=d*v;其中,v表示对相关矩阵d进行投影变换使用的权值列向量,采用高斯分布函数进行初始化,v是通过训练获得的先验概率分布;步骤七、对步骤六得到的cd通过下述公式与步骤一原始特征向量f融合得到最终的特征输出:y(f)=f+λ*cd;其中,y(f)为结合了原始卷积层计算得到的抽象特征表达f和全局空间中的位置信息表达cd,λ为融合因子。作为优选,λ=0.1。有益效果:对比现有技术,本发明具有以下有益效果:(1)传统神经网络的数据增强方法对模型泛化力起到了重要的作用。去除数据增强方法的模型很难识别一些发生几何形变的物体。而本发明通过空间信息学习的方式,不依赖于数据增强的方法就可以识别发生几何形变的物体,使神经网络对于不变性的识别更加鲁棒。(2)传统神经网络在计算物体类别概率时,认为特征集中的各个特征之间是相互独立的。本发明提出这种假设存在的问题,并且基于此问题进行特征点之间的相关性分析,提出了相关矩阵的概念。(3)空间信息处理层(sfl)产生的带有空间信息的特征向量需要与原始神经网络产生的抽象特征向量相融合。本发明给出了一种融合方案,并且针对不同的融合因子进行验证,给出了一种较优的融合形式。附图说明构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1是人脑视觉通路中关于空间信息处理的局部构造。图2是本发明的整体架构。图3是高层特征图通过全连接的方式进行物体分类概率预测。具体实施方式下面结合附图对本发明方法的实施方式做详细说明。一种基于人工神经网络的空间信息学习方法,如图2所示,原始图片输入到卷积神经网络(cnn)中,在高层空间计算得到原始图片的特征图f(featuremaps);对特征图进行滤波操作(filter),以及gap层(gaplayer)降维处理后,得到了多个特征点(featurepoints),由特征点形成相关矩阵(correlationmatrix),经过投影(projection)计算得到结构特征向量cd。在惩罚融合单元(penaltyfusionunit)将结构特征向量(cd)和原始特征向量(f)进行融合得到,fullconnection输出。具体实现步骤如下:步骤一、利用传统神经网络计算特征图利用传统神经网络,对输入图片进行抽象表达,在传统神经网络的中高层提取特征图,其目的是中高层感知器输出的信息表达更具有整体性、全局性。如附图3所示,高层的卷积核输出了维度为m*m*n的特征图(outputofconvlayers),其中m*m代表每一张特征图(featuremaps)的大小,其中每一个点(i,j)都是该特征对应坐标下的一个特征数值。n代表特征图的总个数。每一层n代表第n个特征图的空间分布描述。定义f(i,j,n)为第n个特征图中坐标为(i,j)的特征数值。则该特征对目标c的识别结果可以表述为如下公式:其中,σ表示神经元采用的激活函数,ω(i,j,n)表示第n个特征图中坐标为(i,j)的特征数值的权重,m*m*n维的特征图可以用f来表示,经过加权求和后的对目标c的识别结果可以表示为预测概率(predictionprobability),b表示偏置。wf表示权重向量w与特征向量f的相似度,其中w是通过训练获得的先验概率分布,对于训练好的人工神经网络,f的显著性特征分布在一般情况下应当是高度稀疏的,其高度相似的权重向量w也应当是稀疏的。本实施例中,数据集采用cifar-100(learningmultiplelayersoffeaturesfromtinyimages,alexkrizhevsky,2009.),原始的图片的大小是32*32*3像素,其不使用数据增强的方式,直接输入到卷积神经网络。本实例卷积网络采用的模型是残差网络(resnet-32),32表示的是有32个特征提取层。本发明提取最后一层卷积层的输出8*8*64维的特征图,之后采用下述方法进行结构性分析。步骤二、结构性分析步骤一提取到的中高层特征图f理论上是高度稀疏的。这种稀疏性来源于样本的有限性,由于样本的特征对于位置的高度敏感性,通常采用对齐或者平滑窗口的方式来消除一部分的平移旋转问题。也可以通过池化的方式,在降低分辨率的同时,解决一部分的位置敏感问题。但是从图像的角度来说,避免过度拟合的方式是将位置信息模糊化,即对这种高度稀疏的矩阵进行滤波映射操作,其形式化表达为:lf=conv(f,filter)结构性分析是在逐层卷积的表达中的某一层加入了一个辅助滤波函数。64个大小为8*8的特征图使用64个大小为3*3的核函数进行滤波,其目的是将高度稀疏的8*8*64维的高层特征图围绕显著性点进行填充,增加图片的几何不变性。3*3的核函数利用卷积神经网络反向传播算法进行优化。如果想具备更大范围的几何不变性,可以增加滤波核函数的大小,高度稀疏的特征图矩阵经过滤波处理之后会自动将峰值处周围的显著性值进行填充。这种做法相当于间接的增加了训练样本,类似于数据增强方法起到的作用。对于滤波核函数的使用,我们采用以下两种方式:a.采用先验知识初始化核函数,在每一次计算函数输出值的时候将核函数看成是一个常量。b.将核函数看成是一个自适应滤波器,其值会随反向传播算法而进行调整,最后选择一个最优的核函数。经过求证,b方案的实验效果远远好于a方案。因此上述表达采用b方案进行。步骤三、计算更加抽象的特征表达x对步骤二输出的结构特征矩阵lf进行卷积操作。通过卷积神经网络,将结构性分析后的特征图继续进行卷积函数处理,从而得到更加抽象的特征表达x。在本发明的本次具体实例中,因需要结构分析而提取的高层特征图是最后一层卷积层的输出,因此本步骤可以略去。但是如果提取的是中高层特征图,而不是最后一层特征图,那么经过步骤二处理后的特征图lf需要继续作为卷积层的输入进行计算,得到更加抽象的特征表达x。步骤四、gap降维处理对步骤三输出的维度为8*8*64的特征表达x进行降维操作得到特征点(featurepoints)向量x*。为了减小步骤五所生成的相关矩阵的计算量,在生成相关矩阵之前,对特征图进行全局降维。一个维度为m*m*n的特征图x,经过gap降维将会成为维度为1*n的特征点x*,此后将会对特征点进行相关性分析。本实施例中,经过以上步骤形成的特征图的大小是8*8*64,gap层(linm,chenq,yans.networkinnetwork[j].computerscience,2013.)的作用是将特征图变成特征点。8*8*64的特征图映射为1*64个特征点。步骤五、相关性分析对步骤四输出的1*n个特征点向量进行相关性分析得到相关矩阵。给定一个目标g具有显著特征集s={f1,f2,f3,…,fk}。其中fk=f(ik,jk,nk),表示在m*m*n维的特征空间中(ik,jk,nk)点的显著性值,其中k∈(0,(n-1)*(m-1)2)。目标g的识别结果的形式化表达为:p(g|s)=p(g|f1,f2,...,fk);p(g|s)表示目标g在显著特征集s下的识别结果。但是基于全连接层的识别表达式存在一个独立性假设,即认为特征集s中的各个特征之间相互独立,如下:p(g|f1,f2,...,fk)∝∑p(g|fi)若全面考虑所有特征之间的关系,在目前的计算能力下难以实施,但我们可以假设两两特征点之间是相互独立的,即:因此,定义特征之间的相关矩阵为d=x*×x*t。x*是在步骤四中由高层卷积核计算得到的抽象特征点向量。对于1*64维的特征点,本专利进行相关性分析。可以充分考虑到特征点之间的相关性信息。x*是1*64维的列向量,相关矩阵可以定义为:d=x**×x*t,相关矩阵有如下性质:1.它是一个对称矩阵,其中任意一点的数值对应特征图中的某一特征x*和x*t的显著性乘积。2.其中峰值处代表了特征对在空间中的显著特征,该点在x*和x*t中都显著,从而体现出两两相关性。步骤六、投影计算结构特征向量cd对步骤五计算生成的相关矩阵进行投影操作,得到结构特征向量。上述步骤计算得到的相关矩阵d已经考虑了结构性和特征点之间的相关性信息。为了体现全局结构化信息,即从单一特征的角度衡量其他特征的匹配关系,同时进一步减少矩阵d的维度,形成经过全局结构化的特征向量cd。v是(m*m*n)维的权值列向量,是通过训练获得的先验概率分布;随后将cd看成是带有全局空间信息的新特征向量。cd=d*v;步骤七、结构特征向量cd与原始特征向量f融合对步骤六计算产生的结构特征向量cd进行融合操作,得到y(f)为空间信息学习架构的总体特征输出。y(f)结合了原始卷积层计算得到的抽象特征表达f和全局空间中的位置信息表达cd。y(f)=f+λ*conv(f,filter)*conv(f,filter)t*v;融合因子λ在最终融合过程中起到重要的作用,其大小决定了具有特征点对位置关系的相关矩阵在最终输出特征向量中所占的比重。融合因子λ具有两个作用:将带有空间信息的特征向量与原始特征向量相融合;相关矩阵将原始特征图中的显著性值进行了放大,因此在与原始特征融合之前,需要进行适当的缩小。实验结果表明,不同的融合因子对于最终的识别率有影响。如果采用较小的融合因子,空间信息对最终结果所起到的作用较小。最终确定λ=0.1时,模型的泛化能力和表达能力最优。表1modelrandomcropcifar-100(errorrate%)resnet-32yes34.47resnet-32no42.1resnet-32+sflno33.21resnet-26yes35.51resnet-26no43.2resnet-26+sflno34.07表1展示了使用本专利提出的方法会降低卷积神经网络对于数据增强(randomcrop)方式的依赖性。从中可以看出,原始的resnet模型如果没有randomcrop的数据增强方式,错误率会大幅度提高。而我们的方法(resnet-26+sfl)不依赖于这种数据增强的方式就可以实现较高的正确率。为了保证比较的公平性,本次实施的结果都是在完全相同参数条件下的训练集中进行的。为了说明本发明的内容及实施方法,本说明书给出了一个具体实施例。在实施例中引入细节的目的不是限制权利要求书的范围,而是帮助理解本发明所述方法。本领域的技术人员应理解:在不脱离本发明及其所附权利要求的精神和范围内,对最佳实施例步骤的各种修改、变化或替换都是可能的。因此,本发明不应局限于最佳实施例及附图所公开的内容。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1