一种复杂背景下的对象识别方法及使用的计算机技术与流程

文档序号:14872148发布日期:2018-07-07 00:59阅读:147来源:国知局

本发明属于图像识别技术领域,尤其涉及一种复杂背景下的对象识别方法及使用的计算机技术。



背景技术:

国内外著名高校和科研机构在基于非负矩阵分解及流形学习的理论和应用已经取得了丰富的成果,由此产生了一类非常有实际应用意义的人工神经网络目标识别方法。除了使用流形及非负矩阵分解的神经网络学习方法外,深度网络也是模式识别的重要工具。多种技术和研究领域的结合是创新和发展的基础,在图像分类和聚类的模式识别方面,当前基于人工神经网络深度学习方法已获得广泛应用,在这项工作中,为网络提供更具原则性的汇集策略,即“空间金字塔池”,在现有方法基础上通过消除图像规模及大小限制,新的网络结构,称为spp网,可以产生一个固定长度的代表而不管图像的大小/规模。通过消除固定大小的限制,可以改进所有基于深度卷积神经网络的图像分类方法。使用这类方法,实验结果显示,当前在caltech101数据集上获得91%的最高分类精度。另一种新的成为imagenet的可视化技术,它可以洞察中间特征层功能和分类器的操作。用于通过图像进行各类问题诊断,通过这种可视化方法,可以获得优于先前方法的模型架构。实验显示imagenet模型可以推广到其他数据集:如果我们对“软最大分类器”进行重新训练,这种方法显著地优于当前其他方法的测试结果,在caltech-101获得86.5%分类精度。这两类方法在caltech数据集上获得较高识别率,但由于实现的是分类技术,需要事先选择样本数据集进行训练,然后根据训练结果对观察数据进行逐一分类。这类识别方法与我们的聚类方法有明显区别,首先样本较大时对样本进行标记非常费时,测试中也难以准确把握获得最好识别结果时的样本大小;其次是当样本数据选项不适当、样本难以获得或直接在网络上识别对象时,分类方法无法发挥其有效性。

另一类深度学习方法是把每个人脸区分成几个固定区域,二维离散余弦变换特征从每一区域密集提取。从而每一区域软量子化柱状图与高斯混合模型相结合的模型被构造成为可视化字典。两个人脸之间的距离被定义为相应区域直方图的平均l1距离在此基础上,提出了两步法在构建软直方图上加速。高斯组元被聚类到k个簇中。直方图构造中,簇中心最近的k高斯组元最先进行计算,从而获得k个相似元,根据对象的相似性,高斯组元被用于降序方式逐簇计算直到高斯组元总量超过阈值。上述方法中人脸间的距离是通过划分两个人脸及整个集合人脸间的平均两两距离的规一化来实现的。结果显示这种标准化方法是非常有效的,它实现了在原来基础上增加2.57%的平均识别精度。尽管这类的深度学习方法实现了99%以上的lfw数据集的聚类正确性,但实施中需要选择外部数据进行补充来提高测试效率,没有直接使用原数据集,方法中也没有具体说明添加了哪些图片来补充,事实上,当我们无法获得补充数据集时,这类算法的有效性失去意义,因此,上述方法尽管在一定程度上有效,但无法和我们提出的方法进行分析和对比。将流形学习目标函数与信息理论的相似性度量离差函数结合,可以根据图像的几何结构特征建立新的代价函数,并由此获得最有效的图形图像识别问题解决方法。目前由于图形图像识别方法已经有非常高的效率,但主要是图像具有可靠性的情况下得到的,图像不可靠时,如图像有被遮挡、涂污或者复杂背景等情况时,识别方法需要重要改进才能够具有实际应用意义。事实上,在图形识别过程中,如何提取同类图像的共同特征,忽略它们之间的不同特征是识别不可靠或有干扰的图像的关键点所在。目前已有的方法中,统计和机器学习方法主要问题是大部分主要考虑通用特征提取技术,既能够识别文本,同时也识别各类图像,并没有从流形角度考虑图像的几何特征,因此对较复杂背景的图像难以准确识别。流形学习算法使用一种称为局部不变性的方法来获取数据低维特征,结合其邻近点都有相似的图嵌入特性进行聚类。实验证明,如果机器学习过程中既考虑到图形的几何结构,同时又考虑了其局部不变性,这类方法在图形图像特征提取方面的性能将会极大提高。因此,将流形学习方法应用于神经网络学习过程,可以改进传统网络中单一特征提取并进行识别存在的问题,从而极大提高这类特征识别能力。然而目前已有的流形学习与神经网络结合的方法由于学习过程中不同邻域间的数据元素相互干扰,导致特征提取结果产生冗余解,对象识别特别是具有复杂背景或前景对象识别的正确性受到很大限制。基于目前存在的这些问题,我们提出了将流形学习与神经网络结合基础上通过特征子空间分区的方式限制邻域间元素的干扰,并通过调整参数加强复杂背景对象特征提取,算法获得前所未有的有效性。

综上所述,现有技术存在的问题是:目前普通图形图像识别方法存在的问题在于大部分方法没有准确考虑图形图像的几何特征以及特征识别过程中不同邻域之间目标对象的相互影响无法消除,造成大量冗余解,其结果使得方法的目标识别率提升空间有限。



技术实现要素:

针对现有技术存在的问题,本发明提供了一种复杂背景下的对象识别方法及使用的计算机技术。

本发明是这样实现的,一种复杂背景下的对象识别方法,所述复杂背景下的对象识别方法利用基于非负矩阵分解的神经网络学习算法的独特功能;通过流形学习思想构造代价函数,实现对具有不同特征的图形、图像信息数据的分解和特征提取来发现模式识别的方法、规律性及初始数据的特征。

进一步,所述复杂背景下的对象识别方法选择如下表达式的目标函数来测量学习过程中观察对象与重构对象间的离差:

s.t.aij≥0,xjk≥0,α+β≠0

式中pjk为矩阵y中的第jk项,qjk为矩阵ax中的第jk项,ai、aj为矩阵a中列向量,xj、xk为矩阵x中列向量。

其中,(1)式中dab(ai,aj)、dab(xj,xk)定义如下,由此获得图形流形局部不变性特征提取:

通过增加或降低alpha和beta取值,可以改变收敛速度并对不同复杂度图形图像调整参数达到识别率有效提高。为了保证学习中减少冗余解,我们使用新的dab(ai,aj)、dab(xj,xk)定义,把低维代表空间数据根据识别对象数量划分成不同区域;

所述dab(ai,aj)、dab(xj,xk)定义如下:

其中uij、wjk是域中两点间的连接权值,l为不同类目标对象中需要识别的对象个数。

将所述新的dab(ai,aj)、dab(xj,xk)添加到(1)式中,可以获得本方案目标函数,获得有效目标函数后,新的聚类方法如下:

1对目标函数求导,使用梯度下降法获得相应的向量ai、xj学习算法;

2输入观察数据进行学习实现特征提取,重复更新ai、xj直到目标函数收敛于零;

3在特征提取过程中根据邻域中的每个对象必然是最近似的原理对识别对象进行特征比对并重新排列,从而实现相同对象的聚类。

本发明的另一目的在于提供一种利用所述复杂背景下的对象识别方法的计算机技术。

本发明根据图形的复杂程度选择不同alpha和beta取值,可以实现复杂背景和前景数据的识别率有效提高;通过在学习过程中将特征数据分区,避免了邻域间不同对象的相互干扰,降低冗余解,实现流形学习方法识别率提高。

对于有遮挡或噪音污染的人脸数据,通过特征提取,lnmf算法在识别率方面有明显的优越性,但稳定性却不及标准nmf算法,对图形图像的特征如果不从他们的内在几何结构的角度去提取特征,很难获得更有效的图形特征识别算法。流形学习方法的主要特征是探寻提取图形的内在几何特征,应用于图形识别。因此,本发明通过nmf及流形学习模式结合的分区学习方式,实现目标识别算法的改进与创新。

本发明通过对每个数据集10次测验然后计算平均值显示,对caltech101数据集,正确率约85.2%、正负2.5%误差,根据最新查询资料显示,目前国际最新论文实验获得正确聚类率约80%。对于lfw数据集,测试达到86.5%、正负1.75%准确率,而目前国际最新论文研究结果显示其聚类正确率73%,如下两组结果图2和图3是两个数据集测试结果展示。我们将同类数据逐行显示在图中,可以看出相同的对象基本被聚集在一起,只有非常少的对象被聚集在非自己同类中。目前尚未找到在这个数据集上的聚类方法有比本发明的测试结果更好的技术。

附图说明

图1是本发明实施例提供的复杂背景下的对象识别方法流程图。

图2是本发明实施例提供的caltech101数据集上聚类部分测试结果示意图。

图3是本发明实施例提供的lfw数据集上聚类部分测试结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明以识别对象的局部特征和整体特征之间的拓扑关系为基础,结合人脑信息处理机制与计算科学理论来建立神经网络方法,从图形图像流形的角度提取数据的内部结构。在分析总结各类存在的流形学习及基于非负矩阵分解的人工神经网络学习算法基础上建立新的模型,为分类、聚类和模式识别提供更好的解决方案。通过在机器学习过程中对离散数据集合的分解,探求嵌入在高维数据中本质低维流形的表达方式,获得观察对象的内在规律,提取出图形图像中隐藏的特征信息。本发明首先构造目标函数,使得构造的神经网络学习方法在图像特别是带噪音、遮挡和有损坏的图形图像数据集上,能够根据其不同类别找出该类的局部不变特征,使得算法在特征提取和恢复方面有显著的模式识别有效性。实验中主要针对caltech101和lfw数据集进行测试,这两个数据集中图形都有较复杂的,如浓密树林中的动物、对象在图中占的位置小而非识别对象图形占的比例很大及人脸前面有遮挡物或背景上有其他人等,这些图像会由于背景复杂度的不同而极大降低算法识别能力;我们获得了国际国内目前最好的识别效果。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示,本发明实施例提供的复杂背景下的对象识别方法包括以下步骤:

s101:利用基于非负矩阵分解的神经网络学习算法的独特功能;

s102:通过流形学习思想实现对具有不同特征的图形、图像信息数据的分解和特征提取来发现模式识别的方法、规律性及初始数据的特征。

本发明实施例提供的复杂背景下的对象识别方法选择如下表达式(1)的目标函数来测量图形间的离差:

s.t.aij≥0,xjk≥0,α+β≠0

式中pjk为矩阵y中的第jk项,qjk为矩阵ax中的第jk项,ai、aj为矩阵a中列向量,xj、xk为矩阵x中列向量。通过选择适当光滑系数alpha、beta及流形光滑强制函数dab(ai,aj)、dab(xj,xk)可以获得广泛应用。

选择如下式(2)、(3)中dab(ai,aj)、dab(xj,xk)可以获得图形流形局部不变性特征提取,提高算法的图像识别能力:

通过使用如下式(2)、(3)的dab(ai,aj)、dab(xj,xk),可以把低维代表空间数据划分成不同区域,使得由此得到的机器学习算法可以根据图像类别提取几何特征,有效阻止了不同类对象间信息转移,实现有效聚类。因此dab(ai,aj)、dab(xj,xk)定义如下:

其中uij、wjk是域中两点间的连接权值。结合(2)、(3)或(4)、(5)的dab(ai,aj)、dab(xj,xk)到(1)式中并对(1)使用梯度下降法可以获得相应的学习算法同时使用最近邻为同类的方式进行聚类。

下面结合实验对本发明的应用效果作详细的描述。

实验结果显示,本发明可以明显改进聚类的正确率。图2、图3显示出对不同数据集的部分图形和人脸的聚类结果,分别是caltech101[g.huang,m.ramesh,t.berg,ande.learned-miller,”labeledfacesinthewild:adatabaseforstudyingfacerecognitioninunconstrainedenvironments,”universityofmassachusetts,amherst,technicalreport07-49,october2007]和lfw[l.fei-fei,r.fergusandp.perona.”learninggenerativevisualmodelsfromfewtrainingexamples:anincrementalbayesianapproachtestedon101objectcategories,”ieee.cvpr2004,workshopongenerativemodelbasedvision.2004]数据集上的图像聚类,从而识别出同一个对象或同一个人。从展示的情况看,本发明具有非常高的正确率,绝大部分图像都被聚集到正确的类中。通过对每个数据集10次测验然后计算平均值显示,对caltech101数据集,正确率约85.2%正负2.5%误差,对于lfw数据集,测试达到86.5%正负1.75%准确率,如下两组结果是两个数据集测试结果展示。将同类数据逐行显示在图中,可以看出相同的对象基本被聚集在一起,只有非常少的对象被聚集在非自己同类中。

对于超大规模数据,先对其使用聚类方法进行初步分析,使绝大部分有明显规律数据能够自动聚集起来,可以从中挑选出适当样本,对数据进行更进一步分类,达到对一类数据的准确识别。通过对参数的选取和强制性光滑函数的设计,本发明对复杂背景的识别对象具有当前聚类方法的最高效率识别能力,其应用是非常具有优势的。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1