一种基于因子图模型的图片中对象识别方法

文档序号:6625131阅读:279来源:国知局
一种基于因子图模型的图片中对象识别方法
【专利摘要】本发明提供一种基于因子图模型的图片中对象识别方法,包括对训练集中每张图片分别进行图像分块,提取各图像块的SIFT特征向量,得到图片的SIFT特征向量集,确定各图像块对应的标签,图像块的标签为正时表示对象存在于该图像块中;训练集中所有图片的SIFT特征向量集组成集合,基于该集合利用聚类算法,计算SIFT特征向量词典;针对训练集中的每张图片,分别构建因子图模型;进行因子图模型参数学习,采用测试集验证学习所得因子图模型参数,验证成功则根据因子图模型参数对任意待识别的图片进行对象识别。本发明可提高复杂图像背景下对象识别的准确度。
【专利说明】—种基于因子图模型的图片中对象识别方法

【技术领域】
[0001]本发明涉及多媒体处理与模式识别【技术领域】,尤其涉及一种基于因子图模型的图片中对象识别方法。

【背景技术】
[0002]图片中对象识别主要判断对象所处位置和范围,是视觉识别的一类重要问题。视觉识别的困难主要来自两点[1]:一是过大的搜索空间,即在不同位置和范围上搜索对象,计算复杂度很高;二是由于角度、姿态或光照条件变化,对物体外形进行有效建模比较困难。近年来出现的词袋方法(Bag-of-Words)[2]显示了基于图像块思路的有效性,将图像局部特征编码为视觉单词的做法得到了广泛认可。该思路在图像块层次上,通过视觉词典来表征物体外形,是一种稀疏表示方法,在一定程度上降低了学习算法在参数空间上的搜索复杂度。同时,该思路还能够有机地结合一些图像特征,如SIFT、H0G和LBP等局部特征,从而提高了物体外形建模效果。
[0003]词袋方法的性能依赖于词典和特征编码策略。目前已经出现了将稀疏编码、向量量化编码、核词典编码、显著性编码等运用在视觉识别中的编码技术,并且有将编码和分类技术结合起来以训练面向任务的词典相关研究。但是,与文字识别、人脸识别等研究相比,在复杂图像背景下,研究面向物体识别具体任务进行词典学习的工作才刚刚起步[3]。为提高复杂图像背景下物体识别的效果,可以采用多种方法。典型的思路就是使用图像局部关联信息,由于图像块之间具有关联性,将这种关联性建模到物体识别中将会有所帮助,开创性的工作为s.Kumar等将条件随机场(CRF)模型[4]扩展到2维格形结构之后运用到图像分析中[_。
[0004]在基于CRF模型的词典学习中,以每一个图像块作为节点,图像块形成的格状网络作为连边关系ωΜ。这种建模方法,图像块(CRF模型中对应节点)之间的关联性主要以格状网络表达,这其实是一种只考虑物理距离关联性的方法。这种假设不完全合理,因为在一张图片中,常常会在不同区域同时出现同一类物体,而这些物体可能邻接,也可能会被背景分离。由于格状网络只能表征邻接特征,对于被背景分开的物体之间的关联性,则难以表征。因此,必须更加充分地考虑图像块之间的连边关系,比如不同图像块之间的相似性,并且将此相似性也作为建模中的重要因素考虑进去,即当一个图像块中存在(或不存在)对象时,与之相似的图像块中存在(或不存在)对象的概率应该相应增加。为了实现这种建模,本发明使用因子图模型mte][9],全面地表征图像块之间的相互影响以及图像块自身特征与对象之间的关系。
[0005]文中涉及的参考文献如下:
[0006][I]黄凯奇,任伟强,谭铁牛.图像物体分类与检测算法综述[J].计算机学报,2014,37(6):1225-1240.
[0007][2]胡事民,张方略,汪淼.片网:图像表示的一种新技术[J].中国计算机学会通讯,2014,(10) 1:54-59.
[0008][3] Yang J M and Yang M H.Top-Down Visual Saliency via Joint CRF andDict1nary Learning[C].1n Proceedings of the IEEE Conference on Computer Vis1nand Pattern Recognit1n, Providence, June, 2012, pp.2296-2303.
[0009][4]Lafferty.Condit1nal Random Fields:Probabi Iistic Models forSegmenting and Labeling Sequence Data [C].1n Proceedings of the 18thInternat1nal Conference on Machine Learning (ICML),2001,pp.282-289.
[0010][5] Kumar S and Hebert M.Discriminative random fields [J].1nternat1nalJournal of Computer Vis1n, 68 (2):179-201.
[0011][6] Quattoni A,Collins Mj Darrel I T.Condit1nal Random Fieldsfor Object Recognit1n [C].1n Advances in Neural Informat1n ProcessingSystems, 2005,pp.1097-1104.
[0012][7] Kschischang F Rj Frey B J and Loeliger H A.Factor graphsand the sum-product algorithm [J].1EEE Transact1ns on Informat1nTheory, 47(2): 498-59,2001.
[0013][8] Wang C,Tang J and Sun J M,et al.Dynamic social influenceanalysis through time-dependent factor graphs[C].1n Proceedings of theInternat1nal Conference on Advances in Social Networks Analysis andMining (ASONAM),Kaohsiung:2011.
[0014][9] Tan C,Tang J and Sun J,et al.Social act1n tracking vianoise tolerant time-varying factor graphs [C].1n Proceedings of the 16thACM SIGKDD Internat1nal Conference on Knowledge Discovery and Datamining(KDD),Washington:2010.


【发明内容】

[0015]针对上述存在的技术问题,本发明目的是提供一种基于因子图模型的图片中对象识别的方法。使用因子图模型,能够考察图像块之间关联性对参数学习结果的影响,可以更好地利用局部信息,提高复杂图像背景下对象识别的准确度。
[0016]为达到上述目的,本发明釆用如下的技术方案:
[0017]一种基于因子图模型的图片中对象识别方法,包括以下步骤:
[0018]步骤1,输入训练集,对训练集中每张图片分别进行图像分块,提取各图像块的SIFT特征向量,得到图片的SIFT特征向量集,确定各图像块对应的标签,图像块的标签为正时表示对象存在于该图像块中;
[0019]步骤2,训练集中所有图片的SIFT特征向量集组成集合,基于该集合利用聚类算法,计算SIFT特征向量词典;
[0020]步骤3,针对训练集中的每张图片,分别构建因子图模型;
[0021]步骤4,进行因子图模型参数学习,包括以下子步骤,
[0022]步骤4.1,运行线性支持向量机,得到因子图模型参数的初始值;
[0023]步骤4.2,基于训练集中的所有图片,结合梯度下降算法和信念传播算法学习因子图模型参数;
[0024]步骤4.3,判断步骤4.2所得因子图模型参数取值是否收敛,若是则得到参数学习结果,进入步骤5,若否,判断当前是否达到预设的迭代次数,未达到则返回迭代步骤4.2,达到则将本次执行步骤4.2所得因子图模型参数作为参数学习结果,进入步骤5 ;
[0025]步骤5,采用测试集验证步骤4学习所得因子图模型参数,验证成功则根据因子图模型参数对任意待识别的图片进行对象识别,验证包括以下子步骤,
[0026]步骤5.1,构建测试集中每张图片的因子图模型;
[0027]步骤5.2,基于步骤5.1所得因子图模型和步骤4学习所得因子图模型参数,使用信念传播算法,计算测试集中每张图片各图像块对应的标签预测结果;
[0028]步骤5.3,确定测试集中图片各图像块的标签,判断步骤5.2得到的标签预测结果与标签之间的查准率和查全率,若在预设的接受范围,验证通过。
[0029]而且,步骤I和步骤5.3中,确定各图像块对应的标签方式为,若图像块中标签为正的像素数超过预设阈值,该图像块的标签为正,否则该图像块的标签为负。
[0030]而且,步骤3和步骤5.1中,所述的因子图模型的结构包括节点因子和边因子,
设训练集或测试集中任一图片为χω,划分得到m个图像块,图像块JCf1对应的标签为yf",/= I,.., /?,对任一图片构建因子图模型的方式如下,
[0031]构建节点因子,包括根据SIFT特征向量词典,得到图像块的稀疏表示,建立稀疏表示与标签之间的概率映射函数;
[0032]构建边因子,包括计算各图像块之间的SIFT特征匹配度,再结合图像块的特征匹配度和位置邻接关系建立概率映射函数;
[0033]确定因子图模型优化的目标函数。
[0034]本发明具有以下优点和积极效果:
[0035]I)对于图像块建模了长程相关性,使得图形由邻接图像块之间的格状网络转变为真正的网络;
[0036]2)将视觉词袋方法与因子图模型结合使用,不仅能够建模视觉单词的词频信息,还能够有效地表征网络结构以及原始图像块的相似性特征。

【专利附图】

【附图说明】
[0037]图1是本发明实施例的总体流程图;
[0038]图2是本发明实施例的训练集中的图片对应的标签示意图;
[0039]图3是本发明实施例中一张图片具体对应的网络结构示意图;
[0040]图4是本发明实施例中因子图模型的变量以及节点因子、边因子的可视化示意图;
[0041]图5是本发明实施例在Graz02数据集中bike类上识别“自行车”对象的查全率、查准率和查全率-查准率曲线。

【具体实施方式】
[0042]下面结合附图和实施例对本发明作进一步说明。
[0043]本发明提出的是一种基于因子图模型的图片中对象识别方法,参见图1,实施例包括具体步骤如下:
[0044](I)输入包括有多张图片的训练集,对每张图片进行图像分块,提取各图像块的SIFT特征向量。
[0045]实施例中,输入预先给定的包含N张图片的训练集X = {X(n)} |n = Ρ..Ν,对每张图片Χω进行图像分块,提取图像块的SIFT特征向量:
[0046]本发明适于处理不小于128Χ 128像素的图片,格式一般为bmp和jpg等。将各图片Χω划分成64X64像素的图像块,设划分得到m个图像块,记为if,λ.Γ,....χΠ ,邻接图像块重叠32个像素。图片Χω已在像素级别上正确标识出对象标签,若图像块中标签为正的像素数超过预设阈值,表示对象存在于该图像块中,该图像块的标签为正,否则该图像块的标签为负,即对象不存在于该图像块中。具体实施时,本领域技术人员可自行预设阈值,建议取图像块像素总数的3/4。设任一图像块Jtf对应的标签为}ja>, I= I?.., I?,即图片X(n)
中所有图像块对应的标签集合为0,广,.^,”<%参见图2,训练集中某图片包括自行车和其他背景,以自行车为对象,则图2中黑色部分为像素级别上正确标识出对象标签处。
[0047]使用SIFT特征向量提取算法,计算所有图像块;(f的SIFT特征向量sf?则图片
x(n)的SIFT特征向量集为= {.sfuf ,...,O ?, SIFT特征向量是一种常用的图像局部特征描述形式,本发明用来表示图像块的原始特征。
[0048](2)预处理:利用聚类算法,计算SIFT特征向量词典。
[0049]实施例中,聚类算法使用的是k-means算法,利用k_means聚类算法计算SIFT特征向量词典:
[0050]训练集中所有图片的SIFT特征向量集组成集合S = {S(n)} |n = 1,..,N。使用k-means聚类算法,得到k个特征向量子集,k取值可由本领域技术人员预先指定,实施例中设为512。各特征向量子集的中心点组成SIFT特征向量词典D。k-means聚类算法是已经存在的成熟算法,本发明不予赘述。
[0051](3)针对训练集中的图片,构建因子图模型。
[0052]实施例针对训练集X中的每一个图片X(n),分别构建因子图模型,因子图模型包括节点因子和边因子两部分,节点因子刻画图像块与标签之间的关系,边因子刻画图像块之间的影响。具体地,对任一图片构建因子图模型包括以下子步骤:
[0053](3.1)构建节点因子,即根据SIFT特征向量词典,得到图像块的稀疏表示,建立稀疏表示与标签之间的概率映射函数。
[0054]实施例根据SIFT特征向量词典D,运用最小二乘重构法,得到图像块的稀疏表示,建立稀疏表示与标签之间的概率映射函数,即节点因子,其中的具体计算过程如下:
[0055](3.1.1)使用最小二乘重构法,即优化^ =argmjnIPf-ENfu [f +l|#:w H1?


<;2
得到稀疏表达A(n),其中,D e D,为SIFT特征向量词典D中的向量;λ为稀疏性控制参数,取0.15,优化算法采用稀疏编码算法,稀疏编码算法是已经存在的成熟算法,本发明不予赘述。
[0056](3.1.2)针对图像块及相应标签定义节点因子为:

【权利要求】
1.一种基于因子图模型的图片中对象识别方法,其特征在于,包括以下步骤: 步骤1,输入训练集,对训练集中每张图片分别进行图像分块,提取各图像块的SIFT特征向量,得到图片的SIFT特征向量集,确定各图像块对应的标签,图像块的标签为正时表示对象存在于该图像块中; 步骤2,训练集中所有图片的SIFT特征向量集组成集合,基于该集合利用聚类算法,计算SIFT特征向量词典; 步骤3,针对训练集中的每张图片,分别构建因子图模型; 步骤4,进行因子图模型参数学习,包括以下子步骤, 步骤4.1,运行线性支持向量机,得到因子图模型参数的初始值; 步骤4.2,基于训练集中的所有图片,结合梯度下降算法和信念传播算法学习因子图模型参数; 步骤4.3,判断步骤4.2所得因子图模型参数取值是否收敛,若是则得到参数学习结果,进入步骤5,若否则判断当前是否达到预设的训练集迭代次数,未达到则返回迭代步骤4.2,达到则将本次执行步骤4.2所得因子图模型参数作为参数学习结果,进入步骤5 ; 步骤5,采用测试集验证步骤4学习所得因子图模型参数,验证成功则根据因子图模型参数对任意待识别的图片进行对象识别,验证包括以下子步骤, 步骤5.1,构建测试集中每张图片的因子图模型; 步骤5.2,基于步骤5.1所得因子图模型和步骤4学习所得因子图模型参数,使用信念传播算法,计算测试集中每张图片各图像块对应的标签预测结果; 步骤5.3,确定测试集中图片各图像块的标签,判断步骤5.2得到的标签预测结果与标签之间的查准率和查全率,若在预设的接受范围,验证通过。
2.根据权利要求1所述的基于因子图模型的图片中对象识别方法,其特征在于:步骤I和步骤5.3中,确定各图像块对应的标签方式为,若图像块中标签为正的像素数超过预设阈值,该图像块的标签为正,否则该图像块的标签为负。
3.根据权利要求1所述的基于因子图模型的图片中对象识别方法,其特征在于:步骤3和步骤5.1中,所述的因子图模型的结构包括节点因子和边因子,设训练集或测试集中任一图片为X(n),划分得到m个图像块,图像块Jif对应的标签为I= I”” ‘对任一图片构建因子图模型的方式如下, 构建节点因子,包括根据SIFT特征向量词典,得到图像块的稀疏表示,建立稀疏表示与标签之间的概率映射函数; 构建边因子,包括计算各图像块之间的SIFT特征匹配度,再结合图像块的特征匹配度和位直邻接关系建立概率映射函数; 确定因子图模型优化的目标函数。
【文档编号】G06K9/62GK104200222SQ201410430505
【公开日】2014年12月10日 申请日期:2014年8月28日 优先权日:2014年8月28日
【发明者】吴照林, 张海粟, 戴剑伟, 曾昭文, 朱明东, 文峰, 张胜, 姚远, 龚建华, 张岩, 冯勤群, 徐飞, 王强 申请人:中国人民解放军国防信息学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1