基于感兴趣区域多元空间关系模型的图像分类方法

文档序号:6525674阅读:289来源:国知局
基于感兴趣区域多元空间关系模型的图像分类方法【专利摘要】一种基于感兴趣区域多元空间关系模型的图像分类方法本,涉及图像特征提取及模式识别,包括以下步骤:一、对原始图像检测感兴趣区域;二、提取感兴趣区域ROI的底层视觉特征;三、提取词袋特征;四、获得感兴趣区域ROI的多元空间关系;五、多元空间关系特征提取;六对词袋特征和多元空间关系特征进行特征融合及特征选择;七、使用参数优化后的分类器和步骤六获得的特征来训练样本。本发明提取的特征由于充分利用了感兴趣区域空间信息,使得图像分类精度大幅度提高;多元空间关系特征比纹理、颜色等其他图像特征更具有鲁棒性,对于训练集以外的新图像能够有效提取其自身固有的关键信息,因此取得更好的识别效果。【专利说明】基于感兴趣区域多元空间关系模型的图像分类方法【
技术领域
】[0001]本发明涉及图像特征提取及模式识别【
背景技术
】[0002]随着移动互联网技术的迅速发展和智能手机的普及,人们能够轻易地通过各种移动设备上传图像,使得互联网上的图片数据量呈几何级增长。因此,对海量图像进行准确的分类和理解,成为机器视觉领域亟待解决的问题之一。除了互联网应用,图像分类技术还可以用于遥感、医学、农业和生物等领域。近年来,图像分类技术快速发展并得到广泛应用,已成为机器视觉、模式识别等领域的热点之一。[0003]目前图像分类的方法可归纳为三类:基于底层视觉特征的方法,基于结构模型的方法和基于词袋(bagofword)模型的方法。基于底层视觉特征的方法,是指直接获取图像全局或分块的形状、颜色和纹理等特征用于图像分类,该类方法计算较简单,但分类精度往往不能令人满意,且单一的描述算子适用的图像类别有限。基于结构模型的方法主要通过分割技术确定图像的不同组成部分,进而考虑不同组成部分之间的相互关系来进行图像分类。这类方法优点在于其携带了一定的语义特征,但计算复杂度很高,且依赖前期图像分割的实现效果。基于词袋模型的方法则首先对局部图像块(patch)进行特征提取,使用聚类方法构建视觉词典,统计每幅图像出现视觉单词的频率作为分类的特征向量。该方法既保留了图像的局部特性又有效地压缩了全局图像的描述,且计算简单,因此其应用最为广泛。根据局部图像块的采样方式,又可将词袋模型分为基于区域划分和基于兴趣区域检测两种。前者将原图像划分为若干个等比例的图像块作为待训练的视觉样本,这种采样方式简单,但容易产生冗余的信息。后者借助兴趣点检测算子(interestpointdetector)对原图像进行兴趣区域检测,获取的一系列感兴趣区域ROI(RegionofInterest:感兴趣区域)能够稳定地反应一些局部显现出来的特性,由此产生的视觉单词更具代表性,并且在一定程度上能够抵抗位置信息变化带来的影响,在图象识别中可获取更高的精度。[0004]虽然空间关系携带了有助于图像分类的大量语义信息,但现有的图像分类方法只有很少一部分使用了空间关系,主要使用在基于结构模型中,空间关系谓词较为简单且种类单一(比如只有方向关系)。通过深入的理论研究和实验验证,我们发现在基于感兴趣区域的词袋模型方法中,如果引入感兴趣区域的空间关系,将会大大提高分类精度。我们通过三个例子加以说明。图1所示的“高楼大厦”图像中,Wl、w2、w3*别为标记窗户、楼面、天空的兴趣区域,可以发现标记窗户的兴趣区域之间存在规律性的空间关系模式,相比于底层视觉特征,这种空间关系模式更能反映图像的本质特征。在图2所示的“海岸”的场景中,三类不同的兴趣区域w3、w4、W5分别标记天空,沙滩和海洋,而这三者存在上中下的空间关系,具有一定的语义信息。再看存在视觉单词类别较多的“高速公路”场景(如图3所示),对于轿车往往存在标记后车窗、车尾、地面阴影的三类兴趣区域w6、w9,W8,而这三者也呈上中下的空间分布。此外,在该类场景中标记斑马线的视觉单词W7之间的分布也呈现某种固定的空间关系模式,如直线排列状。由此可见,在基于兴趣区域的词袋模型中,提取兴趣区域之间的空间关系特征,可以大大缩小与高层语义特征之间的鸿沟,在不明显增加时间复杂度的前提下大幅度提高图像识别的精度。[0005]但是从上述例子也不难发现,描述感兴趣区域间的空间关系也是较为复杂的工作,其中涉及了拓扑、方向、距离等多元化的空间关系。为此,我们设计了面向图像分类的感兴趣区域多元空间关系模型,进而应用于基于词袋模型的图像分类。【
发明内容】:[0006]为解决现有图像分类技术存在的问题,如基于结构的方法过度依赖前期处理、基本词袋模型缺乏空间信息等,本发明提出基于兴趣区域多元空间关系模型的图像分类方法,【
发明内容】主要包括:感兴趣区域多元空间关系模型,本图像分类方法的流程框架以及集成了特征融合、特征选择和优化算法的分类器。[0007]—种基于感兴趣区域多元空间关系模型的图像分类方法,至少包括以下步骤:[0008]步骤一:对原始图像检测感兴趣区域[0009]使用兴趣区域检测算子检测图像库中每幅图像的感兴趣区域ROI;[0010]步骤二:提取感兴趣区域ROI的底层视觉特征[0011]对检测到的感兴趣区域,使用底层视觉特征描述算子提取特征向量;[0012]步骤三:提取词袋特征[0013]使用聚类算法对ROI底层视觉特征向量进行聚类,所有的聚类中心构成词袋模型中的视觉词典,用ROI聚类号作为其类别标签,并统计每幅图像出现视觉单词的频率作为分类的词袋特征;[0014]步骤四:获得感兴趣区域ROI的多元空间关系[0015]分两种情况来提取ROI的多元空间关系MSRR:(I)若两区域相交,则用其拓扑关系(交叠、包含、被包含)作为MSRR关系;(2)若两区域不相交,先根据尺寸和距离判断两区域是否相关,对于相关的区域,则根据中心点方向角获得定性方向关系作为MSRR关系;[0016]步骤五:多元空间关系特征提取[0017]统计感兴趣区域间每种MSRR关系出现的频率作为多元空间关系特征;[0018]步骤六:对词袋特征和多元空间关系特征进行特征融合及特征选择[0019]对于每个样本,首先将分别提取的词袋特征和多元空间关系特征合并作为融合后的全部特征向量;然后采用特征选择方法过滤掉与样本标签不相关的特征;[0020]步骤七:使用参数优化后的分类器和步骤六获得的特征来训练样本,至少包括以下步骤:[0021]第I步:将粒子群初始化为MSRR参数和分类器参数随机值;[0022]第2步:更新粒子速度、位置;[0023]第3步:获得特征并训练分类器;[0024]第4步:若分类精度达到预期或者迭代次数超过限制则退出,否则跳转至第2步。[0025]所述的步骤一中兴趣区域检测算子采用最大稳定极值区域MESR方法。[0026]所述的步骤二底层视觉特征描述算子采用颜色直方图、局部二值模式LBP和SIFT算子分别提取颜色、纹理和尺度不变特征。[0027]所述的步骤三中聚类方法使用K均值聚类算法。[0028]所述的步骤六特征选择方法至少包括以下步骤:[0029](I)初始特征集合为全部词袋法特征;[0030](2)使用最小化冗余最大化相关MRMR方法对空间关系特征进行评估和搜索;[0031](3)每次选择最佳特征加入,直至特征数目得到预期要求。[0032]有益效果:[0033]与现有技术相比,采用本发明所述的设计方案,可以达到以下技术效果:[0034]1、提取的特征由于充分利用了感兴趣区域空间信息,能够更为准确地反映图像的语义特性,使得图像分类精度大幅度提高;[0035]2、空间关系体现了更为稳定的结构特性(比如大厦窗子的整齐排列模式,汽车的车体、车窗、车轮结构),多元空间关系特征比纹理、颜色等其他图像特征更具有鲁棒性,对于训练集以外的新图像能够有效提取其自身固有的关键信息,因此取得更好的识别效果。【专利附图】【附图说明】:[0036]图1表示“高楼大厦”场景图片检测出兴趣区域后的效果;[0037]图2表示“海岸”场景图片检测出兴趣区域后的效果;[0038]图3表示“高速公路”场景图片检测出兴趣区域后的效果;[0039]图4表示本发明实施方式的流程图;[0040]图5表示本发明中ROI的多元空间关系示意图。【具体实施方式】:[0041]下面通过上实施例进一步详细说明本发明:[0042]有效描述感兴趣区域间的多元空间关系,是本发明待解决的核心问题。本发明提出一种新的多元空间关系模型专门用于描述感兴趣区域空间关系,该模型综合了距离、拓扑和方向等多兀空间关系,能够准确描述兴趣区域间的空间关系。对相关的兴趣区域可以计算多元空间关系,并统计兴趣区域之间的空间关系频率作为特征,用于后续的图像分类。[0043]本发明的另一项内容是提出了在分类器中集成多项技术。具体包括:使用特征融合技术融合了基本词袋模型特征和多元空间关系特征;由于特征数量较多,而且存在冗余,米用了基于MRMR(MaximumRelevanceMinimumRedundancy:最小化冗余最大化相关)的特征选择;分类器和多元空间关系模型的参数设置对分类精度有着直接影响,采用群智能算法对上述参数进行了优化。[0044]图4是我们提出的图像分类方法的主要流程。首先从原始图片提取感兴趣区域,采用MESR(MaximalIyStableExtremalRegion:最大稳定极值区域)方法提取椭圆形的感兴趣区域ROI。其次,对ROI分别进行两路处理:第一路先基于SIFT等描述算子提取底层特征,在此基础上进行聚类操作获取词袋特征;第二路,基于我们提出的MSRR(MultispatialrelationofRO1:感兴趣区域多元空间关系)模型,首先获取ROI多元空间关系,进而提取空间关系特征。第一路是传统方法,第二路是我们新提出的方法。然后,将两路特征融合在一起,由于特征数量比较多,我们使用基于MRMR方法进行特征选择。最后,训练分类器,并且对MSRR模型和分类器参数用群智能算法进行优化。[0045]基于感兴趣区域多元空间关系模型的图像分类方法,至少包括以下步骤:[0046]步骤一、检测感兴趣区域(ROI)[0047]我们使用MESR(MaximalIyStableExtremalRegion:最大稳定极值区域)提取每幅图像的R0I,这里的ROI为椭圆,可表示为e=(X,y,T1,r2,Θ),其中(e.x,e.y)为e的中心坐标,e.!T1和e.r2分别为椭圆长轴和短轴的长度,e.Θ为椭圆长轴与x轴正方向的夹角。[0048]步骤二、提取ROI的底层视觉特征[0049]结合使用SIFT(ScaleInvariantFeatureTransform:尺度不变特征转换)、LBP(LocalBinaryPattern:局部二值模式)和COLOR(ColorHistogram:颜色直方图)描述算子对兴趣区域进行描述,获取特征向量。每个兴趣区域e的特征向量为F=[ws.fs(e),W1.f!(e),wk.fk(e)],其中fs、fx和fk分别为SIFT、LBP和COLOR的特征提取函数,Ws>W1和Wk为相应权重。[0050]步骤三、提取词袋特征[0051]使用K均值聚类算法对ROI进行聚类,所有的聚类中心形成词袋模型中的视觉词典,并为每个ROI添加聚类后的类别标签c(即标记单词属性),进而获取每幅图像的基本词袋模型的直方图表示Fb。[0052]步骤四、获得ROI多元空间关系MSRR[0053]获得MSRR的主要步骤为:若两区域相交,则用其拓扑关系(交叠、包含、被包含)作为MSRR关系;若两区域不相交,首先根据尺寸和距离判断两区域是否相关;若相关,则根据中心点方向角获得定性方向关系作为MSRR关系。[0054]椭圆感兴趣区域ROI可表示为G1=(c,x,y,rur2,Θ)其中e1.c为G1的标签,(e^X,θ!.y)为O1中心坐标,ep!T1和epr2分别为椭圆长、短轴长度,epΘ为椭圆长轴和χ轴正方向夹角。由此,建立感兴趣区域多元空间关系模型MSRR,感兴趣区域&和%之间的多元空间关系可表示为MSRR(ei,e2)。由于两个感兴趣区域不可能完全重叠,因为这样就会被识别为同一个感兴趣区域,因此ei古e2,那么我们考虑如下两种情况Πe2古Φ和G1He2=Φ。[0055](a)对于G1Πe2古Φ,有如下三种情况:[0056]若A[6则MSRR(e1;e2)=PP;[0057]若e2ce!则MSRR(e”e2)=PPI;[0058]若。(Xe且49则MSRR(e!,e2)=P0。[0059](b)对于θιΠe2=Φ,如果满足下述条件[0060]【权利要求】1.一种基于感兴趣区域多元空间关系模型的图像分类方法,其特征在于:至少包括以下步骤:步骤一:对原始图像检测感兴趣区域使用兴趣区域检测算子检测图像库中每幅图像的感兴趣区域ROI;步骤二:提取感兴趣区域ROI的底层视觉特征对检测到的感兴趣区域,使用底层视觉特征描述算子提取特征向量;步骤三:提取词袋特征使用聚类算法对ROI底层视觉特征向量进行聚类,所有的聚类中心构成词袋模型中的视觉词典,用ROI聚类号作为其类别标签,并统计每幅图像出现视觉单词的频率作为分类的词袋特征;步骤四:获得感兴趣区域ROI的多元空间关系分两种情况来提取ROI的多元空间关系MSRR=(I)若两区域相交,则用其拓扑关系(交叠、包含、被包含)作为MSRR关系;(2)若两区域不相交,先根据尺寸和距离判断两区域是否相关,对于相关的区域,则根据中心点方向角获得定性方向关系作为MSRR关系;步骤五:多元空间关系特征提取统计感兴趣区域间每种MSRR关系出现的频率作为多元空间关系特征;步骤六:对词袋特征和多元空间关系特征进行特征融合及特征选择对于每个样本,首先将分别提取的词袋特征和多元空间关系特征合并作为融合后的全部特征向量;然后采用特征选择方法过滤掉与样本标签不相关的特征;步骤七:使用参数优化后的分类器和步骤六获得的特征来训练样本,至少包括以下步骤:第I步:将粒子群初始化为MSRR参数和分类器参数随机值;第2步:更新粒子速度、位置;第3步:获得特征并训练分类器;第4步:若分类精度达到预期或者迭代次数超过限制则退出,否则跳转至第2步。2.根据权利要求1所述的一种基于感兴趣区域多元空间关系模型的图像分类方法,其特征在于:所述的步骤一中兴趣区域检测算子采用最大稳定极值区域MESR方法。3.根据权利要求1所述的一种基于感兴趣区域多元空间关系模型的图像分类方法,其特征在于:所述的步骤二底层视觉特征描述算子采用颜色直方图、LBP和SIFT算子分别提取颜色、纹理和尺度不变特征。4.根据权利要求1所述的一种基于感兴趣区域多元空间关系模型的图像分类方法,其特征在于:所述的步骤三中聚类方法使用K均值聚类算法。5.根据权利要求1所述的一种基于感兴趣区域多元空间关系模型的图像分类方法,其特征在于:所述的步骤六特征选择方法至少包括以下步骤:(1)初始特征集合为全部词袋法特征;(2)使用最小化冗余最大化相关MRMR方法对空间关系特征进行评估和搜索;(3)每次选择最佳特征加入,直至特征数目得到预期要求。【文档编号】G06K9/62GK103678680SQ201310728374【公开日】2014年3月26日申请日期:2013年12月25日优先权日:2013年12月25日【发明者】王生生,刘东,谷方明申请人:吉林大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1