一种面向植物叶片的多样化图像检索的自适应的鲁棒cmvm特征降维与抽取方法

文档序号:6572693阅读:201来源:国知局
专利名称:一种面向植物叶片的多样化图像检索的自适应的鲁棒cmvm特征降维与抽取方法
技术领域
本发明涉及特征降维和选择方法,特别涉及一种植物叶片多样化图像检索的自适应的鲁棒CMVM特征降维与抽取方法。
背景技术
植物是地球上物种数量最多、分布最广泛的生命形式之一,通过光合作用维持着大气中二氧化碳与氧气的平衡。同时,植物是人类的重要食物来源,也是人类生产和生活所必需的资源。此外,植物在水土保持、抑制荒漠和改善气候等方面也起着至关重要的作用。根据统计,地球上大约有400,000种植物,其中已被植物学家命名和记录在案的约有 270, 000种。在我国仅高等植物就有35,000多种,占世界总数的10. 5%左右,是世界第二大植物物种资源库。近年来,日益增加的人类生产活动已经严重地破坏了生态环境,据统计,世界上大约有3. 4万种植物物种已处于灭绝的边缘,占世界上已知的27万种植物的12. 6%,对植物物种的保护已刻不容缓。近年来,随着计算机硬件性能的不断提高,数字图像采集设备的广泛使用,以及网络的普及应用,大量植物信息已经被数字化,而利用计算机处理数字植物信息可以避免传统研究过程中的工作效率低、工作量大且客观性难以保证等缺点。基于内容的图像检索通过自动提取图像的视觉特征来描述其内容,其优点是使得图像数据库能够自动进行索引,一般的图像检索技术都着重于提高检索的“概念”相关性,然而,面对海量图像数据,理想情况下,图像检索引擎应该在保证结果“概念”相关性的前提下,尽可能避免向用户提交雷同的检索结果,即有明显的“子概念”区分性,以提高用户的浏览效率,这就是图像的多样化检索技术。图像的多样化检索研究的对象是如何在图像检索中令新颖的、独特的、非重复冗余的图像在检索结果中排序靠前。本发明的研究是为了解决植物叶片的多样化图像检索这一重要实际问题,部分研究成果可以拓展应用到普通图像、文本、网页、视频等信息多样化检索领域,有着重要的应用价值,一旦研究成功并投入应用,将产生巨大的社会和经济效益。有关基于内容的植物叶片的多样化图像检索技术的研究还处于起步阶段,已有的方法都是针对多样化CBIR中的半监督学习问题从检索或者分类器模型方面开展的研究,而对特征抽取模型的研究工作很少;流形学习方法的应用对象是嵌入在高维复杂空间的非线性低维流形上的数据,利用流形学习方法抽取本征特征是进行图像检索的有效手段之一。但是流形学习方法本身还存在着一些问题,常见问题有(a)流形学习中的监督学习或半监督学习机制;(b)噪声敏感问题;(c)样本外点学习问题;(d)对样本点邻域参数敏感问题;(e)本征维数估计问题等。如果不能很好地解决这些问题,必然会对多样化图像检索产生不利影响;本发明将针对上述问题提出解决方案
发明内容
本发明的目的是提出一种面向植物叶片的多样化图像检索的自适应的鲁棒CMVM特征降维与抽取方法,该方法从图像流形特征抽取和选择层面展开,针对多样化图像检索问题,⑴提出鲁棒CMVM流形算法来解决图像数据中的噪声问题;⑵提出基于线性近似法的CMVM流形样本外点学习方法和本征维数估计方法;(3)提出基于“有序”层次最大间隔相关性静态评价指标的自适应的CMVM流形参数的选择和本征维数的估计方法;(4)提出一种正类类内“子概念”最大差异本征特征选择方法,以更有效地区分“子概念”。CMVM算法是基于同一类别的数据点是分布在同一个子流形上,而不同类别的数据点分布在不同的子流形上的假设提出来的。该算法在保证子流形的局域拓扑结构不变的前提下,将不同类别的子流形投影得更分散,提取最适合分类同时又能保持子流形局域结构的特征。本发明的技术方案是一种面向植物叶片的多样化图像检索的自适应的鲁棒CMVM特征降维与抽取方法,其特征在于,具体包括以下步骤

(I)对于植物图像数据集进行预处理;(2)采用交互式水平集分割方案进行图像分割;经研究发现,基于阈值的分割方法简单、易实现,但有很大的局限性,仅可以有效处理背景较简单的图像;对于具有复杂背景的叶片图像,基于交互方式的Snake方法和分水岭方法比较有效,但需要进行大量的交互时间用以设置初始轮廓和标记,效率较低。而水平集方法由于其适于处理复杂的拓扑结构变化、有着较强的曲线逼近能力、分割精度较高等显著特点,因此较为适合处理复杂背景下的植物图像分割,所以本发明中采用水平集方法。(3)对于分割后的图像数据集使用自适应的鲁棒CMVM半监督流形学习算法进行特征降维,其中工作包括I)面向多样化CBIR的CMVM流形学习中噪声处理本发明采用两个步骤来处理高复杂图像数据的噪声对流形学习的影响,即首先用Boxplot箱线图方法去除样本集中的噪声点,然后采取强化正类局域保持的方法消除正类局域内的反类噪声样本对正类子流形学习的影响。具体如下①去除图像数据集中的噪声点。使用局域鲁棒主分量分析(RPCA)方法,设置用以表示数据点为噪声可能性的权值和数据点局域PCA映射误差两者之间的函数关系,接着采用循环赋权最小均方(IRLS)算法对每一个数据点包括噪声进行赋权优化;然后利用Boxplot统计工具对权值进行分析,将权值为奇异值所对应的点看作噪声点,从原始数据中去掉这些噪声点后再进行后续的流形学习。区别于经典的识别异常值方法,Boxplot箱线图依靠实际数据来绘制,不需要事先假定数据服从某种特定的分布形式,因而在识别高复杂图像数据集中的异常值方面具有一定的优越性。②消除正类局域内反类噪声样本的影响。CMVM应用到多样化图像检索中,正类局域内的反类噪声样本会使正类子流形产生扭曲或变形,从而不利正类中“子概念”的区分,因此,本发明基于强化正类数据局域结构保持的思想,在原局域约束项的基础上,再添加一个如下正类局域约束项
权利要求
1.一种面向植物叶片的图像检索的自适应的鲁棒CMVM特征降维与抽取方法,其特征在于,具体包括以下步骤 (1)对于植物图像数据集进行预处理; (2)采用交互式水平集分割方法进行图像分割; (3)对于分割后的图像数据集使用自适应的鲁棒CMVM半监督流形学习算法进行降维,其中工作包括 1)面向多样化CBIR的CMVM流形学习中噪声处理 首先用Boxplot箱线图方法去除样本集中的噪声点,然后采取强化正类局域保持的方法消除正类局域内的反类噪声样本对正类子流形学习的影响,具体如下 ①去除图像数据集中的噪声点 使用局域鲁棒主分量分析(RPCA)方法,设置用以表示数据点为噪声可能性的权值和数据点局域PCA映射误差两者之间的函数关系,接着采用循环赋权最小均方(IRLS)算法对每一个数据点包括噪声进行赋权优化;然后利用Boxplot统计工具对权值进行分析,将权值为奇异值所对应的点看作噪声点,从原始数据中去掉这些噪声点后再进行后续的流形学习; ②消除正类局域内反类噪声样本的影响 CMVM应用到多样化图像检索中,正类局域内的反类噪声样本会使正类子流形产生扭曲或变形,从而不利正类中“子概念”的区分,因此,需要在原局域约束项的基础上,再添加一个如下正类局域约束项 X=EInfg=M1XDp-1 )y } ij 其中Yi, Yj分别为样本Xi, Xj的低维映射坐标;Ιζ = IljL,类别关联标签Iu在样本Xi, Xj都属于正类时值为1,否则为0,LU是局部关系矩阵L中的元素,是样本点Xi, Xj之间的连接权值,它由邻域关系来定义;DP是对角阵,其元,A是线性变换矩阵; J 2)基于线性近似法的CMVM流形的样本外点学习和本征维数估计 以线性近似的方式来解决CMVM算法样本外点学习能力的问题,假设高维数据特征空间和低维嵌入之间存在一种线性映射矩阵A,即Y=AtX,则CMVM中正反类子流形差异目标函数可以表示为 八=Σ仏|}卜rI=2中c)-邱77.} Uj= 2tr [A1 X(Q-H)X1 A) 其中H是正反类别关联信息矩阵,Hij在样本Xi, Xj属于同类时值为0,否则为1,Q是对角阵,Qii= Σ J-Hij ; 具有局域和正类局域双约束的极值优化问题表示为如下公式
全文摘要
本发明公开了一种面向植物叶片的多样化图形检索的自适应的鲁棒CMVM特征降维与抽取方法,从图像流形特征抽取和选择层面展开研究,采用的约束最大差异投影(CMVM)半监督流形降维方法既有保持正类局域“子概念”区分性的能力,又有强化正反类别即“概念”的区分性的能力。本发明提出去除噪声点方法和CMVM强化正类局域保持算法以保持“子概念”的可区分性;提出线性近似法来解决CMVM样本外点学习问题;提出设计多样化检索的“有序”层次最大间隔相关性评价函数来进行CMVM流形参数的选择和图像本征维数的估计;本发明也提出从CMVM特征中挖掘区分正类类内“子概念”的最大差异本征特征方法,以此进行聚类多样化学习,提高了植物图像检索的多样性。
文档编号G06F17/30GK102880638SQ20121028503
公开日2013年1月16日 申请日期2012年8月10日 优先权日2012年8月10日
发明者赵仲秋, 黄德双, 马林海, 吴信东 申请人:合肥工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1