面向植物叶片的图像检索的自适应的鲁棒cmvm特征降维方法

文档序号:6572692阅读:218来源:国知局
专利名称:面向植物叶片的图像检索的自适应的鲁棒cmvm特征降维方法
技术领域
本发明涉及特征降维方法,特别涉及一种植物叶片图像检索的自适应的鲁棒CMVM特征降维方法。
背景技术
植物是地球上物种数量最多、分布最广泛的生命形式之一,通过光合作用维持着大气中二氧化碳与氧气的平衡。同时,植物是人类的重要食物来源,也是人类生产和生活所必需的资源。此外,植物在水土保持、抑制荒漠和改善气候等方面也起着至关重要的作用。根据统计,地球上大约有400,000种植物,其中已被植物学家命名和记录在案的约有270, 000种。在我国仅高等植物就有35,000多种,占世界总数的10. 5%左右,是世界第二 大植物物种资源库。近年来,日益增加的人类生产活动已经严重地破坏了生态环境,据统计,世界上大约有3. 4万种植物物种已处于灭绝的边缘,占世界上已知的27万种植物的12. 6%,对植物物种的保护已刻不容缓。近年来,随着计算机硬件性能的不断提高,数字图像采集设备的广泛使用,以及网络的普及应用,大量植物信息已经被数字化,而利用计算机处理数字植物信息可以避免传统研究过程中的工作效率低、工作量大且客观性难以保证等缺点。基于内容的图像检索通过自动提取图像的视觉特征来描述其内容,其优点是使得图像数据库能够自动进行索引,一般的图像检索技术都着重于提高检索的相关性。本发明的研究是为了解决植物叶片的图像检索这一重要实际问题,可以为多样化图像检索服务,有着重要的应用价值,一旦研究成功并投入应用,将产生巨大的社会和经济效益。有关基于内容的植物叶片的图像检索技术的研究还处于起步阶段,已有的方法对特征抽取模型的研究工作很少;流形学习方法的应用对象是嵌入在高维复杂空间的非线性低维流形上的数据,利用流形学习方法抽取本征特征是进行图像检索的有效手段之一。但是流形学习方法本身还存在着一些问题,常见问题有(a)流形学习中的监督学习或半监督学习机制;(b)噪声敏感问题;(C)样本外点学习问题;(d)对样本点邻域参数敏感问题;Ce)本征维数估计问题等。如果不能很好地解决这些问题,必然会对图像检索产生不利影响;本发明将针对上述问题提出解决方案。

发明内容
本发明的目的是提出一种面向植物叶片的图像检索的自适应的鲁棒CMVM特征降维方法,该方法从图像流形特征抽取和选择层面展开,针对多样化图像检索问题,(I)提出鲁棒CMVM流形算法来解决图像数据中的噪声问题;(2)提出基于线性近似法的CMVM流形样本外点学习方法和本征维数估计方法;(3)提出基于“有序”层次最大间隔相关性静态评价指标的自适应的CMVM流形参数的选择和本征维数的估计方法。
CMVM算法是基于同一类别的数据点是分布在同一个子流形上,而不同类别的数据点分布在不同的子流形上的假设提出来的。该算法在保证子流形的局域拓扑结构不变的前提下,将不同类别的子流形投影得更分散,提取最适合分类同时又能保持子流形局域结构的特征。本发明的技术方案是一种面向植物叶片的图像检索的自适应的鲁棒CMVM特征降维方法,其特征在于,具体包括以下步骤(I)对于植物图像数据集进行预处理;(2)采用交互式水平集分割方法进行图像分割;经研究发现,基于阈值的分割方法简单、易实现,但有很大的局限性,仅可以有效处理背景较简单的图像;对于具有复杂背景的叶片图像,基于交互方式的Snake方法和分水岭方法比较有效,但需要进行大量的交互时间用以设置初始轮廓和标记,效率较低。而水平集方法由于其适于处理复杂的拓扑结构变化、有着较强的曲线逼近能力、分割精度较高等显著特点,因此较为适合处理复杂背景下的植物图像分割,所以本发明中采用水平集方法。(3)对于分割后的图像数据集使用自适应的鲁棒CMVM半监督流形学习算法进行降维,其中工作包括I)可用于多样化CBIR的CMVM流形学习中的噪声处理问题本发明采用两个步骤来处理高复杂图像数据的噪声对流形学习的影响,即首先用Boxplot箱线图方法去除样本集中的噪声点,然后采取强化正类局域保持的方法消除正类局域内的反类噪声样本对正类子流形学习的影响。具体如下①去除图像数据集中的噪声点。使用局域鲁棒主分量分析(RPCA)方法,设置用以表示数据点为噪声可能性的权值和数据点局域PCA映射误差两者之间的函数关系,接着采用循环赋权最小均方(IRLS)算法对每一个数据点包括噪声进行赋权优化;然后利用Boxplot统计工具对权值进行分析,将权值为奇异值所对应的点看作噪声点,从原始数据中去掉这些噪声点后再进行后续的流形学习。区别于经典的识别异常值方法,Boxplot箱线图依靠实际数据来绘制,不需要事先假定数据服从某种特定的分布形式,因而在识别高复杂图像数据集中的异常值方面具有一定的优越性。②消除正类局域内反类噪声样本的影响。CMVM应用到多样化图像检索中时,正类局域内的反类噪声样本会使正类子流形产生扭曲或变形,从而不利正类中“子概念”的区分,因此,本发明基于强化正类数据局域结构保持的思想,在原局域约束项的基础上,再添加一个如下正类局域约束项
权利要求
1.一种面向植物叶片的图像检索的自适应的鲁棒CMVM特征降维方法,其特征在于,具体包括以下步骤 (1)对于植物图像数据集进行预处理; (2)采用交互式水平集分割方法进行图像分割; (3)对于分割后的图像数据集使用自适应的鲁棒CMVM半监督流形学习算法进行降维,其中工作包括 1)可应用于多样化CBIR的CMVM流形学习中的噪声处理问题 首先用Boxplot箱线图方法去除样本集中的噪声点,然后采取强化正类局域保持的方法消除正类局域内的反类噪声样本对正类子流形学习的影响,具体如下 ①去除图像数据集中的噪声点 使用局域鲁棒主分量分析(RPCA)方法,设置用以表示数据点为噪声可能性的权值和数据点局域PCA映射误差两者之间的函数关系,接着采用循环赋权最小均方(IRLS)算法对每一个数据点包括噪声进行赋权优化;然后利用Boxplot统计工具对权值进行分析,将权值为奇异值所对应的点看作噪声点,从原始数据中去掉这些噪声点后再进行后续的流形学习; ②消除正类局域内反类噪声样本的影响 CMVM应用到多样化图像检索中时,正类局域内的反类噪声样本会使正类子流形产生扭曲或变形,从而不利正类中“子概念”的区分,因此,需要在原局域约束项的基础上,再添加一个如下正类局域约束项
全文摘要
本发明公开了一种面向植物叶片的图形检索的自适应的鲁棒CMVM特征降维方法,从图像流形特征抽取和选择层面展开研究,采用的约束最大差异投影(CMVM)半监督流形降维方法既有保持正类局域“子概念”区分性的能力,又有强化正反类别即“概念”的区分性的能力,为多样化图像检索提供了有效的服务;面向图像检索的实际应用,针对CMVM的基本问题,本发明提出去除噪声点方法,提出线性近似法来解决CMVM样本外点学习问题,提出设计多样化检索的“有序”层次最大间隔相关性评价函数来进行CMVM流形参数的选择和图像本征维数的估计,在此基础上,提出面向多样化图像检索的自适应的鲁棒CMVM算法。本发明去除冗余特征,提高了检索的效率。
文档编号G06K9/62GK102930283SQ20121028503
公开日2013年2月13日 申请日期2012年8月10日 优先权日2012年8月10日
发明者赵仲秋, 黄德双, 吴信东, 马林海 申请人:合肥工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1