一种基于逆向训练的植物图像集分类方法

文档序号:10570428阅读:234来源:国知局
一种基于逆向训练的植物图像集分类方法
【专利摘要】本发明提供一种基于逆向训练的植物图像集分类方法,该方法包括四个步骤:(1)植物数字图像预处理;(2)训练集的聚类和划分,采用K均值聚类法;(3)分类器训练,测试集和混合训练集合的分类;(4)集成分类,输出测试集的类别标签。该方法采用的是逆向训练的方法,具有良好的分类效果和良好的可理解性。
【专利说明】
一种基于逆向训练的植物图像集分类方法
技术领域
[0001] 本发明涉及图像集分类领域,特别是一种基于逆向训练的植物图像集分类方法。
【背景技术】
[0002] 基于图像集的植物图像分类方法研究的对象是:如何利用分类模型正确识别待分 类的图像集类别。基于图像集的分类系统应用领域主要是:人脸的识别、视频图像的分类、 园林植物识别、医药植物的识别等等。这几年来国内外学者在基于图像集的分类问题上也 提出了很多的算法。因此,基于图像集的植物图像分类系统的研究有着重大的现实意义,一 旦研究成功并投入应用,将产生巨大的社会和经济效益。
[0003] 目前,全世界已经迎来大数据时代,根据最新的调查显示,2015年将会有超过200 亿个终端设备连接到互联网上,通过这些智能终端设备,产生的数据总量将会达到40zb,全 球服务器的数量也将迅猛增加。世界正朝着数字化时代快速进发,到了 2020年,储存的数据 总量将比2010年大50倍。很多的专家学者认为这一数据大爆炸犹如一种新型的石油,如果 能很好的利用,将可以作为一种新型的资产类型。传统的数据往往均是通过数字来表达的, 而在大数据时代背景下,诸如图像、文本、声音、视频等数据都从微观上反应了人们日常生 活的方方面面,从而反应出整个社会的经济形态。如果能够把这些数据收集起来进行深入 研究和挖掘,就会发现这些数据中深藏的规律和现象。
[0004] 传统的植物图像识别问题中,分类器的训练和测试都是基于单个或者少量图像样 本的进行的。但是随着大数据时代的到来,数据的采集、存储、共享等技术的普及发展,在很 多应用场景中均能获得大量的植物图像数据,这些植物图像可以为分类问题提供大量的训 练和测试样本。并且由于同类植物在不同环境、时间、温度等状态下的特征表现也不相同, 即使同株植物其叶、花等特征也会有较大差异,因此基于单张图像的分类技术将有很大的 局限性。基于植物图像集的分类将很好的解决以上问题。以具体的植物叶片识别为例,从一 张或者多张植物图像中可以分割出多幅不同情况下的植物叶片图像,这些图像自然的构成 了对应于多个植物个体的多个图像集合。在识别阶段,同样可以收集待识别植物个体的多 幅叶片图像集合,从而取代传统方法中的单张叶片图像。使用不同植物的这些图像集合,就 可以设计基于图像集合的植物叶片识别系统。
[0005] 目前,基于图像集的分类问题,更多的是应用在基于视频的人脸识别问题上,此类 问题的主要研究方向是如何处理视频中的光照、姿态、视角、遮挡等问题,并充分利用较多 的图像及其内含的丰富变化模式信息,来建立基于图像集合的人脸识别系统。从目前的图 像集识别理论发展来看,基于图像集合的识别算法区别主要集中在如何对每个数据集合进 行数学建模以及如何对建模好的模型进行相似性度量上。
[0006]在目前的图像集合分类理论中,子空间建模的方法是研究最多、使用最广的一种 建模思想。随着子空间学习方法的深入研究,人们尝试以子空间描述图像集合,可以将数据 的学习问题转为子空间上的学习问题,使解决方法更加简单有效。具有开创性的工作是 O.Yamaguchi等提出的互子空间方法(Mutual Subspace Method,MSM)。这种方法直接把每 个图像集合建模为线性子空间,然后通过主夹角度量各个子空间间的相似度,最后通过最 近邻判断分类结果。由于图像涵盖了物体广泛的表观变化模式,数据样本本身并不一定分 布在一个线性空间上,因此根据MSM的改进有很多。最早的改进算法是Fukui等提出的约束 互子空间算法(Constrained Mutual Subspace MethocUCMSM),这种算法把图像集的所有 样本点投影到一个更具判别性的线性子空间上,以解决样本点不在一个线性子空间的问 题。T? K.Kim等提出一种相关关系判别分析方法(Discriminant-analysis of Canonical Correlations,DCC),这种方法利用类似于线性判别分析(Linear Discriminant Analysis,LDA)的思想,根据最小化类内相关性并最大化类间相关性,以求得子空间的投影 变换矩阵。这类算法的最大局限是仅仅把数据样本建模成一个线性的空间上,然后通过相 对较弱的判别信息(线性空间的夹角)度量相似度。
[0007] 随着流形学习方法的发展,人们意识到复杂数据往往分布在一个非线性的流形 上,通过流形学习的思想对图像集建模的方法应运而生。Fan和Yeung等把样本数据建模在 一个非线性的流形上,然后使用层次聚类去挖掘流形的局部线性结构,把每一个流形建模 成多个近似线性子空间的集合,使用相关角度去度量线性子空间的相似度,最后的相似性 结果通过综合投票的方法确定。Hadid和Pietikainen同样使用局部的线性模型去模拟非线 性流形。他们首先使用流形学习算法局部线性嵌入(Locally Linear Embedding,LLE)对数 据进行降维,然后利用k均值聚类算法划分出不同的聚类模型,使用聚类中心表示每一类的 聚类样本,然后通过度量以及综合这些样例点对的距离获得图像集对间的距离。Wang等提 出计算流形间距离的框架(Manifold-Manifold Distance,MMD),其基本思想是:首先把图 像集合建模为一个非线性的流形,然后通过最大线性嵌入聚类算法将流形表示为一组局部 线性模型,因此计算流形距离的问题转化为计算局部模型对间距离的问题。Chen等使用联 合稀疏表示对流形中的子空间进行建模,然后通过计算稀疏表示的重建误差,来计算子空 间对间的距离。邵每文等提出基于流形间距离的植物物种机器识别方法,首先提取了植物 图像的图像特征,然后将每一类的多个样本刻画成一个非线性的流形,识别问题因此转化 为度量不同流形之间的距离。
[0008] 除了线性/非线性流形的建模方法,人们尝试用更多的方法对图像集合进行建模。 H.Cevikalp提出使用仿射包和凸包(Affine/Convex Hull)建模,算法使用仿射包、凸包集 合集合理论把图像集表示出来,然后运用凸优化的方法求得两个包的最近虚拟点间的距 离,以此表示两个集合的距离。Yiqun Hu将稀疏表示加入凸包建模中,提出稀疏化近似最近 邻点的方法(Sparse approximated nearest points JANPhMeng在此之上又对凸包加入 了正则化的约束,以减少SANP的复杂度,提高分类效果。
[0009] Wang等通过统计的方法对图像集进行建模,使用图像集样本点的二阶统计量即协 方差矩阵描述图像集,然后通过核函数使分布在黎曼流形上的二阶统计量数据映射到欧式 空间上,最后使用经典的LDA或者偏最小二乘算法进行分类。Lu之后又提出使用多阶统计量 描述图像集,综合了一阶均值、二阶协方差矩阵以及前三阶统计量的信息,然后用多核学习 的方法计算图像集之间的距离。
[0010] Arif Mahmood等使用半监督谱聚类对图像集进行分类,首先把每一类建模到PCA 空间中,然后使用半监督的层次聚类对所有的样本点进行聚类,标签仅仅在终止聚类时起 作用,然后根据每类中样本的概率分布定义图像集间的距离。
[0011] 以上算法大部分应用在基于视频的人脸识别上,在植物图像集分类上还是比较缺 乏的。

【发明内容】

[0012] 本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于逆向训练的植 物图像集分类方法。该方法能够提供一种针对植物图像分类中大测试样本集和大训练样本 集的高效分类器,实现快速学习和高精度识别。
[0013] 本发明采用如下技术方案:
[0014] -种基于逆向训练的植物图像集分类方法,用于将待识别的测试集进行分类,其 特征在于,预先获取已知类别标签的植物数字图像作为训练集,其余步骤如下:
[0015] 1)将训练集图像和待识别的测试集图像进行预处理以提取特征;
[0016] 2)将训练集的样本集合分别进行聚类,而后拆分成混合训练集和其余训练集;
[0017] 3)将混合训练集与待识别的测试集训练一个二分类器;
[0018] 4)将步骤2)的其余训练集输入步骤3)的二分类器,即可得到剩余训练集中每个样 本集合的类别标签,得到剩余训练集样本集合中样本的输出标签和测试集标签相同的样本 数目,其中比重最多的训练集的已知类别标签为所求的测试集类别标签。
[0019] 优选的,在步骤1)中所述的预处理包括对样本进行二值化、平滑、分割和规范化, 并提取G i s t特征和PH0G特征。
[0020] 优选的,在步骤2)中,所述聚类采用K均值算法。
[0021]优选的,在步骤2)中,所述的拆分为目的性拆分或目的性选择。
[0022] 优选的,在步骤2)中,所述的混合训练集的图像数目要接近或等于步骤1)中所述 待识别的测试集的图像数目。
[0023] 优选的,所述二分类器采用支持向量机。
[0024] 由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
[0025] 本发明的逆向训练将一个简单的分类算法扩展到解决多分类问题。相较于将一对 一、一对多的二分类扩展到多分类问题,逆向训练更加有效,只需要训练一次二分类器。实 验结果也表明,相较于现有的图像集分类方法,该方法能够提供一种针对植物图像分类中 大测试样本集和大训练样本集的高效分类器,实现快速学习和高精度识别。
【附图说明】
[0026]图1是本发明方法的模型,图中输入的训练集和测试集图像是已经进过预处理;图 中,Training set表示为训练集图像集集合;Query Image set表示为单个测试图像集; Divided为训练集目的拆分得到混合训练集;Train binary classifier表示为混合训练集 和测试集训练分类器;Test x2 on trained Classifier表示在训练好的分类器中测试拆 分剩余的训练集X2,得到和测试集相同类别的训练集集合;
[0027]图2是本发明方法的流程图;
[0028] 图3为在提取训练集图像样本不同特征情况下,本发明方法的分类准确率;
[0029] 图4为现有的图像集分类算法在选定的植物图像库中分类准确率。
【具体实施方式】
[0030] 以下通过【具体实施方式】对本发明作进一步的描述。
[0031] 参照图1、图2,一种基于逆向训练的植物图像集分类方法,用于将待识别的测试集 进行分类,假设该带识别的测试集为r = ,输出类别标签y。该方法能够提供一种针对 植物图像分类中大测试样本集和大训练样本集的高效分类器,实现快速学习和高精度识 另IJ。预先获取已知类别标签的植物数字图像作为训练集,该训练集包括有M个图像集:Xi, X2,. . .,Xm,第C个图像集Xc;={xt|yt = c:t = l,2, . . .,N。},包含N。张同类图片,该图像集标签 为ycG[l,2,. . .,M]。其余步骤如下:
[0032] 1)将训练集图像和待识别的测试集图像进行预处理,包括二值化、平滑、分割、规 范化,得到预处理得到的图像,并提取合适的图像特征,例如Gist特征和PH0G特征。本发明 采用两个特征线性组合的方法来进行植物图像逆向训练,特征信息线性组合函数为:F = a F1+0F2,其中0〈 = a〈 = l,〇〈 = 0〈 = 1且a+0=l,F1:为特征集向量1,F2为特征集向量2。
[0033]其中,描述图像形状信息的一种有效方法是梯度方向直方图(Histogram of Orientated Gradients,H0G),H0G特征通过提取局部区域的边缘或梯度的分布,可以很好 地表征局部区域内目标的边缘或梯度结构,进而表征目标的形状。Bosch提出塔式梯度方向 直方图(Pyramid Histogram of Orientated Gradients,PH0G),PH0G相对于传统H0G的优 点,是可以检测到不同尺度的特征,表达能力更强。PH0G特征首先将边缘图像进行金字塔分 层,然后在每层上提取H0G特征,最后将各层的特征向量连接起来表示PH0G的特征向量。此 外,GIST特征简明扼要的提取图像的上下文信息,模拟量人的视觉提取过程。按照Oliva和 Torralba提出的方法,将用4个尺度8个方向的Gabor滤波器组处理得到的图像分成4 X 4的 网格,也就是说最后得到图像的Gist特征维数为4 X 4 X 32 = 512。
[0034] 2)采用K均值算法将训练集的每个类的训练集分别聚成K个簇,作为训练集Xc = {X^Xs,. . .,XK},从聚类之后生成的簇中选取一定数目的图片组合成混合训练训练集X:= { X1,X2,…,^hX1中图像的数目j要和待识别的测试集的图像数目相同或接近,这一步称之 为目的性选择或者目的性拆分。训练集剩下的部分为其余训练集…,私丨。尤1 是有^张图像的X。图像集的拆分的图像样本或者说是选取的图像样本,其中(整 C.-.1 数),X1为U =1,2,…,M。其余训练集X 2为X2 = XXX1,~=e [],2,…,M],t = 1,2,。
[0035] 3)将混合训练集X1与待识别的测试集Y训练一个二分类器。即训练一个二分类器 &。训练是在X\Y上做的。待识别的测试集Y中所有图像标记为+1,混合训练集X1中所有的图 像标记为-1。将X 1中包含的和Y同类别图像作为外点。此外,考虑测试阶段X2中的图像输入到 二分类器&中,分类器需要有对不可预测的数据的处理能力,而支持向量机(SVM)在解决线 性可分的问题上有着凸优化最为理论背景,有着固定套路的寻优算法,在线性可分的问题 上有着较大的抗扰动性,可以解决过拟合问题。所以本发明选择线性支持向量机(Support Vector Machine with a 1 inear Kernel)。给定一个训练集的样本-标签对(x(t),y(t)),y ^£{ + 1,-1},分类器(:1的优化问题为
,式中w为系 数向量;c>0为惩罚参数。
[0036] 4)分别将其余训练集X2中每个类别的图像输入到上一步训练好的分类器Q中识 另IJ,即可得到每个剩余训练集样本集合的类别标签,得到剩余训练集样本集合中样本的输 出标签和测试集标签相同的样本数目,其中比重最多的训练集的已知类别标签为所求的测 试集类别标签。因为X2中每个类的标签是已知的,所以和待识别的测试集Y类别相同的X 2中 的某个数量最多的类别就是y。具体的,输入的图片和Y同类别的图片将被标记为+1,记为 3^, $〔心;计算'类别标签归一化的频率直方图h,设h。为在X 2中c类被识别为+1图 片的百分比,则
[0039] 输出待识别测试集Y的类别标签y<3X2中被识别为+1的图片数目最大的类为预计的 Y的类别标签少=argmax/7?。 C
[0040] 本发明的逆向训练将一个简单的分类算法扩展到解决多分类问题。相较于将一对 一、一对多的二分类扩展到多分类问题,逆向训练更加有效,只需要训练一次二分类器。实 验结果也表明,相较于现有的图像集分类方法,本发明提出的方法更加有效。
[0041 ] 举例说明
[0042]从中科院合肥机械智能计算实验室建立的植物叶片数据库,该数据库含有221种 植物共一万七千多幅植物叶片图像,并且采集自不同时间、不同植株上,因此不同的叶片图 像受到光照、视角、变形等因素的影响。研究中选择83种植物,图片总数超过3万张,随机分 成测试集和训练集。每张叶片图像均为独立叶片,进行过预处理,图像分辨率为30 X 30,考 虑到实验需要大量样本集,所以实验中每个图像样本集含有超多200张图片。随机抽取图像 样本一部分组成训练样本集,另一部分组成测试样本集。
[0043] A.植物叶片不同特征提取的结果
[0044] 设定级数为L = 3,梯度方向划分为20个区间,PH0G描述符就由3个梯度方向直方图 特征向量顺序联接成为420维,4个尺度8个方向的512维GIST特征。
[0045] B.图像特征的线性组合
[0046] 叶片分类常用到的特征有颜色特征、纹理特征、形状特征、局部特征。可见单一的 特征并不能很好的表征叶片信息,所以本文使用两个特征线性组合的方法来进行植物图像 反向训练,特征信息线性组合函数为:
[0047] F = aF1+0F2,其中 〇〈 = a〈 = l,〇〈 = 0〈 = l 且 a+0=l [0048] C.集成分类
[0049]采用本发明中的集成分类算法对植物图像集进行分类。将PH0G特征GIST特征融合 作为植物叶片特征进行实验。对比的方法有互子空间方法(Mutual Subspace Method, MSM)、基于流形-流形距离框架方法(Manifold-Manifold Distance,MMD)、基于流行判别分 析方法(Manifold Discriminant Analysis,MD A)、协方差判别法(Covariance Discriminative Learning,CDL)、基于凸包和仿射包距离的方法(Aff ine/Convex Hul 1 based Image set Distance,AHISD/CHISD)、稀疏化近似最近的点方法(Sparse approximated nearest points,SANP)、基于正则化的最近点算法(Regularized Nearest Points,RNP)。试验中,以上方法的参数都是参照相关论文、实验设置的最优值.图3为在提 取训练集图像样本不同特征情况下,本发明方法的分类准确率,图4为现有的图像集分类算 法在选定的植物图像库中分类准确率。
[0050]上述仅为本发明的【具体实施方式】,但本发明的设计构思并不局限于此,凡利用此 构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
【主权项】
1. 一种基于逆向训练的植物图像集分类方法,用于将待识别的测试集进行分类,其特 征在于,预先获取已知类别标签的植物数字图像作为训练集,其余步骤如下: 1) 将训练集图像和待识别的测试集图像进行预处理以提取特征; 2) 将训练集的样本集合分别进行聚类,而后拆分成混合训练集和其余训练集; 3) 将混合训练集与待识别的测试集训练一个二分类器; 4) 将步骤2)的其余训练集输入步骤3)的二分类器,即可得到剩余训练集中的每个样本 集合的类别标签,得到剩余训练集的样本集合中样本的输出标签和测试集标签相同的样本 数目,其中比重最多的训练集的已知类别标签为所求的测试集类别标签。2. 如权利要求1所述的一种基于逆向训练的植物图像集分类方法,其特征在于:在步骤 1) 中所述的预处理包括对样本进行二值化、平滑、分割和规范化,并提取Gist特征和PHOG特 征。3. 如权利要求1所述的一种基于逆向训练的植物图像集分类方法,其特征在于:在步骤 2) 中,所述聚类采用K均值算法。4. 如权利要求1所述的一种基于逆向训练的植物图像集分类方法,其特征在于:在步骤 2)中,所述的拆分为目的性拆分或目的性选择。5. 如权利要求1所述的一种基于逆向训练的植物图像集分类方法,其特征在于:在步骤 2)中,所述的混合训练集的图像数目要接近或等于步骤1)中所述待识别的测试集的图像数 目。6. 如权利要求1所述的一种基于逆向训练的植物图像集分类方法,其特征在于:所述二 分类器采用支持向量机。
【文档编号】G06K9/66GK105930876SQ201610317701
【公开日】2016年9月7日
【申请日】2016年5月13日
【发明人】杜吉祥, 张宇卉, 翟传敏, 范文涛, 王靖, 刘海建
【申请人】华侨大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1