基于弱监督及无监督部件检测和分割的细粒度分类方法与流程

文档序号:18476146发布日期:2019-08-20 21:06阅读:1519来源:国知局
基于弱监督及无监督部件检测和分割的细粒度分类方法与流程

本发明涉及医学图像处理技术领域,具体是一种基于弱监督及无监督部件检测和分割的细粒度分类方法。



背景技术:

细粒度视觉分析以其崭新的问题定义和广阔的应用前景引起了学界和工业界的关注,是近年来计算机视觉领域比较活跃的方向之一。从2010年左右细粒度识别的研究出现,到现在短短不到十年的时间里,其研究呈现出如下几个趋势:无论是特征表示,还是分割,定位等技术,从一开始的仅仅利用已有的传统图像分类的方法进行改良移植,到现在的专门为细粒度分类设计的特征表达和分类策略,研究者越来越多地从细粒度视觉分析本身的特点入手研究解决特定问题的技术。多种技术相融合的细粒度识别越来越受到重视,比如结合分割、定位和识别的共生的细粒度识别技术,比单纯的提取特征再识别的传统的方法能够更有效地区分表观特征极其相似的细粒度物体。细粒度分类及其在生物和生理学方面的新问题和新的应用不断被挖掘和研究,比如并不局限于获得更好的识别效果,而是研究人类怎么区分细粒度物体,和机器视觉的关系是怎样的。利用深度学习技术的细粒度识别技术逐渐成为主流方法,深度学习以其对于各种环境变化的极佳的鲁棒性,在细粒度分类中不断取得突破。当然,现有的细粒度视觉分析还存在着一些困难和不足。图2显示了一般的细粒度视觉分析方法框架及相关技术,其存在的问题主要有以下几点:

在特征提取方面,已有大量的工作利用多特征融合,中高层语义特征学习和众包学习等多种方法,提取局部的具有判别力的特征。但是仍然存在特征量化误差较大的问题,特征学习方式仍有待改进。因为细粒度分类中每一类物体的数量相对整体类别数量是稀疏的,每一类独有的特征可能在特征学习过程中被稀释,降低特征的判别能力。而现有的细粒度特征提取方式,无论使用底层特征或是特别设计的中高层特征,都没有考虑单类样本在总体类别中的稀疏性。这些特征提取方法大多都是按照特定的规则向特征空间进行投影,其每一次量化过程都会造成量化误差,削弱与其他类别样本在视觉上的联系。如何提取和量化特征以保持样本和各类别之间的联系,增强最终的特征编码的判别能力是需要进一步研究。

在结构化描述方面,图模型和树模型等数据结构模型已经可以表示粗略的细粒度物体结构信息,一些基于这些模型的分类方法也取得了不错的效果。鉴于部件对于细粒度分类问题的重要性,已经有许多方法研究如何发现和检测部件,而对于部件之间的层次化关系并没有系统的研究。目前仅有个别文献的层次化部件匹配(hierarchicalpartmatching)明确提出了这一思想并用于分割,相关研究非常之少,还有许多问题可以研究。比如在狗的种类识别中,狗的头部提供的信息往往要比其足部提供更多的视觉信息。那么在提取对应部件的特征之后,可以按照部件之间重要性的差异或者层次上的关系对齐进行池化。也就是增加具有丰富视觉信息的部件对最终分类结果的影响,而削弱其他部件对分类的影响,从而增强特征的判别力。在部件定位(检测)的过程中,同样存在层次化的关系,比如存在一些部件依附于一个主要的部件。如果能够理清它们之间的关系,就可以首先确定高层次的主要部件或者说置信度更高的部件,然后再确定低层次或者置信度低的部件,从而得到更精确的部件定位结果。

部件检测是细粒度视觉分析中提取局部特征的重要手段,研究者基于传统的图像处理技术和最新的深度网络模型提出了多种部件检测方法。但是部件检测性能仍有待提升,尤其对于姿态变化较大的物体。在部件对齐策略中常使用非参数标注传递的方法以及特别设计的基于检测子的参数化方法。参数化模型具有较好的泛化能力,其检测结果较为稳定,但是分类器需要平衡判别能力和泛化能力,使得其对一些极端的情况并不能做出正确的判断。而非参数模型在样本充足的情况下可以提供更为准确的对齐结果,特别是一些非常规的姿态情况下也能够有相当好的效果,但是在样本数量少的情况下得到的结果往往具有较大的误差,并且计算开销会随着样本数量的增加直线上升,限制了该类模型在一些便携移动设备上的应用。所以能否结合参数模型和非参数模型各自的优点,设计一种混合模型解决部件对齐的问题是值得进一步研究的。目前只有少数方法,在描述全局姿态和描述部位时,分别使用了基于检测子的参数模型和基于样例的非参数模型。

细粒度视觉分析主要面临着以下几个困难:

1)细粒度研究对象是属于同一基本类别的子类物体,其极为相似的外观导致了极小的类间差异,为识别带来困难;

2)庞大的类别数量,加上第一个困难,进一步增加了识别的挑战性;

3)许多细粒度视觉分析对象,比如生物类,由于其姿态、视觉、光照和尺度等方面的变化,大大增加了类内差异。要有效地进行细粒度视觉分析,必须尽量减少各种变化带来的类内差异,同时准确地分析物体的高度局部化的具有判别力的特征。针对细粒度视觉分析的特点及其面临的困难,领域内相关工作主要集中于研究有效的表观模型和结构模型、部件发现和对齐策略、共生的分割和检测等几个方面。

现有的研究表明,图像分类任务的准确率可以通过分割等预处理过程获得提升。这一结论在图像细粒度分类领域也得到了证实。但是一般的图像分割方法并不能很好地利用细粒度研究对象的部件信息,其分割过程往往会丢掉一些部件,将他们错误地分类成为背景。从分析可知,物体的部件在细粒度视觉分析中起到至关重要的作用,他们承载了许多具有判别力的局部特征。如果忽略这些重要的部件或者局部特征,细粒度分类的性能反而会因为分割造成一定的损失。



技术实现要素:

本发明的目的在于克服现有技术的不足,而提供一种基于弱监督及无监督部件检测和分割的细粒度分类方法,该方法利用部件检测得到的部件假设来指导前景分割以保留更多的对细粒度分类有用的部件,同时抑制背景噪声,从而提升细粒度分类的性能。在实际应用方面的条件限制更少,大大增加了适用的场景和方法的泛用性。

实现本发明目的的技术方案是:

基于弱监督及无监督部件检测和分割的细粒度分类方法,包括如下步骤:

s1、获取数据集训练样本;

s2、基于弱监督部件检测方法和无监督部件检测方法,对步骤s1获得的数据集训练样本进行处理,得到部件假设,即部件检测结果;

s3、利用步骤s2得到的部件假设,进行部件制导分割,得到更多对细粒度分类有用的部件;

s4、根据步骤s3得到的有用的部件,进行细粒度图像分类的操作,得到分类结果。

步骤s1中,所述的数据集训练样本,采用cub-200-2011鸟类数据集和stanforddogs数据集,用于测试基于部件检测和分割的细粒度分类方法,这两个数据集是细粒度视觉分析领域的基准数据集。

步骤s2中,所述的弱监督部件检测方法,包括非参数的部件坐标传递和参数化的部件检测;包括如下步骤:

(a)非参数的部件坐标传递:在数据集训练样本中搜索和查询图像的姿态最相近的k个近邻样本,求取这些近邻样本的各个部件的平均坐标,并将求得的平均坐标传递给查询图片作为查询图片对应部件的近似位置坐标;

(b)参数化的部件检测:为每一个部件训练一个部件检测子,对可能的部件位置的邻域,使用对应该部件的检测子进行滑动窗口搜索得到多个检测子;

(c)将部件训练的检测子集合,得到最终的部件检测结果。

步骤s2中,所述的无监督部件检测方法,包括如下步骤:

(1)将数据集中的样本按照姿态进行聚类,为一个聚类类别发现候选部件,随机地选择一些样本发现部件,产生部件假设;

(2)利用平均分割掩膜过滤部件假设,优化候选部件;

(3)为每一聚类类别的部件训练部件检测子,进而优化部件检测子,首先利用训练好的部件检测子在所有训练图像中重新检测所有的部件,然后从检测到的正确位置剪裁出新的正例图像构成新的训练集,最后用新的训练集重新训练部件检测子;

(4)获得部件的对应检测子,完成部件检测的过程。

步骤s3中,所述的部件制导分割,利用部件检测结果制导细粒度图像分割的方法,首先根据步骤s2中得到的部件检测结果,利用grabcut分割方法,引入部件的位置信息以指导分割过程;然后交替更新获得的部件假设和颜色模型,使得部件假设和分割的前景假设尽量达成一致;最终达到细粒度视觉分析的要求,得到分割结果,完成部件制导分割的过程。

所述的grabcut,核心算法是graphcut,使用混合高斯模型作为分割算法的颜色模型,并不断地迭代更新颜色模型。

步骤s4中,所述的细粒度图像分类的操作,具体是选用基于视觉单词词袋的分类框架,即bag-of-words(bow)方法,对细粒度图像的底层视觉特征进行编码得到直方图向量,对于复杂背景具有较强的鲁棒性并且在没有任何结构先验的情况下,得到理想的分类效果。

所述的底层视觉特征,包括图像的sift、densesift和colorname三种特征,作为图像的描述子,其中sift,、densesift特征分别学习由8000个视觉单词组成的字典,colorname特征学习由800个视觉单词组成的字典,最终得到的特征编码为16800维的向量。

有益效果:本发明提供的基于弱监督及无监督部件检测和分割的细粒度分类方法,该方法有如下优点:

(1)本发明利用更具有语义信息的专家定义的部件训练模型进行检测,并迭代地更新获得的部件检测假设和分割前景假设,进而最大限度地保留尽可能多的对细粒度视觉分析有用的部件。

(2)本发明提出了一种基于弱监督的、结合参数模型和非参数模型的混合部件检测方法。该方法能够处理一些姿态变化巨大的部件分布模式,并且在较低的计算开销下给出足够精确的部件检测结果。

(3)本发明基于无监督的部件检测方法,其可以为没有任何部件信息的数据集产生部件。同时其也获得了这些部件的对应检测子,可以在未见过的图像中结合基于弱监督部件检测的非参数部件转递推理出部件的位置,完成部件检测的过程。

(4)本发明提出的部件制导分割算法则是最大程度地利用了部件假设来指导细粒度图像的前景分割,达到了以求保留检测到的对细粒度分类具有重要作用的部件的要求。在实际应用方面的条件限制更少,大大增加了适用的场景和方法的泛用性。

附图说明

图1为本发明的一种基于弱及无监督部件检测和分割的细粒度分类方法的流程图;

图2为一般的细粒度视觉分析方法框架及相关技术;

图3为实施例中弱监督部件检测框架;

图4为实施例中无监督部件检测框架;

图5为实施例中无监督部件发现算法。

具体实施方式

下面结合附图和实施例对本发明做进一步阐述,但不是对本发明的限定。

实施例:

如图1所示,一种基于弱及无监督部件检测和分割的细粒度分类方法,包括如下步骤:

s1、获取数据集训练样本,具体是选取cub200-2011数据集和stanforddogs数据集;cub200-2011数据集包括200种鸟类的11788幅图像,并附有每幅图像的真实分割掩膜、类别标签、部件位置坐标、图像的最小包围盒,二值化特征属性等信息;stanforddogs数据集具有两倍于cub鸟类数据集的样本数量,分别为120类狗收集了20580个样本图像;

s2、基于弱监督部件检测方法和无监督部件检测方法,对步骤s1获得的数据集训练样本进行的处理,得到部件假设,即部件检测结果;

s3、利用步骤s2得到的部件假设,进行部件制导分割,得到更多对细粒度分类有用的部件;

s4、根据步骤s3得到的有用的部件,进行细粒度图像分类的操作,得到分类结果。

步骤s2中,所述的弱监督部件检测方法,部件检测模型框架如图2所示,分为两个阶段:非参数的部件坐标传递和参数化的部件检测,具体包括如下步骤:

(a)在非参数部件坐标传递阶段,将所有数据集训练样本的最小包围盒中的图像缩放到256×256尺寸,图像的hog特征被用作底层视觉特征描述物体的姿态,对于一副待检测部件的查询图像,首先在训练样本中搜索和查询图像的姿态最相近的k个近邻样本,求取这些近邻的各个部件的平均坐标,并将求得的平均坐标传递给查询图片作为查询图片对应部件的近似位置坐标;

(b)通过观察发现,整体姿态相近的两个样本,他们的部件的相对位置也是非常接近的;在参数化的部件检测阶段,假设为每一个部件训练了一个部件检测子,在步骤(a)中每一个可能的部件位置的邻域,使用对应该部件的检测子进行滑动窗口搜索,算法将检测子检测分数最大的位置作为检测到的部件位置;

(c)训练部件检测子,训练方法是:首先根据物体姿态对训练样本进行聚类,获得具有相近姿态的若干类别,将为每一个姿态训练单独的部件检测子;然后对于第i个部件,收集这个姿态类别中所有样本在部件i位置的图像块作为该部件的正例训练图像,而负例训练图像则采集自背景区域;同时提出了为一个部件训练多个检测子;其训练图像可由上述训练图像通过聚类得到,训练使用svm分类器;最终第i个部件训练的检测子为的一个分类器集合,得到部件假设。

步骤s2中,所述的基于无监督的部件检测方法,部件检测模型框架如图3所示,将数据集中的样本按照姿态进行聚类,为一个聚类类别发现候选部件,随机地选择一些样本发现部件,产生部件假设;利用平均分割掩膜过滤部件假设,优化候选部件;为每一聚类类别的部件训练部件检测子,进而优化部件检测子,首先利用训练好的部件检测子在所有训练图像中重新检测所有的部件,然后从检测到的正确位置剪裁出新的正例图像构成新的训练集,最后用新的训练集重新训练部件检测子;获得部件的对应检测子,完成部件检测的过程,又因为样本会有姿态一致性这一特性,所以基于姿态一致性假设,提出了采用无监督部件发现算法,如图4所示,包括如下步骤:

(1)将数据集中的样本按照姿态进行聚类,对于每个样本,剪裁出它的最小物体边框并缩放成为256×256的图像块,然后提取图像块的hog和显著性特征,以描述图像中物体的姿态,最后拼接两种特征作为姿态描述子并对这些描述子进行聚类得到n个姿态类别,自此聚类已经完成,后续步骤中都是在一个聚类类别中进行的;

(2)为一个聚类类别发现候选部件,利用区域分割方法为每一个聚类类别发现一组部件,组内部件的数量可能随着聚类类别的不同而不同。区域分割方法能够将图像按照邻域的相似性分成若干个区域,这些区域将作为最终部件的候选。发现部件选用的样本并不是该聚类类别所有的样本,因考虑计算复杂度的情况,仅随机地选择一些样本的发现部件;

(3)优化候选部件;由于步骤(2)中发现的候选部件可能是背景中的某些物体,并不是需要的物体上的部件,并且从不同的样本中发现的部件可能在空间位置上具有很高的重叠率,为此,通过计算一个分割掩膜来剔除上述不合适的候选部件,得到优化的部件;分割掩膜的计算方法是:使用grabcut对随机选择产生部件的样本进行分割,前景初始化就按照经验选择距离图像边界一定距离内的图像作为初始前景,其余作为背景。然后获得每个样本的前景为1背景为0的分割结果,求取他们的平均值就可以得到上述的分割掩膜。利用这个分割掩膜,计算掩膜上每一个候选部件区域内的所有像素的平均值,作为这个候选部件属于前景的概率值。当概率值大一阈值,就留下该部件,否则剔除该部件。这样就剔除了那些具有很大可能来自背景的候选部件,最后在剩余的部件中进行非极大值抑制操作,去除具有高重叠率的部件;

(4)为每一聚类类别的部件训练部件检测子。具体方法不是使用真实的部件信息训练检测子,而是替换为通过无监督部件发现产生的部件信息。训练样本中的正例是在所有训练图像中发现的部件位置剪裁出来的,负例则从背景中剪裁。为第i个部件训练一组检测子:

(5)优化部件检测子,训练用的正例样本都是从所有训练图像中相同位置剪裁出来的,但是不同的图像中的部件可能并不处于同一位置,即使这些图片属于同一聚类类别且具有相近的姿态。这种情况下,正例样本集会含有许多噪声,因为其中许多正例并不是从部件所在的正确位置剪裁出来的;为了减少这类噪声对训练的影响,优化部件检测子:首先利用训练好的部件检测子在所有训练图像中重新检测所有的部件,然后从检测到的正确位置剪裁出新的正例图像构成新的训练集,最后用新的训练集重新训练部件检测子。这样重新产生的正例样本集具有更少的噪声,从而加强了部件检测子的判别能力。

步骤s3中,所述的部件制导分割,部件制导分割示意图如图5所示,本发明的核心思想是如果本应该属于物体部件的像素被分割方法错误地分类为背景,那么就增大分割模型中这些像素属于前景的概率,即引入部件检测。同时,还利用部件假设产生一个物体前景掩膜用于初始化分割的颜色模型,以减少因错误的模型初始化造成的分割错误。

本实施例分割方法的目标函数可以表示为:

上述公式(1)中,z表示一副图片的所有像素的rgb值组成的矩阵;s表示grabcut分割产生的前景掩膜;w=[w1,w2,...,wn]存储每个像素属于前景的概率;egc表示grabcut的分割能量项;ep表示部件能量项;ec表示一致性项,它是分割能量项和部件能量项信息交互的桥梁,负责惩罚两者不一致的情况,另有一个超参数p=[p1,p2,...,pn],其指示每个像素在部件假设中的类别,即是属于部件还是属于背景;w是根据p进行初始化的,如果zi代表的像素是属于部件的,那么wi就会被初始化为1,否则为0;α和β是两个正的常数,以平衡各个能量项,其中grabcut能量项写作:

egc(s;z)=∑n∈idn(sn;zn)+γ∑m,n∈cvm,n(zm,zn)(2)

上述公式(2)中,d是高斯概率分布的负对数,v是平滑项,c是所有相邻像素的索引,γ是一个常数,i是图像中所有像素的索引,部件能量项的定义为:

ep(w)=∑n∈uwn,u=dif(p,s)(3)

这里如果一个像素在部件假设的记录中是属于部件的,但是又被分割结果s归类为背景,那么我们称这个像素为不一致像素,dif(·)返回i中所有不一致像素的索引,据此,一致性能量项可以定义为:

表示u的补集,而这两者的并集是i,通过交替更新分割的输出和部件假设来最小化这个目标函数;

分割优化:上述公式(1)的目标函数,可以按照如下方法优化:即固定部件假设w,更新前景分割s,然后反过来,如此交替直到目标函数的值不再有大的变化,更新部件假设w。固定前景分割结果s,则分割能量项egc可以被忽略,目标函数变为:

由于上式的最后一项并不依赖于w,所以公式(5)可以写成:

选择合适的常数α和β,使得α-βdi(si;zi)总为一个正值,所以式(6)可以看成是一个w的单调递增函数,限定每次迭代中,每个wi的变化量要么是0要么是一个正常数λ,当wi减小到接近于0时,将其设为0并更新超参数pi,使得pi不再属于部件类而是属于背景类,这样做的目的是,只要部件假设和分割的结果不符合,那么减少被错误分到背景的部件的像素属于前景的概率。这样可以保证最终的分割结果对于一些不准确的部件检测结果造成的误差具有一定的宽容性,更新前景分割s,固定w,则部件能量项ep项可以忽略,目标函数变为下面的形式:

因此,按照下述步骤来优化目标函数(1):

(a)根据式(6)优化部件假设w;

(b)根据w更新超参数p;

(c)重新估计混合高斯颜色模型;

(d)根据(7)优化前景分割s。

s4、根据步骤s3进行分割,得到更多对细粒度分类有用的部件,进而进行细粒度分类的操作;具体是选用基于视觉单词词袋的分类框架,即bag-of-words(bow)方法,对细粒度图像的底层视觉特征进行编码得到直方图向量,对于复杂背景具有较强的鲁棒性并且在没有任何结构先验的情况下,得到理想的分类效果。

所述的底层视觉特征,包括图像的sift、densesift和colorname三种特征,作为图像的描述子,其中sift,、densesift特征分别学习由8000个视觉单词组成的字典,colorname特征学习由800个视觉单词组成的字典,最终得到的特征编码为16800维的向量。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1