一种基于蒙特卡罗数据均衡的图像自动标注方法

文档序号:9922296阅读:375来源:国知局
一种基于蒙特卡罗数据均衡的图像自动标注方法
【技术领域】
[0001] 本发明涉及涉及计算机视觉和图像处理领域,特别是一种基于蒙特卡罗数据均衡 的图像自动标注方法。
【背景技术】
[0002] 图像理解即图像的语义理解,它把图像作为对象,知识作为核心,着重研究图像中 存在着的目标、目标之间的相互关系以及图像中所描绘的基于人们认知的场景。图像语义 理解的最终目标就是用来满足人们对图像的不同需求,充分理解图像中所隐含的语义内容 是实现图像管理的重要步骤。早些时候,图像语义库的构建往往都是通过人工的形式来完 成的。但是随着图像数量呈现爆炸式的增长,如果依然还是采用人工的方式对图像的语义 进行标注的话,那么将会耗费巨大的人力物力,不具备现实可行性。此外,由于人的主观意 向上存在的一定的差别,不同经历以及不同背景的人对同一副图像往往有不同的理解,所 以人工标注往往存在着不稳定和不确定的因素。因此,图像自动标注的研究开始受到人们 的重视,简单来说,图像自动标注的核心思想就是通过人工智能实现机器自动地将可以表 达出图像蕴含信息的词汇添加到图像描述中。图像标注的自动实现可以最大限度的降低人 工成本和机器资源,极大的提高图像管理效率和图像理解的认识。
[0003] 图像自动标注的实现过程大致可以分为以下两个阶段:
[0004] (1)训练阶段:首先要对给定的图像数据库中的训练样本进行一定方式的标注,其 次通过学习图像中诸如纹理,形状,颜色等底层视觉特征知识,然后与高层的图像语义之间 的做一个映射关系,最后建立好相应的模型并且将模型的参数调到最优,便可以得到了一 个图像自动标注系统。
[0005] (2)标注阶段:给定相应图像测试集,采用与训练过程中相同的特征提取方式,将 其输入到步骤(1)所构建好的模型中,通过某种度量算法,选择与其最接近的一个或者多个 标注词进行标注。
[0006] 近年来随着人工智能技术以及机器学习的快速发展,出现了多种图像自动标注模 型。根据在建模方法上采用的不同思想,我们可以把图像自动标注模型大致分为两个类别。 第一类图像自动标注模型是基于统计概率思想,第二类图像自动标注模型是基于分类思 想。
[0007] 在图像标注模型中应用比较广的一个方法就是从统计概率的角度出发,通过诸如 图像的纹理、形状、颜色、边缘等底层视觉特征的提取,计算出其与某类或者某些关键词之 间的相关性或联合概率,最后将概率最大或者关联程度最高的一个或者多个关键词作为该 图的标注词。代表性的方法有TM(Translation Mode 1)机器翻译模型。该方法将图像的底层 视觉特征和文本关键词当做图像的两种语言,图像的自动标注过程就变为一个语言的翻译 过程。算法的思想可以描述为:将训练集图像分割为若干个区域,对集合中的区域进行聚 类,将每一种聚类称之为斑点,那么图像的标注问题就转化从图像的视觉特征到文本关键 词之间的翻译工作,例如将德语翻译成法语一样。该方法相比共生模型来说,性能上有了一 定的提高,但是这种算法有一个弊端就是,标注结果往往倾向于频率高的词汇,对频率低的 词汇标注效果很不理想。
[0008] 基于分类的方法是图像自动标注模型中应用最广的另一个方法。在基于分类思想 的算法中,图像中的每一个类别或者说标签都是一个语义关键词,将图像的自动标注过程 和图像的多分类做一个等价的转换。基于支持向量机的图像自动标注法(Support Vector Machine,SVM)是最为经典的一个分类图像标注模型,它将多分类的问题转化为多个二分类 的问题。首先利用每个已有的标签分别去训练处多个二分类模型,对于每一个二分类模型, 其每个正例图像都取该对应于该标签的图像区域或者图像,而把其余的所有图像当做反例 进行训练。在对测试图像进行标注的时候,分别将其输入到各个二分类的模型中,采用加权 投票的方法,选择出关键词得票数最高的几个作为该图像的标签。因为SVM问题通常是一个 凸二次规划问题,求解的过程中需要花费较大的代价,并且随着分类数的几何增长,这种代 价将不断增大,并且该方法并未考虑到图像区域和关键词的对应关系,导致的标注效果不 是很理想。

【发明内容】

[0009] 有鉴于此,本发明的目的是提供一种基于蒙特卡罗数据均衡的图像自动标注方 法,以克服现有技术中存在的缺陷,并实现对待测试图像的快速准备标注。
[0010] 本发明采用以下方案实现:一种基于蒙特卡罗数据均衡的图像自动标注方法,包 括以下步骤:
[0011] 步骤S1:对公共图像库中的训练集图像进行自动分割;
[0012] 步骤S2:采用综合距离图像特征匹配方法(CDIFM)对分割后的图像进行自动匹配, 将具有相同特征与相似特征的图像归为一类,并且贴上相应的标注词;不同类别的图像集 具有不同描述的标注词;
[0013] 步骤S3:对具有不同标注词的各个类别图像集进行蒙特卡罗数据集均衡(MC-BDS),每个类别的图像具有同一标注词,不同类别的图像集的描述词不同;
[0014]步骤S4:分别提取各个类别图像集中图像的多尺度融合特征(MSFF),再进行特征 直方图统计,形成最终的特征向量;
[0015] 步骤S5:将提取后的图像特征输入到鲁棒性最小二乘增量极限学习机(RLSI-ELM) 中进行分类训练,得到图像自动标注过程中的分类模型;
[0016] 步骤S6:对公共图像库中待标注的图像进行自动分割,提取相应的融合特征,形成 最终的特征向量,并将提取后得到的特征向量输入到所述步骤S5中的分类模型中,得到最 终的图像标注结果。
[0017] 进一步地,所述步骤S2中采用的综合距离图像特征匹配方法(CDIFM)包括以下步 骤:
[0018] 步骤S21:选择一个分割后的区域作为种子图像:选择分割后标注词为bear的一个 分割区域作为种子图像,并令该种子图像为X b_;设置一个置信因子τ,当两个区域的特征 相似度距离小于所述置信因子时,则所述两个区域同属于一个类别,即所述两个区域具有 相同的关键词描述;
[0019] 步骤S22:从图像库中选择含有标注词为bear的图像集Φ (Y) = {Yi,Υ2……Yk}(l <k<n),其中η表示的是图像库中的图像个数;假设满足该要求的某一张图像Yk,其分割后 的区域为舛= 由于每张主题照片的关键词不超过5个,则分割区域 控制在5个之内,并且分割的准则根据该张图片的标注词个数;
[0020] 步骤S23 :设Xbear的多尺度融合特征向量为Xbear = {Xbearl,Xbear2.......Xbearm},Π 1代 表其特征维度,其中多尺度下的HOG特征向量为ω维,LBP的特征向量维数为〇维,HSV的特征 向量维数为δ维,满足ω +σ + δ=Π 1;则该样本的特征向量描述为:Xbear= [Xbear,l…Xbearm Xbear, ω + 1 . . Xbear, ω+σ | Xbear, ω+σ + 1 . . Xbear, ω+σ+δ ],并采用同样的方式表示XcXl < C < 5)区域的特征 | Rj \_ Xc, 1 · · · Xc ,tj|xc,tj + l· · Xc, ω+ο | Xc, ω+ο+1 . . Xc, ω+ο+δ J \
[0021] 再给出以下的数学定义:
[0026] 上述式中:定义,&表示Xbear,X。两者的综合特征距离,山表示两者多尺度 H0G特征下的欧式特征距离,山表示两者LBP特征下的曼哈顿特征距离,d3表示两者HSV特征 下的直方特征距离,心>,\ 3分别表示不同特征距离的影响因子;当< τ时,1区 域为Xbear的最佳匹配分割区域,并将该区域加入该种子图像集之中;返回步骤S22,计算Φ (Y)中的所有元素;若Φ (Y)中的元素均计算过,则进入下一步;
[0027] 步骤S24:返回步骤S21,重复步骤S21、步骤S22、步骤S23的计算,直到所有的标注 词所对应的图像全部正确的被归类后结束。
[0028] 进一步地,所述步骤S3包括以下步骤;
[0029] 步骤S31:设(i>(S) = [S1,s2.....s。],表示图像分类集合,c表示类别的个数;此外, 为了方便阐述该算法,采用sum( Sj)(l < j < c)表示该类别对应的图像集数目, 5 + ---------SMWO。) / C表示分类均衡数;对于数据集,若对应的图像集数目大 于或者等于分类均衡数则不进行数据均衡;若任一类别对应的图像集数目低于分类均衡 数,则需要进行数据集均衡,并且均衡的大小为& "-""φ',χ? S >0).
[0030] 步骤= ......Xn},表示任一类别的训练集图像集合,Xi(l < i <n)表示该类别中的任一图像样本,Xi=[Xil,Xi2........Xim]表示该样本在多尺度特征融 合下的图像特征描述;其中多尺度下的H0G特征向量为ξ维,LBP的特征向量维数为Φ维,HSV 的特征向量维数为ζ维(满足ζ+ξ+Φ=π〇,则该样本的特征向量描述为:
[0031] Xi= [xil,Xi2.....Χ?ξ I Χ?,ξ+1,Χ?,ξ+2. . .Χ?,ξ+φ| Χ?,ξ+φ+1,Χ?,ξ+φ+2. . .Χ?,ξ+φ+ζ]
[0032] 给出如下数学定义:
[0037] 上述式中:定义&为关于图像特征的一个全新度量标准-加权复合特征距离,cU 一h。 表示多尺度下HOG特征的空间度量,du-z表示LBP特
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1