一种结构化的图像描述方法

文档序号:6516426阅读:363来源:国知局
一种结构化的图像描述方法
【专利摘要】本发明属于图像检索【技术领域】,尤其涉及一种结构化的图像描述方法,包括:获取进行训练的图像,并对图像中每个物体构造3层树状结构标签,形成训练集;提取训练集中图像每个物体的低层特征,训练得到所有候选的类,子类以及属性相对应的分类器,形成下一步建模所需要的中间数据;构造条件随机场模型,训练得到模型参数;对于待描述图像,首先进行图像分割,分割出待描述图像中包含的物体,再提取待描述图像中每个物体的低层特征;之后利用所构造的条件随机场模型(CRF)及训练得到模型参数,采用使用最大积信念传播算法,对待描述图像中每个物体的树状结构标签进行预测。本发明可以提高图像与图像之间的区分度,产生更好的检索结果。
【专利说明】一种结构化的图像描述方法
所属【技术领域】
[0001]本发明属于图像检索【技术领域】,尤其涉及一种结构化的图像描述方法。
【背景技术】
[0002]使用更加丰富的语义信息来描述一幅图像无论对理解该图像还是从Web上面检索该图像都是及其重的。一方面,当面对一幅新的图像时,人们首先想知道的是图像中的物体属于哪个类(比如是一种动物还是一种交通工具),当获取到它的类信息后,更进一步人们想知道它是属于哪个子类(属于鸟类,还是属于猫科动物),此外,每种物体都具有自己特有的属性信息,比如是否具有羽毛,是否会飞,是否食肉等等。通过这些信息,人们可以从多个角度更加精确的来理解一幅图像,同时获取到更多关于图像中物体的知识。另一方面,在图像检索领域,由于计算机是使用低层特征来表示一幅图像的,这样由计算机给出的检索结果并不能很好的匹配用户的检索意图,为了克服图像检索领域存在的这种“语义鸿沟”,也需要我们使用更加丰富更加精确的语义信息来描述一幅图像。
[0003]在过去的几年中已经涌现出了各种各样的图像描述方法,比如使用单个标签来描述图像中的物体属于动物还是植物,这种描述方法虽然指定了图像中物体的类别,但是所蕴含的信息非常有限,为了克服这个缺点,人们就创建一个标签库,然后选取标签库中与之相关的多个标签来描述图像中的某个物体,但是标签库毕竟有限,不可能覆盖自然界中的所有物体,于是就产生了基于属性的图片描述方法,这类方法使用物体的属性信息,比如是否会飞,是否有羽毛等去描述一幅图像,这样做的好处是即使遇到了一幅没有见过的图像,人们依然可以使用一些基本的属性信息去描述它,从而获取对图像的一些感性认识。不管这些图像描述方法是从什么角度,使用什么信息来描述图像的,他们的目标都是为了获取图像中更加丰富的语义信息。

【发明内容】

[0004]本发明的目的是提供一种的新的结构化图像描述方法,使用一个3层的树状结构语义标签来描述一幅图像,从而使描述图像的内容更加丰富。
[0005]本发明提出的结构化的图像描述方法包括如下步骤:
[0006]第一步,获取进行训练的图像,并对图像中每个物体构造3层树状结构标签,形成训练集:
[0007](I)获取进行训练的图像,构建图像集合IMG ;
[0008](2)使用图像分割算法分割出集合IMG中每幅图像中所包含的物体,构成物体集合 OBJ ;
[0009](3)对集合OBJ中的每个物体进行标注,标注的内容包括物体所属的类,子类以及具有的属性,形成类集合CLASS,子类集合SUBCLASS以及属性集合ATTRIBUTE ;
[0010](4)根据标注信息对集合OBJ中的每个物体构造包括类-子类-属性3层树状结构标签,形成与OBJ相对应的标签集合Y,两个集合的元素一一对应;[0011](5)类集合CLASS中有很多相同的元素,顺序扫描CLASS中的每个元素,相同的元素只保留一个,形成候选的类集合Cla,对其子类集合SUBCLASS和属性集合ATTRIBUTE做相同的扫描,得到候选的子类集合Subcl和候选的属性集合Attri ;
[0012](6)构造包括:物体集合0BJ,标签集合Y,候选的类集合Cla,候选的子类集合Subcl以及候选的属性集合Attri的训练集Tr。
[0013]第二步,提取训练集中图像每个物体的低层特征,训练得到所有候选的类,子类以及属性相对应的分类器,形成下一步建模所需要的中间数据的步骤如下:
[0014](I)提取物体集合OBJ中每个物体的局部二值模式特征(LBP)特征,构造特征集合X;
[0015](2)根据特征集合X和类集合CLASS,训练得到集合Cla中每个元素Wi的SVM分类器SVM_Wi,构成与类相对应的分类器集合Sw,同理,根据特征集合X和子类集合SUBCLASS,训练得到子类集合Subcl中每个元素\的SVM分类器SVM_\,构成与子类相对应的分类器集合Sv,根据特征集合X和属性集合ATTRIBUTE,训练得到集合Attri中每个元素Uk的SVM分类器SVM_uk,构成与属性相对应的分类器集合Su ;
[0016](3)在训练集Tr上计算分类器集合Su中每个分类器SVM_uk的查准率和查全率曲线(PR曲线),根据该PR曲线得到分类器SVM_uk的阈值threk,构成与Su对应的阈值集合Threshold ;
[0017](4)在训练集Tr上统计候选的类集合Cla中的每一个元素Wi和候选的子类集合Subcl中每一个元素Vj的共现概率Pij,即标签集合Y中同时具有Wi和Vi的物体数量占OBJ中总物体数N111的比例;在训练集Tr上统计候选的子类集合Subcl中每一个元素Vi和候选的属性集合Attri中每一个元素Uk的共现概率gjk(即集合Y中同时具有Uk和Vi的物体数量占OBJ中总物体数Nm的比例),此外,在训练集Tr上统计含有候选的子类集合Subcl中元素Vi但不含有候选的属性集合中元素Uk的概率q#(即集合Y中具有Vi但没有Uk的物体数量占OBJ中总物体数Nni的比例);
[0018](5)构造包含:分类器集合Sw, Sv, Su,阈值集合Threshold,概率统计数据Pij, gjk(j=I,..., Nv, k = I,..., Nu), qJk的中间数据,以备下一步建模使用。
[0019]第三步,构造条件随机场模型(CRF),训练得到模型参数;
[0020]第四步,对于待描述图像,首先进行图像分割,分割出待描述图像中包含的物体,再按照前述的第二步的方法,提取待描述图像中每个物体的低层特征;之后,利用第三步构造的条件随机场模型(CRF)及训练得到模型参数,采用使用最大积信念传播算法,对待描述图像中每个物体的3层树状结构标签进行预测。
[0021]本发明使用一个3层的树状结构语义单元来描述图像,从该语义单元中,用户不光可以获取到图像中物体所属的类和具体的子类信息,而且可以获取到图像中物体具有的属性信息,从而产生对图像内容更加丰富和更加精确的描述,这样可以提高图像与图像之间的区分度,方便在图像检索时消除语义鸿沟,产生更好的检索结果,同时本发明亦提供给了用户一种更加直观的图像内容的展示方法,即以一个3层树状结构来组织图像的类,子类,属性信息,方便用户更加容易的理解图像。
【专利附图】

【附图说明】[0022]图1:CRF模型结构示意图。
[0023]图2:本发明使用的训练集中的若干例子,其中第一行的图像为从网络上下载的自然图像,其中的物体已经使用矩形框标出。第二行为每个物体相对应的3层树状结构标签。
[0024]图3左图为自然图像,其中需要描述的物体已经使用矩形框标出,右图为使用本发明提出的发明预测出的3层树状结构语义标签。
[0025]图4左图为自然图像,其中需要描述的物体已经使用矩形框标出,右图为使用本发明提出的发明预测出的3层树状结构语义标签。
【具体实施方式】
[0026]这里选取两幅图像作为待描述图像,分别为图3,图4中左边的图像,使用本发明中描述的方法对其进行预测输出3层树状结构语义单元。
[0027]首先需要训练得到条件随机场(CRF)的模型参数:具体步骤如下:
[0028]I,构造训练集步骤如下:
[0029](I)编写爬虫程序下载Google图片搜索的检索结果中的图像,构成图像集合爾G = {/mage,,…JnmgexJ ,其中Nd是集合IMG中的图像总数;
[0030](2)使用图像分割算法分割出集合IMG中每幅图像中所包含的物体,构成物体集合OBJ = ^ObjfiOU *其中Nm是集合OBJ中的物体总数,因为一幅图像中可能存在多个物体,所以Nm SNd;
[0031]⑶使用Amazons Mechanical Turk工具对集合OBJ中的每个物体进行标注,包括物体Obj1所属的类Class1,子类SubclaSS1以及具有的属性attru,…,attrlp, Ip表示物体Obj1具有的属性数目,形成类集合CL4SS = Iciassl,..- ,cto气},子类集合SlSCLiSS = {subclass^,..-,subclass^}以及属性集合』TTRIBUTE =知叫”…,alirh>?-..,alirn,…,α--ηρ,…,atirNJ,..};
[0032](4)根据标注信息对集合OBJ中的每个物体Obj1构造3层树状结构标签(类-子类-属性)Y1 = Iclass1, SubclaSS1, attrn,…,attrlp},形成与OBJ相对应的标签集合
(两个集合的元素一一对应);
[0033](5)类集合CLASS中有很多相同的元素,顺序扫描CLASS中的每个元素,相同的元素只保留一个,形成候选的类集合<^? = 1nv,wv.},其中Nw是集合Cla中不同元素的总数,对子类集合SUBCLASS和属性集合ATTRIBUTE做相同的扫描,得到候选的子类集合Subcl= !V1,…,VaJ和候选的属性集合AM = UiJ , Nv和Nu分别是集合Subcl和Attri中不同元素的总数;
[0034](6)构造包括:物体集合OBJ=興..., Obj,m M示签集合Y = ^…,匕> 候选的类集合Cia= {Wl,…,^},候选的子类集合Subd-{V,,...,V、}以及候选的属性集合Attri= I的训练集Tr。生成的训练集如图2所示。
[0035]2,处理数据步骤如下:
[0036](I)提取物体集合OBJ中每个物体Obj1 (I = I,…,Nm)的局部二值模式特征(LocalBinary Patterns) LBP 特征 X1,构造Λ = {為,"% A乂 f 的特征集合;
[0037](2)根据特征集合 I = WdJ 和类集合=
训练得到集合Cla中每个元素Wi的SVM分类器SVM_Wi,构成与类相对应的分类器集合Sw = {SFM_uh-,Sm_wK l.同理,根据特征集合X = Pf1,…,XaJ和子类集合SUBCLASS = {subclass,..% subclass^},训练得到集合Subcl中a每个元素Vj的SVM分类器SVM_Vj,构成与子类相对应的分类器集合X = {S爾—V、, * * 'SVM—ι、J-,根据I = {Χ^,.}和属佐集令ATTRIBUTE = {aitrw*.^attrlp,…,attrn,*.*?α?(ηρ,..,,aUr、》,…,attrNmP,,训练得到
集合Attri中每个元素Uk的SVM分类器SVM_uk,构成与属性相对应的分类器集合Su = [SVMjh,...,SVM—u% \ s
[0038](3)在训练集Tr上计算集合Su中每个分类器SVM_uk的查准率和查全率曲线(PR曲线),根据该PR曲线得到SVM_uk的阈值threk,构成与Su对应的阈值集合Threshold = -1threl,..,Ihres \ ;
[0039](4)在训练集Tr上统计集合Cla中的每一个元素Wi (i = 1,2,...,Nw)和集合Subcla 中每一个元素 V」(j = 1,2,, Nv)的共现概率 PijQ = 1,...,Nw, j = 1,...,Nv)(即集合Y中同时具有Wi和Vi的物体数量占OBJ中总物体数Nm的比例);在训练集Tr上统计集合Subcla中每一个元素Vi (i = 1,2,...,Nv)和集合Attri中每一个元素uk(k =
1.2....,Nu)的共现概率 gjk(j = I,..., Nv, k = I,..., Nu)(即集合 Y 中同时具有 Uk 和 Vi的物体数量占OBJ中总物体数Nm的比例),此外,在训练集Tr上统计含有集合Subcla中元素 Vi (i = 1,2,...,Nv)但不含有集合 Attri 中元素 uk (k = 1,2,..., Nu)的概率 qjk(j =
1.,.., Nv, k = I,..., Nu)(即集合Y中具有Vi但没有Uk的物体数量占OBJ中总物体数Nm的比例);
[0040]⑶构造包含:分类器集合=
【权利要求】
1.一种结构化的图像描述方法,包括下列步骤: 第一步,获取进行训练的图像,并对图像中每个物体构造3层树状结构标签,形成训练集: (1)获取进行训练的图像,构建图像集合IMG; (2)使用图像分割算法分割出集合IMG中每幅图像中所包含的物体,构成物体集合OBJ; (3)对集合OBJ中的每个物体进行标注,标注的内容包括物体所属的类,子类以及具有的属性,形成类集合CLASS,子类集合SUBCLASS以及属性集合ATTRIBUTE ; (4)根据标注信息对集合OBJ中的每个物体构造包括类-子类-属性3层树状结构标签,形成与OBJ相对应的标签集合Y,两个集合的元素一一对应; (5)类集合CLASS中有很多相同的元素,顺序扫描CLASS中的每个元素,相同的元素只保留一个,形成候选的类集合Cl a,对其子类集合SUBCLASS和属性集合ATTRIBUTE做相同的扫描,得到候选的子类集合Subcl和候选的属性集合Attri ; (6)构造包括:物体集合0BJ,标签集合Y,候选的类集合Cla,候选的子类集合Subcl以及候选的属性集合Attri的训练集Tr。 第二步,提取训练集中图像每个物体的低层特征,训练得到所有候选的类,子类以及属性相对应的分类器,形成下一步建模所需要的中间数据的步骤如下: (1)提取物体集合OBJ中每个物体的局部二值模式特征(LBP)特征,构造特征集合X;` (2)根据特征集合X和类集合CLASS,训练得到集合Cla中每个元素Wi的SVM分类器SVM_wi;构成与类相对应的分类器集合Sw,同理,根据特征集合X和子类集合SUBCLASS,训练得到子类集合Subcl中每个元素\的SVM分类器SVM_\,构成与子类相对应的分类器集合Sv,根据特征集合X和属性集合ATTRIBUTE,训练得到集合Attri中每个元素Uk的SVM分类器SVM_uk,构成与属性相对应的分类器集合Su ; (3)在训练集Tr上计算分类器集合Su中每个分类器SVM_uk的查准率和查全率曲线(PR曲线),根据该PR曲线得到分类器SVM_uk的阈值threk,构成与Su对应的阈值集合Threshold ; (4)在训练集Tr上统计候选的类集合Cla中的每一个元素Wi和候选的子类集合Subcl中每一个元素 ' 的共现概率Pu,即标签集合Y中同时具有Wi和Vi的物体数量占OBJ中总物体数Nm的比例;在训练集Tr上统计候选的子类集合Subcl中每一个元素Vi和候选的属性集合Attri中每一个元素Uk的共现概率gjk,即集合Y中同时具有Uk和Vi的物体数量占OBJ中总物体数Nm的比例,此外,在训练集Tr上统计含有候选的子类集合Subcl中元素Vi但不含有候选的属性集合中元素Uk的概率(?Λ,即集合Y中具有Vi但没有%的物体数量占OBJ中总物体数Nni的比例; (5)构造包含:分类器集合Sw,Sv, Su,阈值集合Threshold,概率统计数据Pij, gJk, qJk的中间数据,以备下一步建模使用。 第三步,构造条件随机场模型(CRF),训练得到模型参数; 第四步,对于待描述图像,首先进行图像分割,分割出待描述图像中包含的物体,再按照前述的第二步的方法,提取待描述图像中每个物体的低层特征;之后,利用第三步构造的条件随机场模型(CRF)及训练得到模型参数,采用使用最大积信念传播算法,对待描述图像中每个物体的3`层树状结构标签进行预`测。
【文档编号】G06F17/30GK103530403SQ201310504488
【公开日】2014年1月22日 申请日期:2013年10月23日 优先权日:2013年10月23日
【发明者】韦星星, 韩亚洪, 操晓春 申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1