一种结构化的图像描述方法

文档序号：6516426阅读：363来源：国知局

一种结构化的图像描述方法
【专利摘要】本发明属于图像检索【技术领域】，尤其涉及一种结构化的图像描述方法，包括：获取进行训练的图像，并对图像中每个物体构造3层树状结构标签，形成训练集；提取训练集中图像每个物体的低层特征，训练得到所有候选的类，子类以及属性相对应的分类器，形成下一步建模所需要的中间数据；构造条件随机场模型，训练得到模型参数；对于待描述图像，首先进行图像分割，分割出待描述图像中包含的物体，再提取待描述图像中每个物体的低层特征；之后利用所构造的条件随机场模型(CRF)及训练得到模型参数，采用使用最大积信念传播算法，对待描述图像中每个物体的树状结构标签进行预测。本发明可以提高图像与图像之间的区分度，产生更好的检索结果。
【专利说明】一种结构化的图像描述方法
所属【技术领域】
[0001]本发明属于图像检索【技术领域】，尤其涉及一种结构化的图像描述方法。
【背景技术】
[0002]使用更加丰富的语义信息来描述一幅图像无论对理解该图像还是从Web上面检索该图像都是及其重的。一方面，当面对一幅新的图像时，人们首先想知道的是图像中的物体属于哪个类(比如是一种动物还是一种交通工具)，当获取到它的类信息后，更进一步人们想知道它是属于哪个子类(属于鸟类，还是属于猫科动物)，此外，每种物体都具有自己特有的属性信息，比如是否具有羽毛，是否会飞，是否食肉等等。通过这些信息，人们可以从多个角度更加精确的来理解一幅图像，同时获取到更多关于图像中物体的知识。另一方面，在图像检索领域，由于计算机是使用低层特征来表示一幅图像的，这样由计算机给出的检索结果并不能很好的匹配用户的检索意图，为了克服图像检索领域存在的这种“语义鸿沟”，也需要我们使用更加丰富更加精确的语义信息来描述一幅图像。
[0003]在过去的几年中已经涌现出了各种各样的图像描述方法，比如使用单个标签来描述图像中的物体属于动物还是植物，这种描述方法虽然指定了图像中物体的类别，但是所蕴含的信息非常有限，为了克服这个缺点，人们就创建一个标签库，然后选取标签库中与之相关的多个标签来描述图像中的某个物体，但是标签库毕竟有限，不可能覆盖自然界中的所有物体，于是就产生了基于属性的图片描述方法，这类方法使用物体的属性信息，比如是否会飞，是否有羽毛等去描述一幅图像，这样做的好处是即使遇到了一幅没有见过的图像，人们依然可以使用一些基本的属性信息去描述它，从而获取对图像的一些感性认识。不管这些图像描述方法是从什么角度，使用什么信息来描述图像的，他们的目标都是为了获取图像中更加丰富的语义信息。

【发明内容】

[0004]本发明的目的是提供一种的新的结构化图像描述方法，使用一个3层的树状结构语义标签来描述一幅图像，从而使描述图像的内容更加丰富。
[0005]本发明提出的结构化的图像描述方法包括如下步骤:
[0006]第一步，获取进行训练的图像，并对图像中每个物体构造3层树状结构标签，形成训练集:
[0007](I)获取进行训练的图像，构建图像集合IMG ；
[0008](2)使用图像分割算法分割出集合IMG中每幅图像中所包含的物体，构成物体集合 OBJ ；
[0009](3)对集合OBJ中的每个物体进行标注，标注的内容包括物体所属的类，子类以及具有的属性，形成类集合CLASS，子类集合SUBCLASS以及属性集合ATTRIBUTE ；
[0010](4)根据标注信息对集合OBJ中的每个物体构造包括类-子类-属性3层树状结构标签，形成与OBJ相对应的标签集合Y，两个集合的元素一一对应；[0011](5)类集合CLASS中有很多相同的元素，顺序扫描CLASS中的每个元素，相同的元素只保留一个，形成候选的类集合Cla，对其子类集合SUBCLASS和属性集合ATTRIBUTE做相同的扫描，得到候选的子类集合Subcl和候选的属性集合Attri ；
[0012](6)构造包括:物体集合0BJ，标签集合Y，候选的类集合Cla，候选的子类集合Subcl以及候选的属性集合Attri的训练集Tr。
[0013]第二步，提取训练集中图像每个物体的低层特征，训练得到所有候选的类，子类以及属性相对应的分类器，形成下一步建模所需要的中间数据的步骤如下:
[0014](I)提取物体集合OBJ中每个物体的局部二值模式特征(LBP)特征，构造特征集合X；
[0015](2)根据特征集合X和类集合CLASS，训练得到集合Cla中每个元素Wi的SVM分类器SVM_Wi，构成与类相对应的分类器集合Sw，同理，根据特征集合X和子类集合SUBCLASS，训练得到子类集合Subcl中每个元素\的SVM分类器SVM_\，构成与子类相对应的分类器集合Sv,根据特征集合X和属性集合ATTRIBUTE，训练得到集合Attri中每个元素Uk的SVM分类器SVM_uk，构成与属性相对应的分类器集合Su ；
[0016](3)在训练集Tr上计算分类器集合Su中每个分类器SVM_uk的查准率和查全率曲线(PR曲线)，根据该PR曲线得到分类器SVM_uk的阈值threk，构成与Su对应的阈值集合Threshold ；
[0017](4)在训练集Tr上统计候选的类集合Cla中的每一个元素Wi和候选的子类集合Subcl中每一个元素Vj的共现概率Pij,即标签集合Y中同时具有Wi和Vi的物体数量占OBJ中总物体数N111的比例；在训练集Tr上统计候选的子类集合Subcl中每一个元素Vi和候选的属性集合Attri中每一个元素Uk的共现概率gjk(即集合Y中同时具有Uk和Vi的物体数量占OBJ中总物体数Nm的比例)，此外，在训练集Tr上统计含有候选的子类集合Subcl中元素Vi但不含有候选的属性集合中元素Uk的概率q#(即集合Y中具有Vi但没有Uk的物体数量占OBJ中总物体数Nni的比例)；
[0018](5)构造包含:分类器集合Sw, Sv, Su,阈值集合Threshold,概率统计数据Pij, gjk(j=I,..., Nv, k = I,..., Nu), qJk的中间数据，以备下一步建模使用。
[0019]第三步，构造条件随机场模型(CRF)，训练得到模型参数；
[0020]第四步，对于待描述图像，首先进行图像分割，分割出待描述图像中包含的物体，再按照前述的第二步的方法，提取待描述图像中每个物体的低层特征；之后，利用第三步构造的条件随机场模型(CRF)及训练得到模型参数，采用使用最大积信念传播算法，对待描述图像中每个物体的3层树状结构标签进行预测。
[0021]本发明使用一个3层的树状结构语义单元来描述图像，从该语义单元中，用户不光可以获取到图像中物体所属的类和具体的子类信息，而且可以获取到图像中物体具有的属性信息，从而产生对图像内容更加丰富和更加精确的描述，这样可以提高图像与图像之间的区分度，方便在图像检索时消除语义鸿沟，产生更好的检索结果，同时本发明亦提供给了用户一种更加直观的图像内容的展示方法，即以一个3层树状结构来组织图像的类，子类，属性信息，方便用户更加容易的理解图像。
【专利附图】

【附图说明】[0022]图1:CRF模型结构示意图。
[0023]图2:本发明使用的训练集中的若干例子，其中第一行的图像为从网络上下载的自然图像，其中的物体已经使用矩形框标出。第二行为每个物体相对应的3层树状结构标签。
[0024]图3左图为自然图像，其中需要描述的物体已经使用矩形框标出，右图为使用本发明提出的发明预测出的3层树状结构语义标签。
[0025]图4左图为自然图像，其中需要描述的物体已经使用矩形框标出，右图为使用本发明提出的发明预测出的3层树状结构语义标签。
【具体实施方式】
[0026]这里选取两幅图像作为待描述图像，分别为图3，图4中左边的图像，使用本发明中描述的方法对其进行预测输出3层树状结构语义单元。
[0027]首先需要训练得到条件随机场(CRF)的模型参数:具体步骤如下:
[0028]I，构造训练集步骤如下:
[0029](I)编写爬虫程序下载Google图片搜索的检索结果中的图像，构成图像集合爾G = {/mage,,…JnmgexJ ,其中Nd是集合IMG中的图像总数；
[0030](2)使用图像分割算法分割出集合IMG中每幅图像中所包含的物体，构成物体集合OBJ = ^ObjfiOU *其中Nm是集合OBJ中的物体总数，因为一幅图像中可能存在多个物体，所以Nm SNd;
[0031]⑶使用Amazons Mechanical Turk工具对集合OBJ中的每个物体进行标注,包括物体Obj1所属的类Class1,子类SubclaSS1以及具有的属性attru,…，attrlp, Ip表示物体Obj1具有的属性数目，形成类集合CL4SS = Iciassl,..- ,cto气},子类集合SlSCLiSS = {subclass^,..-,subclass^}以及属性集合』TTRIBUTE =知叫”…,alirh>?-..,alirn,…,α--ηρ,…,atirNJ,..}；
[0032](4)根据标注信息对集合OBJ中的每个物体Obj1构造3层树状结构标签(类-子类-属性)Y1 = Iclass1, SubclaSS1, attrn,…，attrlp},形成与OBJ相对应的标签集合
(两个集合的元素一一对应)；
[0033](5)类集合CLASS中有很多相同的元素，顺序扫描CLASS中的每个元素，相同的元素只保留一个，形成候选的类集合<^? = 1nv，wv.}，其中Nw是集合Cla中不同元素的总数，对子类集合SUBCLASS和属性集合ATTRIBUTE做相同的扫描，得到候选的子类集合Subcl= !V1，…,VaJ和候选的属性集合AM = UiJ , Nv和Nu分别是集合Subcl和Attri中不同元素的总数；
[0034](6)构造包括:物体集合OBJ=興..., Obj,m M示签集合Y = ^…，匕> 候选的类集合Cia= {Wl，…，^}，候选的子类集合Subd-{V,,...,V、}以及候选的属性集合Attri= I的训练集Tr。生成的训练集如图2所示。
[0035]2，处理数据步骤如下:
[0036](I)提取物体集合OBJ中每个物体Obj1 (I = I,…，Nm)的局部二值模式特征(LocalBinary Patterns) LBP 特征 X1,构造Λ = {為,"% A乂 f 的特征集合；
[0037](2)根据特征集合 I = WdJ 和类集合=
训练得到集合Cla中每个元素Wi的SVM分类器SVM_Wi，构成与类相对应的分类器集合Sw = {SFM_uh-,Sm_wK l.同理，根据特征集合X = Pf1,…,XaJ和子类集合SUBCLASS = {subclass,..% subclass^}，训练得到集合Subcl中a每个元素Vj的SVM分类器SVM_Vj,构成与子类相对应的分类器集合X = {S爾—V、, * * 'SVM—ι、J-,根据I = {Χ^,.}和属佐集令ATTRIBUTE = {aitrw*.^attrlp，…,attrn,*.*?α?(ηρ,..,,aUr、》,…,attrNmP,,训练得到
集合Attri中每个元素Uk的SVM分类器SVM_uk，构成与属性相对应的分类器集合Su = [SVMjh,...,SVM—u% \ s
[0038](3)在训练集Tr上计算集合Su中每个分类器SVM_uk的查准率和查全率曲线(PR曲线)，根据该PR曲线得到SVM_uk的阈值threk，构成与Su对应的阈值集合Threshold = -1threl,..,Ihres \ ；
[0039](4)在训练集Tr上统计集合Cla中的每一个元素Wi (i = 1，2，...，Nw)和集合Subcla 中每一个元素 V」(j = 1,2,, Nv)的共现概率 PijQ = 1，...，Nw, j = 1，...，Nv)(即集合Y中同时具有Wi和Vi的物体数量占OBJ中总物体数Nm的比例)；在训练集Tr上统计集合Subcla中每一个元素Vi (i = 1，2，...，Nv)和集合Attri中每一个元素uk(k =
1.2....,Nu)的共现概率 gjk(j = I,..., Nv, k = I,..., Nu)(即集合 Y 中同时具有 Uk 和 Vi的物体数量占OBJ中总物体数Nm的比例)，此外，在训练集Tr上统计含有集合Subcla中元素 Vi (i = 1，2，...,Nv)但不含有集合 Attri 中元素 uk (k = 1,2,..., Nu)的概率 qjk(j =
1.,.., Nv, k = I,..., Nu)(即集合Y中具有Vi但没有Uk的物体数量占OBJ中总物体数Nm的比例)；
[0040]⑶构造包含:分类器集合=
【权利要求】
1.一种结构化的图像描述方法，包括下列步骤: 第一步，获取进行训练的图像，并对图像中每个物体构造3层树状结构标签，形成训练集: (1)获取进行训练的图像，构建图像集合IMG； (2)使用图像分割算法分割出集合IMG中每幅图像中所包含的物体，构成物体集合OBJ； (3)对集合OBJ中的每个物体进行标注，标注的内容包括物体所属的类，子类以及具有的属性，形成类集合CLASS，子类集合SUBCLASS以及属性集合ATTRIBUTE ； (4)根据标注信息对集合OBJ中的每个物体构造包括类-子类-属性3层树状结构标签，形成与OBJ相对应的标签集合Y，两个集合的元素一一对应； (5)类集合CLASS中有很多相同的元素，顺序扫描CLASS中的每个元素，相同的元素只保留一个，形成候选的类集合Cl a，对其子类集合SUBCLASS和属性集合ATTRIBUTE做相同的扫描，得到候选的子类集合Subcl和候选的属性集合Attri ； (6)构造包括:物体集合0BJ，标签集合Y，候选的类集合Cla，候选的子类集合Subcl以及候选的属性集合Attri的训练集Tr。第二步，提取训练集中图像每个物体的低层特征，训练得到所有候选的类，子类以及属性相对应的分类器，形成下一步建模所需要的中间数据的步骤如下: (1)提取物体集合OBJ中每个物体的局部二值模式特征(LBP)特征，构造特征集合X；` (2)根据特征集合X和类集合CLASS，训练得到集合Cla中每个元素Wi的SVM分类器SVM_wi；构成与类相对应的分类器集合Sw，同理，根据特征集合X和子类集合SUBCLASS，训练得到子类集合Subcl中每个元素\的SVM分类器SVM_\，构成与子类相对应的分类器集合Sv,根据特征集合X和属性集合ATTRIBUTE，训练得到集合Attri中每个元素Uk的SVM分类器SVM_uk，构成与属性相对应的分类器集合Su ； (3)在训练集Tr上计算分类器集合Su中每个分类器SVM_uk的查准率和查全率曲线(PR曲线)，根据该PR曲线得到分类器SVM_uk的阈值threk，构成与Su对应的阈值集合Threshold ； (4)在训练集Tr上统计候选的类集合Cla中的每一个元素Wi和候选的子类集合Subcl中每一个元素 ' 的共现概率Pu，即标签集合Y中同时具有Wi和Vi的物体数量占OBJ中总物体数Nm的比例；在训练集Tr上统计候选的子类集合Subcl中每一个元素Vi和候选的属性集合Attri中每一个元素Uk的共现概率gjk，即集合Y中同时具有Uk和Vi的物体数量占OBJ中总物体数Nm的比例，此外，在训练集Tr上统计含有候选的子类集合Subcl中元素Vi但不含有候选的属性集合中元素Uk的概率(?Λ，即集合Y中具有Vi但没有％的物体数量占OBJ中总物体数Nni的比例； (5)构造包含:分类器集合Sw,Sv, Su,阈值集合Threshold,概率统计数据Pij, gJk, qJk的中间数据，以备下一步建模使用。第三步，构造条件随机场模型(CRF)，训练得到模型参数；第四步，对于待描述图像，首先进行图像分割，分割出待描述图像中包含的物体，再按照前述的第二步的方法，提取待描述图像中每个物体的低层特征；之后，利用第三步构造的条件随机场模型(CRF)及训练得到模型参数，采用使用最大积信念传播算法，对待描述图像中每个物体的3`层树状结构标签进行预`测。
【文档编号】G06F17/30GK103530403SQ201310504488
【公开日】2014年1月22日申请日期:2013年10月23日优先权日:2013年10月23日
【发明者】韦星星, 韩亚洪, 操晓春申请人:天津大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韦星星;韩亚洪;操晓春
技术所有人：天津大学
我是此专利的发明人

上一篇：一种内存垃圾回收系统及方法
上一篇：基于谐波因子的电子式电能表可靠性预计方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。