基于区域的多特征融合及多级反馈的潜伏语义图像检索方法

文档序号:6561502阅读:229来源:国知局
专利名称:基于区域的多特征融合及多级反馈的潜伏语义图像检索方法
技术领域
本发明属于多媒体信息检索领域,具体涉及一种基于区域的多特征融合及多级反馈的潜伏语义图像检索方法,该方法涉及到计算机视觉、矩阵分析、图像检索等领域,可直接用于Web环境下的综合文本和图像内容的图像检索。
背景技术
多媒体技术与网络技术的发展促使WWW中的图像数量成爆炸式的增长,如何从“博”而“杂”的Web图像数据中获得用户需要的图像,这使得寻求一种精确、全面、简洁、灵活、智能的图像搜索技术成为必然需求。目前的图像搜索引擎主要采用文本匹配技术,其实质是将图像搜索问题转化为传统的文本检索问题,它们利用图像周围的文本作为图像的关键字标注来间接的检索图像,但这种图像周围的文字并不十分准确,有时甚至和相应图像毫无关系,而且图像内容的细节和其引申含义难以用文字表达清楚和充分。所以,采用基于网页中图像周围文本的图像搜索引擎对图像的搜索准确度受到较大的限制。
基于内容的图像搜索通过引入计算机视觉领域的技术,用图像本身的内容特征作为图像标识。针对图像的内容特征提取方面,图像检索目前有一些转变一是从基于整幅图像的特征提取转变为基于区域(或对象)的特征提取;二是从提取的特征类别上,从单一的某种特征的提取转向面向多种异构特征的多特征提取。所以,基于区域的多特征提取是图像检索当前比较活跃的一个研究点,但它们都是在面向专业领域的图像检索中进行的。在面向Web环境的图像检索中,采用基于区域的多特征提取方法的还比较少见。
挖掘图像内容特征的语义信息,以利用图像内容和语义来搜索图像是人们的理想和最终目标。图像语义指用户对图像内容的主观理解,是图像内容对用户所产生的刺激在用户头脑中的映像。然而由于底层特征与高层语义之间的巨大鸿沟以及图像语义的“多义性”和“同义性”,如何准确的捕捉图像内容及其所反映出的语义信息是基于内容的图像搜索准确性提高的关键,也是难点。通过借鉴文本检索中运用潜伏语义索引(Latent SemanticIndexing,LSI)算法来解决其中的“多义性”和“同义性”问题,可将这一技术应用到图像检索中,以发现底层特征与图像内容之间的语义联系,并实现多种图像底层特征的融合。
另外,任何搜索系统准确性提高的一个技巧是相关反馈技术,也就是用户与系统通过多次交互以期得到更精确的结果。其具体过程是系统首先返回一组结果图像,通过用户交互反馈信息自动分析最能表征查询目标的特征,自动调整相似性的度量方法,然后进行新的查询,如此多次反馈,最终得到满意结果。目前存在各种不同方法及相应反馈策略都试图达到准确搜索的目标,然而主要思想是根据人类对图像的理解模式由粗到细逐步建立特征树模型,所用的技术趋向两个方向一个是针对特定领域,其不足是特征选择单一、应用局限;一个是处理范围太宽泛,匹配准确度太低。相应的,其反馈模型大多仍建立在底层特征基础上,通过改进查询向量来更新查询需求,然而,“语义鸿沟”是对这类技术的致命打击,Toml等在《A Picture is Worth a Thousand KeywordsImage-Based Object Search on aMobile Platform》一文中提到在图像搜索中图像内容相对于文本的高效性,但没有考虑图像多特征融合检索。

发明内容
本发明的目的在于提供一种基于区域的多特征融合及多级反馈的潜伏语义图像检索方法,该方法解决了当前Web环境的图像搜索系统的一些不足,具有特征描述精确、反馈准确率高、充分利用用户语义理解的特点。
本发明提供的一种基于区域的多特征融合及相关反馈的潜伏语义图像检索方法,其步骤包括
(1)用户输入文本查询的关键词Q,利用传统的文本检索技术,返回初始的检索结果集合set(Q);(2)在初始的检索结果集合set(Q)上,构建待分解的属性-图像矩阵A,属性-图像矩阵A的每一列对应于一幅图像的特征,每一行对应于特征的一个分量;(3)应用潜伏语义索引算法对待分解的属性-图像矩阵A进行分解和降维,形成一个语义空间及其和A近似的语义矩阵A’,矩阵A’的每一列对应一幅图像的语义特征,每一行对应于语义特征的一个分量;(4)在初始结果图像集set(Q)上,用户选择比较接近自己检索目标的M幅图像,M>0,形成相似图像集P(M),对P(M)中的每一幅图像,在语义矩阵A′中找到其对应的语义特征,然后对P(M)中的K幅图像的语义特征进行算术平均,构建成图像查询向量F;(5)将图像查询向量F和语义空间矩阵A’中的每一列进行相似性比较,按照相似性大小降序排序,将其对应的图像集合set(F)返回;(6)在结果图像集合set(F)中,用户选择比较接近自己检索目标的K幅图像,K>0,形成相似图像集P(K),对P(K)中的每一幅图像,在语义矩阵A′中找到其对应的语义特征,在原有图像查询向量F的基础上构建新的图像查询向量F′;(7)令F=F′,重复步骤(5)-(6),直到满足检索需求为止,并给出最终的检索结果。
综合利用文本检索和基于图像内容的图像检索技术是图像搜索的趋势。本发明利用相关反馈技术将二者可以有效的结合起来,从而极大提高图像的检索准确度。采用基于区域的多种图像特征,把对图像本质的描述提升到对象层,结合以用户交互为中心的多级反馈技术,进一步把图像的表达提升到语义层。而且,基于区域的多种特征,有效避免了单一特征和全局特征的局限性,通过利用潜伏语义索引技术进行有效的融合,实现了图像间的语义相似性匹配。
本发明方法细致、全面地体现图像本质内容,较好避免了特征提取算法与图像种类之间较强的依赖关系,实现了一定程度上的通用特征提取方法,同时对依靠潜伏语义的挖掘,建立图像之间的潜伏语义联系,架起底层特征与高层语义之间的桥梁,提高了检索系统的准确率,很好地克服了Web图像种类复杂对特征算法通用性提出的挑战,减小了大数据量图像集对图像检索系统的干扰,为结合了文本和图像内容的Web图像搜索系统提供了一种较好的解决方案。
总之,本发明方法综合利用了文本关键词检索和基于区域的多种特征的检索,通过潜伏语义索引算法将多种特征的进行融合,并采用基于语义理解的多级反馈模型,有效结合文本和图像特征信息,提高图像搜索的准确度。


图1为本发明方法的基本流程2为使用本发明方法完成的检索例子;其中(a)图是实施例子的初次检索结果示意图(输入关键词为“熊猫”);(b)图为本发明实施例子的第一次反馈检索结果示意图;(c)图为本发明实施例子的第二次反馈检索结果示意图;(d)图为本发明实施例子的第三次反馈检索结果示意图。
具体实施例方式
本发明方法主要基于三个简单而有效的思想(1)特征提取过程中遵循“图像本质是由其主要对象的多方面特征体现的”。为准确提取图像特征,全面描述图像本质内容,该方法利用基于区域(或对象)的多特征融合技术对其主要对象进行处理,有效避免了单一特征和全局特征的局限性,从对象层次上的不同角度出发综合描述图像本质,并在此基础上建立多模式语义空间,使其不同特征都可以在空间中得以表示,空间中每一维称之为图像属性。
(2)检索过程中利用潜伏语义进行“相似传播”,为挖掘利用图像集会的语义空间结构,实现图像之间的语义相似性匹配,该方法成功将潜伏语义思想应用到图像检索领域,实现了从文本到图像的有效转化。
(3)反馈过程中遵循“您选择的即是最好的”为进一步增加精确度以及满足不同用户的各种个性需求,该方法基于完全的用户理解进行反馈,即“您选择的即是最好的”。
下面结合附图和具体实例对本发明的技术方案作进一步详细描述。
为实现这样的目的,本发明首先利用关键词Q进行文本查询,在初次返回的结果集合set(Q)上构建属性-图像矩阵A,应用潜伏语义索引算法实现对该矩阵的矩阵分解,得到一个低维的语义空间及其和A对应的近似语义矩阵A’,A’的每一列向量就是一个图像对应的语义特征。最后,在这个低维语义空间中,利用用户反馈的相似图像的语义特征,构建或更新图像查询向量,并重新求取所有图像的语义特征和图像查询向量的相似性,并按照相似性大小返回出结果图像,如未满足检索要求,重复反馈,给出最终的检索结果。
要注意的是,应用本发明方法之前,有一些工作需要预先处理(或者说是后台离线处理)包括从WWW上用爬虫下载Web图像及其网页,分析网页建立Web图像的文本索引,分析Web图像本身进行多区域特征的提取。
如图1所示,本发明的基于区域的多特征融合及多级反馈的潜伏语义图像检索方法按如下步骤进行(1)初始基于关键词的检索用户输入文本查询的关键词Q,利用传统的文本检索技术,返回初始的检索结果集合set(Q)。
(2)构造待分解的属性-图像矩阵在初始的检索结果集合set(Q)上,构建待分解的属性-图像矩阵A。该矩阵的每一列对应于一幅图像的特征,每一行对应于特征的一个分量。
(3)构造语义空间,获得图像语义特征应用潜伏语义索引算法对待分解的属性-图像矩阵A进行分解和降维,形成一个语义空间及其和A近似的语义矩阵A’,矩阵A’的每一列对应一幅图像的语义特征,每一行对应于语义特征的一个分量。
(4)用户第一次反馈,构建图像查询向量在初始结果图像集set(Q)上,用户选择比较接近自己检索目标的M(M>0)幅图像,形成相似图像集P(M),对P(M)中的每一幅图像,在语义矩阵A′中找到其对应的语义特征,然后对P(M)中的M幅图像的语义特征进行算术平均,构建成图像查询向量F,即F=Σi=1MXi/M,]]>其中Xi表示P(M)中第i幅图像的语义特征。
(5)用图像查询向量作为输入进行检索将图像查询向量F和语义空间矩阵A’中的每一列(对应于一个图像的语义特征)进行相似性比较,按照相似性大小降序排序,将其对应的图像集合set(F)返回。
(6)用户再次反馈,更新图像查询向量在结果图像集合set(F)中,用户选择比较接近自己检索目标的K(K>0)幅图像,形成相似图像集P(K),对P(K)中的每一幅图像,在语义矩阵A′中找到其对应的语义特征,在旧的图像查询向量F的基础上构建新的图像查询向量F′=(F+Σi=1K(SiXi)/Σi=1KSi)/2,]]>其中si表示P(K)中第i幅图像在上次查询得到的相似性值,Xi表示P(M)中第i幅图像的语义特征。
(7)令F=F′,重复步骤(5)-(6),直到满足检索需求为止,并给出最终的检索结果。
在实际应用中,当通过该系统输入检索关键词,首先返回一组结果图像,系统在此上自动构建语义特征空间,生成每幅图像的语义特征;再根据用户反馈信息构建或更新图像查询向量,与每幅图像的语义特征进行相似性的度量,反馈回结果图像集合,如此多次反馈,最终得到满意的结果,从而提高检索的准确率。
我们的具体评价测试如下从internet上收集得300万幅图像作为测试平台,挑选了10个关键词作测试,并进行多次反馈,每次反馈选择一幅最相似的图像作为反馈。表1显示了本发明方法对测试的查询关键词的前20个检索结果的检索准确度(相关图像个数/20)。从表1可以看出,本发明的方法对于web图像检索极为有效,由于它综合利用了文本和图像内容特征信息并让用户参与到检索过程中,显著提高了图像搜索的结果的准确度。当我们将评价的结果图像数目扩大到40和60个图像时,也取得了类似的结果。
表1TOP-20的检索准确度对比

实例本发明实施例子采用的图像数据库是从internet上收集的300万幅图像,包含了各种语义类别的异构图像,包括自然风景、人物、动物、植物、城市建筑、交通工具、日常用品等。每幅图像的特征的提取是后台离线处理的,其底层视觉特征的提取是先用分水岭算法进行图像分割,然后利用模糊C均值实现区域融合,形成6个(6个比较符合人类的视觉特性)区域(或对象),然后对每个区域提取其L*U*V空间的颜色平均值(3维)、共生纹理(9维)和区域面积比(1维),组合成一个78维(78=13×6)的综合视觉特征。特征向量用向量表示,T={xij|i=1,2,...,M;j=1,2,...,78,其中M是图像数目}。每次返回和检索图像最相似的20幅图像,结果图像分为相似图像和非相似图像两个类别,所有这些信息被存储在一个数据库中。
下面详细说明本实例检索方法的过程(1)初始基于关键词的检索用户输入文本查询的关键词Q,比如“熊猫”,利用传统的文本检索技术(例如经典的TF*IDF策略),返回初始的检索结果集合set(Q),如果返回的图像数目太多,为避免后面的矩阵运算耗时太多从而影响系统响应时间,可用TOP-N的图像集合代作set(Q)。图2(a)为系统初次检索返回结果示意(前20副图像),其中查询关键词为“熊猫”。
(2)构造待分解的属性-图像矩阵在初始的检索结果集合set(Q)上,构建待分解的属性-图像矩阵A。该矩阵的大小为m*n,其中n为set(Q)中的图像个数,m为78(代表78维的图像底层视觉特征),该矩阵的每一列对应于一幅图像的特征,每一行对应于特征的一个分量。该矩阵代表了要进行反馈的原始的图像空间。
(3)构造语义空间,获得图像语义特征应用潜伏语义索引算法对待分解的属性-图像矩阵A进行分解,降维,此处维数可取为6(这个维数大小可由用户预先设定),形成一个语义空间及其和A近似的语义矩阵A’,矩阵A’的大小和A相同,矩阵A’的每一列对应一幅图像的语义特征(大小为78*1),每一行对应于语义特征的一个分量。
(4)用户第一次反馈,构建图像查询向量在初始结果图像集set(Q)上,用户选择比较接近自己检索目标的M(M>0)幅图像,形成相似图像集P(M),对P(M)中的每一幅图像,在语义矩阵A′中找到其对应的语义特征,然后对P(M)中的M幅图像的语义特征进行算术平均,构建成图像查询向量F,即F=Σi=1MXi/M,]]>其中Xi表示P(M)中第i幅图像的语义特征。为了便于用户理解和结果显示,在此我们把M取为1。
(5)用图像查询向量作为输入进行检索将先前用户选择的相似图像记忆下来优先返回,再将图像查询向量F和语义空间矩阵A’中的每一列(对应于一个图像的语义特征)进行相似性比较,按照相似性大小降序排序,将其对应的图像集合set(F)返回。对于在反馈中被用户选择为相似图像的图像,为优先返回,可提高其相似性,让其排在最前面。图2(b)为本发明实施例子的第一次反馈后的结果示意图,其中最左上角的那个图像是用户本次反馈的相关图像。
(6)用户再次反馈,更新图像查询向量在结果图像集合set(F)中,用户选择比较接近自己检索目标的K(K>0)幅图像,形成相似图像集P(K),对P(K)中的每一幅图像,在语义矩阵A′中找到其对应的语义特征,在旧的图像查询向量F的基础上构建新的图像查询向量F′=(F+Σi=1K(SiXi)/Σi=1KSi)/2,]]>其中si表示第i幅图象在上次查询得到的相似性值,Xi表示P(M)中第i幅图像的语义特征。同样为便于用户理解和结果显示,在此我们把K取为1。
(7)多次反馈,给出最终结果令F=F′,利用人机交互反馈平台,再重复5-6步两次,满足检索,给出最终的检索结果。图2(c)为本发明实施例子的第二次反馈结果示意图,图2(d)为本发明实施例子的第三次反馈结果示意图。图2(b)和图2(c)与图2(d)一样,其中最左上角的那个图像是用户本次反馈的相似图像。
本发明适用于实际的异构的Web图像集合。因为在Web图像集合中,图像的异构性和多样性是一般的专业图像库或特定领域的图像库所不能比拟的,不可能用一种图像特征提取来解决所有类别的图像,而且也很难确定用多种图像特征中的那种组合最适合来解决某个特定的图像。本发明采用基于区域的多种特征提取方法,首先对图像进行多区域分割,使得对图像特征的提取从最底层的物理层提升到更适合人类视觉特性的对象(或区域)层;并利用LSI算法解决了多种图像特征所产生的冗余性,获得最适合表达某个图像集合的语义特征,完成了多特征融合;更进一步利用多级反馈技术,将用户的主观判断引入检索过程中,使得将图像检索从对象层提升到语义层,更为符合人类思维中的语义概念。
此外,对于检索时间,由于本发明的方法中大部分的预处理工作都是在离线时完成的,其中最主要的是对Web图像的文本索引和图像特征提取。对初始查询结果集合进行的LSI算法,由于可以通过采用其最前面的TOP-N个图像来替代(考虑到Web图像检索的用户通常关注的是最前面几个返回页面的结果,所以这个近似替代是合理的),所以其构建的输入矩阵的大小不会太大以至于影响检索的响应时间。当然,实际的检索时间与特征向量的维数、数据库中图像的数目、软硬件环境等有关,但通过适当的调整,可完全符合实时性的要求和完全能满足用户的要求。
权利要求
1.一种基于区域的多特征融合及相关反馈的潜伏语义图像检索方法,其步骤包括(1)用户输入文本查询的关键词Q,利用传统的文本检索技术,返回初始的检索结果集合set(Q);(2)在初始的检索结果集合set(Q)上,构建待分解的属性-图像矩阵A,属性-图像矩阵A的每一列对应于一幅图像的特征,每一行对应于特征的一个分量;(3)应用潜伏语义索引算法对待分解的属性-图像矩阵A进行分解和降维,形成一个语义空间及其和A近似的语义矩阵A’,矩阵A’的每一列对应一幅图像的语义特征,每一行对应于语义特征的一个分量;(4)在初始结果图像集set(Q)上,用户选择比较接近自己检索目标的M幅图像,M>0,形成相似图像集P(M),对P(M)中的每一幅图像,在语义矩阵A′中找到其对应的语义特征,然后对P(M)中的K幅图像的语义特征进行算术平均,构建成图像查询向量F;(5)将图像查询向量F和语义空间矩阵A’中的每一列进行相似性比较,按照相似性大小降序排序,将其对应的图像集合set(F)返回;(6)在结果图像集合set(F)中,用户选择比较接近自己检索目标的K幅图像,K>0,形成相似图像集P(K),对P(K)中的每一幅图像,在语义矩阵A′中找到其对应的语义特征,在原有图像查询向量F的基础上构建新的图像查询向量F′;(7)令F=F′,重复步骤(5)-(6),直到满足检索需求为止,并给出最终的检索结果。
全文摘要
本发明公开了一种基于区域的多特征融合及多级反馈的潜伏语义图像检索方法,利用初次关键词检索返回的结果集合,提取多种基于区域的图像特征,构建属性-图像矩阵并应用潜伏语义索引算法以获得图像集合的语义空间及每幅图像的语义特征,再利用用户反馈的相似图像构建或更新图像查询向量,对语义空间进行再次检索,计算图像语义特征和图像查询向量的相似性,按降序得出结果集合,可重复检索。本发明充分利用图像内容信息,弥补了关键词检索的不足,并通过基于区域的多特征融合,把图像内容信息从底层的物理层提升到对象层,再利用人机交互反馈进一步提升到语义层,从而缩小图像底层特征与高层语义之间的鸿沟,能让Web图像检索获得更高检索准确率。
文档编号G06F17/30GK1967536SQ20061012505
公开日2007年5月23日 申请日期2006年11月16日 优先权日2006年11月16日
发明者金海 , 陶文兵, 何儒汉, 章勤, 姜文超, 郑然 , 余洋, 陈维, 李娟 申请人:华中科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1