基于语义分析的网络图像检索方法

文档序号：6575215阅读：262来源：国知局

专利名称：基于语义分析的网络图像检索方法
技术领域：
本发明属于图像处理技术领域，涉及一种基于语义分析的网络图像检索方法。
背景技术：
随着信息技术的迅猛发展，多媒体信息急剧膨胀。图像作为一种内涵丰富、表现
直观的多媒体信息，长期以来一直受到人们的关注。但是由于网络上的图像与日剧增，以
Google图像检索引擎为例，其可检索的图像已经超过IO亿张。如何在浩如烟海的图像中，
通过有效的检索，找到最符合用户需求的图像已经成为当前迫切需要解决的问题。目前，图
像检索的技术主要有两种基于文本的图像检索和基于内容的图像检索。基于文本的图像检索系统将网络图像周围的文本信息如图像标题、链接文本、内
容描述等建立索引，对于用户输入的查询词，使用关键字匹配技术进行检索，找到语义上相
关的图像返回给用户。然而，由于语义的多义性，同一关键字在不同的语义环境下代表不同
的含义，仅仅用关键字匹配的方式往往并不能返回给用户理想的结果。基于内容的图像检索旨在从图像数据库中找出与查询图像内容相似的图像。它利用从图像中自动抽取出来的底层特征，如颜色、纹理、轮廓和形状等特征，进行计算和比较，检索出符合用户需求的结果图像集。然而，由于图像底层特征和高层语义之间的"语义鸿沟"，视觉上相似的图像往往在语义层面上存在着较大的差异性，这与用户的检索需求相违背，极大地制约了基于内容的图像检索技术的发展。

发明内容
针对现有技术的缺陷，本发明目的是提出一种基于语义分析的网络图像检索方法。为达成所述目的，本发明提出基于语义分析的网络图像检索方法，该方法包括步骤如下步骤1 :对于用户输入的查询图像，提取多种底层特征；步骤2 :针对每种特征分别进行基于内容的图像检索，找到视觉上相似的网络图像集；步骤3 :用网络图像集中各图像所对应的相关文本信息进行语义学习，得到查询图像的语义表示；步骤4 :判断各种特征所对应检索图像集在文本信息上的语义一致性，以语义一致性衡量各种特征的描述能力，并赋予不同的置信度；步骤5 :使用查询图像的语义和语义一致性在图像库中进行基于文本的图像检索，得到图像库中每幅图像与查询图像的语义相关性；使用查询图像的底层特征对图像库中的图像进行基于内容的图像检索，得到图像库中每幅图像与查询图像视觉上的相关性；然后通过一个线性函数把语义相关性和视觉相关性融合，最终返回给用户的图像在语义层面上和视觉层面上都具有相似性。
优选的实施例，所述多种底层特征是颜色特征、纹理特征和形状特征。
优选的实施例，所述的语义学习通过以下步骤来实现首先，对于网络图像集中的
每幅图像抽取其中的文本信息，然后，过滤文本信息，去掉其中的无用词语；最后，将文本信
息中所有的有意义词语作为候选，使用TF-IDF策略进行排序，选取排名靠前的几个词语作
为查询图像的语义表示。优选的实施例，所述的线件函数为Sfinai = STBIK+a *SCBIK Sfinal表示图像库中图像与查询图像的相似程度，STBIK为图像库中的图像与查询图像的语义相关性，S^为图像库中的图像与查询图像的视觉相关性，a是一个参数，根据用户不同的需求调整语义相关性和视觉相关性重要性的比例；如果用户希望检索得到语义上更相关的图像，则调小a ，反之如果用户更需要视觉上相似的图像，则相应的调大a 。
本发明的有益效果本发明基于语义分析的网络图像检索方法在传统的基于内容的图像检索技术基础上融入语义分析，返回给用户的结果与查询图像不仅在视觉上有较大的一致性，更重要的是，它们在语义上还具有极大的相关性。这更符合用户的检索需求。

图1为本发明整体构架流程图；图2为基于内容的网络图像检索方法和基于语义分析的网络图像检索方法实验对比图。
具体实施例方式
下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是，
所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。本发明通过对用户输入的查询图像进行语义分析，得到它的语义特性，并结合图
像的视觉特性进行联合检索，返回给用户语义和内容上都相似的图像。如图l示出本发明
整体构架流程图包括的五个部分(l)提取图像的底层特征，如颜色特征，纹理特征，形状
特征。(2)对每一种特征使用基于内容的图像检索找出视觉上相似的图像集。(3)对上面
得到的视觉相似的图像集进行语义学习，得到几个关键字来表述查询图像。(4)通过语义一
致性来衡量各个特征的描述能力，描述能力强的特征给与更高的置信度。(5)使用学习到的
图像语义和图像的底层特征进行联合检索，找出语义和视觉上都相似的图像。颜色特征、纹理特征和形状特征被广泛的应用在基于内容的图像检索中。颜色是
彩色图像的重要特征，也是彩色图像给人的第一印象。纹理是物体表面某种变化或分布规
律的表现，在图像中表现为颜色或明暗的某种规律变化。图像中物体的形状是图像的重要
特征，根据物体的形状可以大致判断物体的类型。基于内容的图像检索常用来寻找与查询图像视觉上相似的图像。它首先提取图像的底层视觉特征，并将图像的底层特征映射为高维空间的一个点。然后，使用空间点的距离函数来衡量查询图像与图像库中的图像视觉上的相关性，排序得到与查询图像最相似的图像。但在实际应用中，图像的底层特征通常具有较高的维数，计算图像库中每幅图像与查询图像之间的相似性并进行排序是一项费时的工作，这对于实时性要求较高的海量网络图像
4检索来说是不现实的。本发明使用局部敏感性哈希算法(LSH)来加速这一检索过程。LSH是一种相似性度量的近似方法，它能在线性时间完成相似性度量。LSH将空间划分为若干个小区域，对图像库中的每幅图像，提取得到它的底层视觉特征，然后通过一组哈希函数将这些图像都映射到小区域内，相似的图像映射到同一个区域或者相邻区域内。这样，对于用户输入的查询图像，通过同样的哈希函数映射到某个区域内，与它位于同一区域内或者相邻
区域内的图像就是我们要找的相似图像。本发明所用到的哈希函数为
其中V是图像的d维底层视觉特征，m是一个d维的随机向量，W为归一化参数，n是[O，W]中的一个随机数。语义学习用于从每个特征得到的视觉相似的网络图像集寻找他们在语义上的共性，并抽取几个关键字来描述检索图像。首先，对于图像集中的每幅图像，我们抽取其中的文本信息，如图像标题、图像链接文本、图像描述等。然后，将文本信息中的无用词语过滤。网络图像周围的文本信息往往包含较多的噪声，许多词对描述图像没有任何意义，我们对文本信息进行词性分析，将对描述图像没有意义的副词、介词、连词、助词、拟声词和叹词等滤除。最后，将文本信息中的有意义词语作为候选，使用TF-IDF策略进行排序，选取排名靠前的几个词语作为检索图像的文本表示。TF-IDF是一种统计方法，常用来评估字或者词语对于一个文档集的重要程度。在一份给定的文档里，词频(term frequency, TF)指的是某一个给定的词语在该文档中出现的次数。逆向文档频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文档数目除以包含该词语之文档的数目，再将得到的商取对数得到。某一特定文档内的高词语频率，以及该词语在整个文档集合中的低文档频率，可以产生出高权重的TF-IDF。因此，TF-IDF倾向于过滤掉常见的词语，保留重要的词语。在使用基于内容的图像检索寻找视觉相似的图像过程中，考虑到不同的特征在不同的环境下描述能力不同，使用了多个特征分别进行检索。这样就需要对各个特征的描述能力进行判断。对于描述能力强的特征，我们应该给与更高的置信度，它学习得到的图像语义更可信，在最后的联合检索中该特征应给与更高的权值。这里使用语义一致性来衡量各种特征的描述能力。对于某种特征得到的视觉相似图像集，如果它们之间在语义上也有较大的相关性，表明该特征能较好的描述图像，检索得到的结果能更好地满足用户的需求。也就是说图像集的语义一致性越高，则该特征描述能力越强。我们将图像集中每幅图像周围的文本信息表示成语义向量，并映射到语义空间上的一个点，这样如果图像集的点的分布越集中，表示它们的语义一致性越高，相应地就给与该特征更高的置信度。
使用查询图像的语义和语义一致性在图像库中进行基于文本的图像检索，得到图像库中每幅图像与查询图像的语义相关性；使用查询图像的底层特征对图像库中的图像进行基于内容的图像检索，得到图像库中每幅图像与查询图像视觉上的相关性。然后通过一个线性函数把两者融合，排名靠前的图像与查询图像语义和视觉上都有相似性。线性函数的定义如下 Sfinal = STBIK+ a *SCBIK 其中Sfiw表示图像库中图像与查询图像的相似程度，ST，表示图像库中图像和查询图像在语义上的相似性，S^表示图像库中图像与查询图像在视觉上的相似性。a是一个参数，根据用户需求调整语义相关性和视觉相关性重要性的比例。如果用户需要语义上更相关的图像，则调小a ，反之如果用户更需要视觉上相似的图像，则相应的调大a。
ST^是图像库中图像和查询图像在语义上的相似性。但在本发明中，使用了多个特征进行检索，且每个特征都学习到了几个关键字代表查询图像。因此，St，定乂如下 5画=2 q、其中，Cj表示第j个特征的语义一致性，^^表示用第j个特征学习到的关键字作
为查询文本，图像库中的所有图像和它的语义相关性。
相应地，SeBIK定义如下 SCSM = ^ 。.5"力其中，S勺表示使用第j个特征描述时，图像库中的所有图像与查询图像的视觉相似性。为了验证方法的有效性，我们分别搭建一个基于内容的网络图像检索平台和基于语义分析的网络图像检索平台做实验。实验中所有的数据都从Google和Flickr上爬取，图像库一共包含八百万幅图像。我们邀请了多个测试人员在这两个平台上实验，并对检索结果进行评估。平均准确率MAP (Mean Average Precision)是信息检索的常用评价指标，常被用来衡量检索结果的好坏，它是检索出的每幅图像的准确率的平均值。系统检索出来的相关图像越靠前(rank越高)，MAP就可能越高。结果表明，基于语义分析的网络图像检索方法(MAP = 0.27)要远好于基于内容的图像检索方法(MAP = 0. 18)。图2为基于内容的网络图像检索方法和基于语义分析的网络图像检索方法实验对比图。其中，左边第一列是用户输入的查询图像，右边的五列是查询结果。第1，3，5行为基于内容的网络图像检索方法的实验结果，2，4，6行为基于语义分析的网络图像检索方法的实验结果。以上所述，仅为本发明中的具体实施方式
，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。
权利要求
一种基于语义分析的网络图像检索方法，其特征在于，该方法包括步骤如下步骤1对于用户输入的查询图像，提取多种底层特征；步骤2针对每种特征分别进行基于内容的图像检索，找到视觉上相似的网络图像集；步骤3用网络图像集中各图像所对应的相关文本信息进行语义学习，得到查询图像的语义表示；步骤4判断各种特征所对应检索图像集在文本信息上的语义一致性，以语义一致性衡量各种特征的描述能力，并赋予不同的置信度；步骤5使用查询图像的语义和语义一致性在图像库中进行基于文本的图像检索，得到图像库中每幅图像与查询图像的语义相关性；使用查询图像的底层特征对图像库中的图像进行基于内容的图像检索，得到图像库中每幅图像与查询图像视觉上的相关性；然后通过一个线性函数把语义相关性和视觉相关性融合，最终返回给用户的图像在语义层面上和视觉层面上都具有相似性。
2. 根据权利要求1所述的图像检索方法，其特征在于，所述多种底层特征是颜色特征、纹理特征和形状特征。
3. 根据权利要求1所述的图像检索方法，其特征在于，所述的语义学习通过以下步骤来实现首先，对于网络图像集中的每幅图像抽取其中的文本信息，然后，过滤文本信息，去掉其中的无用词语；最后，将文本信息中所有的有意义词语作为候选，使用TF-IDF策略进行排序，选取排名靠前的几个词语作为查询图像的语义表示。
4. 根据权利要求1所述的图像检索方法，其特征在于，所述的线性函数为Sfinal — STBIR+ Ct *SCBIRsfinal表示图像库中图像与查询图像的相似程度，sTBIK为图像库中的图像与查询图像的语义相关性，Sc，为图像库中的图像与查询图像的视觉相关性，a是一个参数，根据用户不同的需求调整语义相关性和视觉相关性重要性的比例；如果用户希望检索得到语义上更相关的图像，则调小a ，反之如果用户更需要视觉上相似的图像，则相应的调大a 。
全文摘要
本发明涉及基于语义分析的网络图像检索方法，对用户输入的查询图像提取底层特征。对每种特征进行基于内容的图像检索找到视觉上相似的网络图像集。用网络图像集中各图像所对应的相关文本信息进行语义学习得到查询图像的语义表示。判断各种特征所对应检索图像集在文本信息上的语义一致性，以语义一致性衡量各种特征的描述能力，并赋予不同的置信度。用查询图像的语义和语义一致性在图像库中进行基于文本的图像检索得到图像库中每幅图像与查询图像的语义相关性；用底层特征对图像库基于内容的图像检索，得到图像库中每幅图像与查询图像视觉上的相关性；由线性函数把语义和视觉相关性融合，返回给用户的图像在语义层面上和视觉层面上都具有相似性。
文档编号G06F17/30GK101751447SQ20091008953
公开日2010年6月23日申请日期2009年7月22日优先权日2009年7月22日
发明者刘静, 卢汉清, 桂创华申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：卢汉清;桂创华;刘静
技术所有人：中国科学院自动化研究所
我是此专利的发明人

上一篇：兴趣点数据关联方法及装置的制作方法
上一篇：一种调试嵌入式操作系统的方法和装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。