图像搜索引擎中的排名方法

文档序号:6556648阅读:341来源:国知局
专利名称:图像搜索引擎中的排名方法
技术领域
本发明涉及一种图像搜索引擎中的排名方法。
背景技术
伴随着互联网络的快速发展,它已经成为最大的图像资源库。近年来,搜索引擎因其能够在几乎无限的资源中为广大用户找到所需的信息而越来越受到重视,图像搜索引擎也应运而生。目前已经出现了一批比较知名的图像搜索引擎,如Google,Ask等,凭借其较高的搜索准确率而成为当前搜索引擎的主流。然而,当前搜索引擎仍然存在着查准率太低的问题,搜索结果充斥着太多的无用信息,要想在如此庞大的图像库中找到用户需要的信息仍然充满挑战。
大多数的图像搜索引擎从互联网中搜集图像,然后提取图像所在网页的一些文本信息为图像建立索引,更简单的,仅仅提取图像所在网页的标题为图像建立索引。用户向搜索引擎提交查询时,仅仅考虑查询与预提取的信息的相似度并返回结果。
目前,传统的文本搜索引擎已经比较成熟。如以Google为代表的第三代搜索引擎采用基于链接分析的技术来评价网页的重要程度,具有较好的效果。而在图像搜索领域,目前的排名方法往往采用较简单的方式,搜索的查准率还不太理想。因此,有必要设计一种图像搜索引擎的排名算法,它既充分借鉴已有的文本搜索引擎较成熟的技术,同时也考虑图像固有的一些特点,使得图像搜索的结果具有较高的查准率,更好地满足用户查询的需求。

发明内容
本发明的主要目的在于提供一种图像搜索引擎中的排名方法,根据用户的查询请求,快速准确地定位到用户需要的图像。
本发明解决其技术问题采用的技术方案如下一种图像搜索引擎中的排名方法,主要包括以下步骤1)图像搜索引擎根据每张图像所在网页的信息及该图像的特点预先计算好每张图像的重要程度,即静态排名;2)图像搜索引擎根据实时的用户查询请求,计算查询与图像所在网页的相似度,即动态排名;3)整合静、动态排名,将图像按相似度由高到低返回给用户。
1.步骤(1)计算静态排名,考虑图像所在网页的重要程度,考虑包括链接分析、网页图像所在网站类型、图像点击率等所有能决定网页的重要程度的信息。
2.步骤(2)计算动态排名前,预先从网页中的关键标签及图像的上下文中提取文本,并采用命名实体识别技术和依存句法技术提取网页中能代表图像意义的关键词。
3.步骤(2)计算动态排名,计算查询关键词与预取的代表图像意义的关键词的相似度,获得动态排名。
4.步骤(3)采用推理网络模型整合静态和动态排名,获得最终的图像排名,将图像按相似度由高到低返回给用户。
本发明与背景技术相比,具有的有益的效果是该方法包含静态排名和动态排名部分。其中静态排名主要考虑图像所在网页的一些信息,如基于链接分析的网页的重要程度,基于图像点击率及网页所在网站的类型等等信息来确定一张图像的重要程度。动态排名动态计算用户查询与图像的相似度。最后采用推理网络模型有效地整合静、动态排名,将图像按相似度由高到低返回给用户。该方法较现有的方法具有更佳的性能和查准率。
首先,该方法较现有方法考虑了更多的因素来确定图像的重要程度,具有更高的查准率。另外,该方法的静态排名部分可以预先计算好,具有更佳的性能。同时,采用推理网络模型,可以有效整合静、动态排名,将满足用户需求的图像返回给用户。


附图为根据本发明优选实施例的推理网络模型的示意图。
具体实施例方式
本发明实施的关键有三点静态排名的计算、动态排名的计算和静、动态排名的整合,所述的图像搜索引擎中的排名方法包括以下步骤(1)图像搜索引擎根据每张图像所在网页的信息及该图像的特点预先计算好每张图像的重要程度,即静态排名;(2)图像搜索引擎根据实时的用户查询请求,计算查询与图像所在网页的相似度,即动态排名;(3)整合静、动态排名,将图像按相似度由高到低返回给用户。
在上述步骤(1)计算静态排名部分,考虑图像所在网页的重要程度,优选地,考虑包括链接分析、网页图像所在网站类型、图像点击率等能决定网页的重要程度的信息。采用下面的公式计算静态排名P(Ij)=kpr×PR(dj)+ktype×TYPE(dj)+khit×WH(Ij) (1)其中P(Ij)代表图像Ij的静态排名,PR(dj)表示图像Ij所在网页dj的基于链接分析的重要程度值,TYPE(dj)代表图像Ij所在网站的类型,WH(Ij)代表图像Ij的点击率。kpr、ktype、khit分别代表链接分析、网页图像所在网站类型、图像点击率三项的权重,且kpr+ktype+khit=1(2)目前较成熟的链接分析方法由Google提出的PageRank算法和IBM提出的HITS算法,优选地,可以采用类PageRank算法计算基于链接分析的网页的重要程度PR(dj)。这里考虑网站的类型,将网站的类型分为若干类,对于专业提供的图像的网站认为其提供的图片的质量较高,即获得较高的TYPE(dj)值。
图像Ij的点击率WH(Ij)的计算考虑该图像在搜索返回结果中的第几页被点击,因为越在搜索结果的后面的几页被用户点击可能性较低,这类点击将获得较高的排名。另外,考虑到新的图像刚被索引时,没有被用户点击的机会,这类图像将获得一个缺省的WH(Ij)值。
在上述步骤(2)计算动态排名前,搜索引擎预先从网页中的关键标签及图像的上下文中提取文本。关键标签包括如超级链接标签A、网页标题标签TITLE、代表图像的IMG标签及其ALT属性、网页的元信息标签META以及网页中图像的上下文的一些文本。获得这些文本后,采用依存句法分析技术提取这些文本的主干部分,获得主干后,再采用命名实体识别技术提取文本中的命名实体,以提高描述图像关键词的准确率。
采用推理网络模型来整合静态排名和动态排名,如附图所示为一个推理网络模型。其中最顶层I1,...,Ij...,In代表图像搜索引擎搜集的所有图像,中间层的k1,k2,...,ki,...,kt代表图像搜索引擎包含的所有关键词,q代表用户的查询。采用如下公式获得最终的排名P(q,Ij)=Σ∀KP(q|K)×P(K|Ij)×P(Ij)...(3)]]>其中P(q,Ij)代表查询q和图像Ij的相似度,P(Ij)代表图像Ij的静态排名有公式(1)获得。公式(3)是附图1的展开,P(Ij)是推理网络模型的先验概率,P(K|Ij)表示给定图像Ij出现关键词的条件概率,P(q|K)表示给定关键词出现查询q的条件概率。K是关键词的t维向量,即K=(k1,k2,...,kt),其中k1,k2,...,kt是与关键词k1,k2,...,ki,...,kt对应的随机变量。
具体计算时,将公式(3)展开,如下 查询q是t维向量K的一个实例,qi对应t维向量K的第i个随机变量。idfi代表关键词ki的逆文档频率(inverse document frequency)。fi,j代表关键词ki在图像Ij所在网页中提取关键词组中的词频。
计算出查询q同图像的相似度后,按照相似度由高到低返回给用户。
上述具体实施方式
用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
权利要求
1.一种图像搜索引擎中的排名方法,其特征在于1)图像搜索引擎根据每张图像所在网页的信息及该图像的特点预先计算好每张图像的重要程度,即静态排名;2)图像搜索引擎根据实时的用户查询请求,计算查询与图像所在网页的相似度,即动态排名;3)整合静、动态排名,将图像按相似度由高到低返回给用户。
2.根据权利要求1所述的一种图像搜索引擎中的排名方法,其特征在于步骤(1)计算静态排名,考虑图像所在网页的重要程度,考虑包括链接分析、网页图像所在网站类型、图像点击率能决定网页的重要程度的信息。
3.根据权利要求1所述的一种图像搜索引擎中的排名方法,其特征在于步骤(2)计算动态排名前,预先从网页中的关键标签及图像的上下文中提取文本,并采用命名实体识别技术和依存句法技术提取网页中能代表图像意义的关键词。
4.根据权利要求1所述的一种图像搜索引擎中的排名方法,其特征在于步骤(2)计算动态排名时,计算查询关键词与预取的代表图像意义的关键词的相似度,获得动态排名。
5.根据权利要求1所述的一种图像搜索引擎中的排名方法,其特征在于步骤(3)采用推理网络模型整合静态和动态排名,获得最终的图像排名,将图像按相似度由高到低返回给用户。
全文摘要
本发明公开了一种图像搜索引擎中的排名方法。本发明的方法包含静态排名和动态排名部分。其中静态排名主要考虑图像所在网页的一些信息,如基于链接分析的网页的重要程度,基于图像点击率及网页所在网站的类型等等信息来确定一张图像的重要程度。动态排名动态计算用户查询与图像的相似度。整合静、动态排名,将图像按相似度由高到低返回给用户。该方法较现有的方法具有更佳的性能和查准率。
文档编号G06F17/30GK1924855SQ200610053449
公开日2007年3月7日 申请日期2006年9月18日 优先权日2006年9月18日
发明者卜佳俊, 陈纯, 刘康苗, 陈伟, 周纯, 张利军 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1