一种确定图片的主题词的方法及装置制造方法

文档序号:6535481阅读:135来源:国知局
一种确定图片的主题词的方法及装置制造方法
【专利摘要】本发明公开一种确定图片的主题词的方法及装置,属于互联网【技术领域】。所述方法包括:查询与输入的待识别图片对应的多张相似图片;查找query点击日志,获取所述多张相似图片对应的多个查询query以及各查询query分别对应的所述相似图片的点击记录;基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词。根据本发明,能够方便快捷地确定待识别图片的主题词,并且所确定的主题词的准确性也较高。
【专利说明】一种确定图片的主题词的方法及装置
【技术领域】
[0001]本发明涉及互联网【技术领域】,具体涉及一种确定图片的主题词的方法及装置。
【背景技术】
[0002]传统图片搜索引擎的实现方式是根据用户输入的查询关键词(query,描述性文本)匹配图片关键词(与图片关联度较高的文本),从图片数据库中搜索出与所述查询关键词相关的图片,其图片搜索功能在本质上还是文本搜索。而以图搜图系统或者称为反向图片搜索引擎(reverse image search engine)是一种以图片作为搜索源的技术,其使用图片本身代替查询关键词来搜索其他图片。用户通过在反向图片搜索引擎中上传图片或者输入图片的URL地址,根据图片内容进行匹配,可以搜索到互联网上与输入的待识别图片相似的其他图片资源。
[0003]在反向图片搜索引擎的搜索结果页中通常会展示输入的待识别图片的缩略图、待识别图片的相关信息以及与待识别图片对应的多张相似图片。其中,所述待识别图片的相关信息通常包括待识别图片的尺寸和待识别图片的主题词,所述主题词通常展示在所述缩略图的旁边或者下方。
[0004]在现有反向图片搜索引擎的具体实现中,待识别图片的主题词通常是根据相似图片的相关信息确定,例如,根据图片的上传者或者网站的经营者对相似图片进行的标注(对图片的文字说明)来确定。现有实现方式的缺点至少包括:如果匹配到多张相似图片,而这些相似图片的标注往往不同,甚至相差甚远,则根据标注信息来确定待识别图片的主题词存在困难,并且,所确定出的主题词的准确性也较低。

【发明内容】

[0005]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的确定图片的主题词的方法及装置。
[0006]根据本发明的一个方面,提供了一种确定图片的主题词的方法,包括:
[0007]查询与输入的待识别图片对应的多张相似图片;
[0008]查找query点击日志,获取所述多张相似图片对应的多个查询query以及各查询query分别对应的所述相似图片的点击记录;
[0009]基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词。
[0010]可选地,所述基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词,包括:
[0011]根据点击记录确定查询query中各分词的点击得分;
[0012]从所有分词或者点击得分排名靠前的预定数目个分词中,提取点击得分大于预设的得分阈值的分词作为所述待识别图片的主题词。
[0013]可选地,所述点击记录包括查询query对应的所述相似图片的首次点击数和总点击数;
[0014]所述根据点击记录确定查询query中各分词的点击得分,包括:
[0015]将查询query对应的所述相似图片的首次点击数和总点击数进行加权求和,得到该查询query的置信度;
[0016]将查询query中各分词的贡献度与该查询query的置信度相乘,得到各分词在该查询query中的点击得分;
[0017]将各分词在所有查询query中的点击得分进行累加,将累加结果作为该分词的点击得分。
[0018]可选地,所述方法还包括:
[0019]从所述多个查询query中筛选出置信度大于预设的置信度阈值的查询query作为可信任查询query ;
[0020]统计各分词在所有可信任查询query中的出现次数;
[0021]将各分词对应的出现次数与可信任查询query的总数相除后,将相除结果与预设的基础权重相加,得到该分词的可信任权重;
[0022]将各分词对应的累加结果与可信任权重相乘,将相乘结果作为该分词的点击得分。
[0023]可选地,所述方法还包括:将提取到的所述待识别图片的主题词进行展示。
[0024]根据本发明的另一个方面,提供了一种确定图片的主题词的装置,包括:
[0025]图片数据库,适于存储通过网络抓取到的图片数据;
[0026]查询器,适于从所述图片数据库中查询与输入的待识别图片对应的多张相似图片;
[0027]日志存储器,适于存储query点击日志;
[0028]日志分析器,适于查找所述query点击日志,获取所述多张相似图片对应的多个查询query以及各查询query分别对应的所述相似图片的点击记录;
[0029]主题词提取器,适于基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词。
[0030]可选地,所述主题词提取器包括:
[0031]点击得分获取单元,适于根据点击记录确定查询query中各分词的点击得分;
[0032]主题词提取单元,适于从所有分词或者点击得分排名靠前的预定数目个分词中,提取点击得分大于预设的得分阈值的分词作为所述待识别图片的主题词。
[0033]可选地,所述点击记录包括查询query对应的所述相似图片的首次点击数和总点击数;
[0034]所述点击得分获取单元进一步适于:
[0035]将查询query对应的所述相似图片的首次点击数和总点击数进行加权求和,得到该查询query的置信度;
[0036]将查询query中各分词的贡献度与该查询query的置信度相乘,得到各分词在该查询query中的点击得分;
[0037]将各分词在所有查询query中的点击得分进行累加,将累加结果作为该分词的点击得分。[0038]可选地,所述装置还包括权重计算器,所述权重计算器适于:
[0039]从所述多个查询query中筛选出置信度大于预设的置信度阈值的查询query作为可信任查询query ;
[0040]统计各分词在所有可信任查询query中的出现次数;
[0041]将各分词对应的出现次数与可信任查询query的总数相除后,将相除结果与预设的基础权重相加,得到该分词的可信任权重;
[0042]所述点击得分获取单元进一步适于:
[0043]将各分词对应的累加结果与可信任权重相乘,将相乘结果作为该分词的点击得分。
[0044]可选地,所述装置还包括输出接口,适于将提取到的所述待识别图片的主题词进行展示。
[0045]与现有技术相比,本发明的有益技术效果如下:
[0046]用户在图片搜索引擎中输入查询关键词(query)来搜索图片,在返回的搜索结果中,用户点击的图片通常是较符合用户预期的,也就是与输入的查询关键词相关的图片,搜索结果中的图片被点击次数越多,说明查询关键词与被点击的图片的相关性也就越大。因此,本发明利用用户在图片搜索引擎中输入的查询关键词与在搜索结果中点击的图片之间的关系,能够方便快捷地确定用户在反向图片搜索引擎中所输入的待识别图片的主题词,并且所确定的主题词的准确性也较高。
[0047]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【专利附图】

【附图说明】
[0048]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0049]图1示出了根据本发明一个实施例的确定图片的主题词的方法流程图;
[0050]图2示出了根据本发明一个实施例的确定图片的主题词的装置结构图。
【具体实施方式】
[0051]图1示出了根据本发明一个实施例的确定图片的主题词的方法流程图。参照图1,所述方法可以包括:
[0052]步骤102,查询与输入的待识别图片对应的多张相似图片;
[0053]反向图片搜索引擎是一种以图片作为搜索源的技术,其使用图片本身代替查询关键词(query)来搜索其他图片。通过在反向图片搜索引擎的搜索框中上传待识别图片或者输入待识别图片的URL地址,反向图片搜索引擎根据待识别图片的内容与图片数据库中的图片进行匹配,可以搜索到互联网上与待识别图片相似的其他图片资源。其中,图片数据库中存储有通过网络抓取到的图片数据。
[0054]步骤104,查找query点击日志,获取所述多张相似图片对应的多个查询query以及各查询query分别对应的所述相似图片的点击记录;
[0055]在图片搜索引擎的搜索框中输入查询query来搜索图片时,在返回的搜索结果中可能会发生用户点击行为。用户的点击行为信息会被图片搜索引擎记录在query点击日志中,所述query点击日志可以由图片搜索引擎的日志存储器存储。具体地,所述query点击日志可以记录如下信息中的一个或多个:用户标识(例如用户名)、查询query、搜索结果、用户对搜索结果中各图片的点击行为。在一次搜索操作中,用户在搜索结果中点击了一张或者多张图片,则query点击日志中会记录用户首次点击的是哪张图片,因此,所述query点击日志中的点击记录还可以进一步区分为对图片的首次点击记录和非首次点击记录。
[0056]在本步骤中,可以以图片为单位,根据所述query点击日志进行统计,得到每张相似图片分别对应的查询query点击表,所述查询query点击表中包括查询query及对应的点击数,然后,对这些查询query点击表按照查询query进行汇总,就可以得到各查询query分别对应的点击数。其中,所述点击数还可以包括首次点击数和总点击数。
[0057]需要说明的是,点击数的计算还可以考虑用户的概念,即同一用户的多次重复点击只统计为一次点击。另外,用户输入的查询query还可能会存在一些问题,比如错别字、拼音等,所以还可以对查询query进行纠错,查询query的的纠错可以使用纠错表,通过查找比对纠错表找到与其对应的正确形式。最后利用纠错后的query及其首次点击数和总点击数生成图片的查询query点击表。
[0058]步骤106,基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词。
[0059]用户在图片搜索引擎中输入查询query来搜索图片,在返回的搜索结果中,用户点击的图片通常是较符合用户预期的,也就是与输入的查询query相关的图片,搜索结果中的图片被点击次数越多,说明查询query与被点击的图片的相关性也就越大。因此,本发明实施例利用用户在图片搜索引擎中输入的查询query与在搜索结果中点击的图片之间的关系,能够方便快捷地确定用户在反向图片搜索引擎中所输入的待识别图片的主题词,并且所确定的主题词的准确性也较高。
[0060]在一种实现方式中,所述基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词,可以包括:
[0061]步骤S12,根据点击记录确定查询query中各分词的点击得分;
[0062]首先,对所述多个查询query中的每个查询query分别进行分词处理,得到每个查询query分别对应的多个分词;然后,对于每个查询query,将该查询query对应的所述相似图片的点击数作为各分词在该查询query下的点击得分;最后,分别对各分词在所有查询query下的点击得分进行累加,得到各分词分别对应的最终点击得分。
[0063]步骤S14,从所有分词或者点击得分排名靠前的预定数目个分词中,提取点击得分大于预设的得分阈值的分词作为所述待识别图片的主题词。
[0064]分词的点击得分越高,说明该分词与待识别图片的相关性也越大,因此,可以将点击得分大于预设的得分阈值的分词作为所述待识别图片的主题词。另外,在分词的数量较多时,还可以先对分词的点击得分进行排序,从中获取点击得分排名靠前的预定数目个分词,然后,再从点击得分排名靠前的预定数目个分词中提取点击得分大于预设的得分阈值的分词作为所述待识别图片的主题词。其中,所述预设的得分阈值以及所述预定数目可以根据经验或者实验确定。
[0065]在另一种实现方式中,所述点击记录包括查询query对应的所述相似图片的首次点击数和总点击数,所述基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词,可以包括:
[0066]步骤S22,将查询query对应的所述相似图片的首次点击数和总点击数进行加权求和,得到该查询query的置信度;
[0067]如果不同用户在图片搜索引擎中输入相同的查询query,对搜索结果中的同一张图片都发生了点击行为,可以认为这个查询query与此图片的相关性很大。相反,如果搜索结果中的某一张图片点击次数较少,可以认为查询query与此图片的相关性较小。另外,同一查询query对应的图片点击结果中,用户首次点击的图片与非首次点击的图片的重要性也不同。首次点击的图片,说明更符合用户的搜索预期,也就是与查询query的相关性越大。所以,根据查询query对应的相似图片的首次点击数First_clicks和总点击数Total_clicks,可以计算获得此查询query的置信度,计算公式如下:
[0068]Confidencequery = Weightfirst X Fir st_c Ii cks+Weigh tnormal X Total_c licks
[0069]其中,Confidencequery为查询query的置信度,Weightfirst为首次点击数的权重,Weightnormal为总点击数的权重,Weightfiret大于Weightnmial,二者的具体取值可以根据经验或者实验确定。
[0070]步骤S24,将查询query中各分词的贡献度与该查询query的置信度相乘,得到各分词在该查询query中的点击得分;
[0071]查询query —般是由一个或多个分词组合而成,而图片主题词的产生也是以分词为单位分析产生的,所以就需要拆分计算查询query中各分词对应的点击得分。在计算分词对应的点击得分时 ,既需要考虑其所在查询query的置信度,还需要考虑分词的词性,词性不同,其表达主题的能力就不同。比如“高清柳岩图片”,用户想要看到的是柳岩的图片,而“高清”只是对中心词的辅助,并不能表达搜索结果的主要内容。所以不同词性的分词对于主题的贡献度不同,在分词的点击得分计算过程中权重也不同。单一查询query中分词的点击得分可以按照如下公式计算:
[0072]Wordquery = ConfidencequeryXWeightpart of speech
[0073]其中,Wordquery为查询query中某一分词的点击得分,Weightpart of speech为该分词对应的贡献度。其中,各分词的贡献度可以根据经验或者实验确定。
[0074]步骤S26,将各分词在所有查询query中的点击得分进行累加,将累加结果作为该分词的点击得分;
[0075]一张待识别图片对应多张相似图片,所述多张相似图片对应多个(N个)查询query,因此,可以按照如下公式计算各分词的点击得分:
【权利要求】
1.一种确定图片的主题词的方法,包括: 查询与输入的待识别图片对应的多张相似图片; 查找关键词query点击日志,获取所述多张相似图片对应的多个查询query以及各查询query分别对应的所述相似图片的点击记录; 基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词。
2.如权利要求1所述的方法,其中,所述基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词,包括: 根据点击记录确定查询query中各分词的点击得分; 从所有分词或者点击得分排名靠前的预定数目个分词中,提取点击得分大于预设的得分阈值的分词作为所述待识别图片的主题词。
3.如权利要求1或2所述的方法,其中,所述点击记录包括查询query对应的所述相似图片的首次点击数和总点击数; 所述根据点击记录确定查询query中各分词的点击得分,包括: 将查询query对应的所述相似图片的首次点击数和总点击数进行加权求和,得到该查询query的置信度; 将查询query中各分词的贡献度与该查询query的置信度相乘,得到各分词在该查询query中的点击得分; 将各分词在所有查询query中的点击得分进行累加,将累加结果作为该分词的点击得分。
4.如权利要求1-3任一项所述的方法,其中,还包括: 从所述多个查询query中筛选出置信度大于预设的置信度阈值的查询query作为可信任查询query ; 统计各分词在所有可信任查询query中的出现次数; 将各分词对应的出现次数与可信任查询query的总数相除后,将相除结果与预设的基础权重相加,得到该分词的可信任权重; 将各分词对应的累加结果与可信任权重相乘,将相乘结果作为该分词的点击得分。
5.如权利要求1至4中任一项所述的方法,其中,还包括:将提取到的所述待识别图片的主题词进行展示。
6.一种确定图片的主题词的装置,包括: 图片数据库,适于存储通过网络抓取到的图片数据; 查询器,适于从所述图片数据库中查询与输入的待识别图片对应的多张相似图片; 日志存储器,适于存储关键词query点击日志; 日志分析器,适于查找所述query点击日志,获取所述多张相似图片对应的多个查询query以及各查询query分别对应的所述相似图片的点击记录; 主题词提取器,适于基于所述多个查询query以及各自对应的所述相似图片的点击记录提取所述待识别图片的主题词。
7.如权利要求6所述的装置,其中,所述主题词提取器包括: 点击得分获取单元,适于根据点击记录确定查询query中各分词的点击得分;主题词提取单元,适于从所有分词或者点击得分排名靠前的预定数目个分词中,提取点击得分大于预设的得分阈值的分词作为所述待识别图片的主题词。
8.如权利要求6或7所述的装置,其中,所述点击记录包括查询query对应的所述相似图片的首次点击数和总点击数; 所述点击得分获取单元进一步适于: 将查询query对应的所述相似图片的首次点击数和总点击数进行加权求和,得到该查询query的置信度; 将查询query中各分词的贡献度与该查询query的置信度相乘,得到各分词在该查询query中的点击得分; 将各分词在所有查询query中的点击得分进行累加,将累加结果作为该分词的点击得分。
9.如权利要求6-8任一项所述的装置,其中,还包括权重计算器,所述权重计算器适于: 从所述多个查询query中筛选出置信度大于预设的置信度阈值的查询query作为可信任查询query ; 统计各分词在所有可信任查询query中的出现次数; 将各分词对应的出现次数与可信任查询query的总数相除后,将相除结果与预设的基础权重相加,得到该分词的可信任权重; 所述点击得分获取单元进一步适于: 将各分词对应的累加结果与可信任权重相乘,将相乘结果作为该分词的点击得分。
10. 如权利要求6至9中任一项所述的装置,其中,还包括输出接口,适于将提取到的所述待识别图片的主题词进行展示。
【文档编号】G06F17/30GK103744970SQ201410012403
【公开日】2014年4月23日 申请日期:2014年1月10日 优先权日:2014年1月10日
【发明者】陶哲, 薛红霞 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1