优质图片搜索资源的收录方法及装置的制造方法

文档序号:8412615阅读:288来源:国知局
优质图片搜索资源的收录方法及装置的制造方法
【技术领域】
[0001] 本发明涉及互联网搜索领域,特别是涉及一种优质图片搜索资源的收录方法及装 置。
【背景技术】
[0002] 随着网络技术的日益发展,互联网与用户生活越来越紧密。生活中,大量用户通过 搜索引擎进行信息搜索。搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用 户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个 个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了 然的信息地图,供用户随时查阅。
[0003] 系统一方面提供时效性数据,另外一方面,它提供更多的数据给线上的引擎排序 (Rank)。但无论是哪种,最主要的目的是提升搜索结果的质量和相关性。特别的,在抓取 资源一定的情况下,如何抓取那些更优质,更能和引擎现有数据互补的数据才是最重要的。 即,如何更有效的进行数据的收录,特别是对于包含信息量较大的、信息不容易识别的图片 搜索资源。特别的,对于垂直搜索,其数据来源往往来源与网页搜索已经抓取的网页,这些 数据已经存在了,这就能够通过数据挖掘进行搜索资源的收录。
[0004] 实施时,由于线上的相关性评估是以Query为维度的,用户看到的结果(例如图 片)也是以Query为维度的。因此图片资源收录从本质上也是为了提高某个Query搜索结 果的相关性,对此,相关技术并未提供具体的方法。

【发明内容】

[0005] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的优质图片搜索资源的收录装置和相应的优质图片搜索资源的收录方法。
[0006] 基于本发明的一个方面,提供了一种优质图片搜索资源的收录方法,包括:
[0007] 针对Query进行搜索得到原始图片搜索资源;
[0008] 根据预设规则对所述原始图片搜索资源进行处理,筛选出其中针对Query的优质 图片搜索资源;
[0009] 收录所述优质图片搜索资源,将其记录为该Query对应的图片搜索资源。
[0010] 可选地,根据预设规则对所述原始图片搜索资源进行处理,筛选出其中针对Query 的优质搜索资源,包括:
[0011] 计算各图片搜索资源为优质搜索资源的概率P(Image = Good|Query);
[0012] 将计算得到的各图片搜索资源的P (Image = Good|Query)分别与预设的优质资源 阈值进行比较;
[0013] 筛选出比较结果为P(Image = GoodlQuery)大于所述优质资源阈值的搜索资源, 作为针对Query的优质搜索资源。
[0014] 可选地,在原始图片搜索资源中,计算各图片搜索资源为优质资源的概率Pdmage =Good I Query),包括:
[0015] 对所述原始图片搜索资源中的图片进行遍历;
[0016] 遍历到某张图片时,获取该图片的属性信息;
[0017] 根据该图片的属性信息计算该图的P(Image = Good|Query)。
[0018] 可选地,根据预设规则对所述原始搜索资源进行处理,筛选出其中针对Query的 优质搜索资源,包括:
[0019] 在原始图片搜索资源中,筛选出其中的优质图片搜索资源;
[0020] 在所述筛选出的优质图片搜索资源中,进一步筛选出针对Query的部分优质图片 搜索资源;
[0021] 在部分优质图片搜索资源中,计算各优质图片搜索资源的Pdmage = Good I Query);
[0022] 将计算得到的各优质图片搜索资源的P (Image = Good I Query)分别与预设的优质 资源阈值进行比较;
[0023] 筛选出比较结果为P(Image = Good|Query)大于所述优质资源阈值的搜索资源, 作为针对Query的优质搜索资源。
[0024] 可选地,在所述筛选出的优质图片搜索资源中,进一步筛选出针对Query的部分 优质图片搜索资源,包括:
[0025] 通过浏览行为获取各图片的文本描述信息;
[0026] 依次计算Query与各图片的文本描述信息的相似度;
[0027] 根据计算得到的相似度进一步筛选出针对Query的部分优质图片搜索资源。
[0028] 可选地,若某一图片的文本描述信息包括Query,则该图片为针对Query的部分优 质图片搜索资源。
[0029] 可选地,在原始图片搜索资源中,计算各图片搜索资源为优质搜索资源的概率 P (Image = Good I Query),包括:
[0030] 在搜索历史记录中查询包含所述原始图片搜索资源的网页;
[0031] 在查询到的网页中筛选出满足P(Page = GoodlQuery)大于预设网页阈值的网 页;
[0032] 计算筛选出的网页上的各图片的P(Image = Good|Query)。
[0033] 可选地,在查询到的网页中筛选出满足P(Page = Good|Query)大于预设网页阈值 的网页,包括:
[0034] 在查询到的网页中筛选出Query对应的网页;
[0035] 遍历Query对应的网页;
[0036] 遍历到某个网页时,获取该网页的属性信息;
[0037] 根据该网页的属性信息判断该网页是否满足P(Page = Good|Query)大于预设网 页阈值。
[0038] 可选地,根据如下步骤确定P (Page = Good|Query):
[0039] 在搜索日志中查找匿名用户在一定时间段时针对各网页的第一点击行为;
[0040] 在搜索日志中查找匿名用户在一定时间段时针对Query的第二点击行为;
[0041] 比较所述第一点击行为和所述第二点击行为的相似度;
[0042] 根据两者的相似度确定P (Page = Good I Query)。
[0043] 可选地,比较所述第一点击行为和所述第二点击行为的相似度,包括:根据点击时 间和/或点击次数比较所述第一点击行为和所述第二点击行为的相似度。
[0044] 可选地,根据如下步骤确定P (Page = GoodlQuery):
[0045] 通过浏览行为获取各网页的文本描述信息;
[0046] 依次计算Query与各网页的文本描述信息的相似度;
[0047] 根据计算得到的相似度确定P (Page = Good I Query)。
[0048] 可选地,所述各网页的文本描述信息包括下列至少之一:各网页的标题title、正 文、摘要。
[0049] 基于本发明的另一个方面,本发明还提供了一种优质图片搜索资源的收录装置, 包括:
[0050] 搜索模块,适于针对Query进行搜索得到原始图片搜索资源;
[0051] 筛选模块,适于根据预设规则对所述原始图片搜索资源进行处理,筛选出其中针 对Query的优质图片搜索资源;
[0052] 收录模块,适于收录所述优质图片搜索资源,将其记录为该Query对应的图片搜 索资源。
[0053] 可选地,所述筛选模块还适于:
[0054] 在原始图片搜索资源中,计算各图片搜索资源为优质搜索资源的概率Pdmage = Good I Query);
[0055] 将计算得到的各图片搜索资源的P (Image = Good I Query)分别与预设的优质资源 阈值进行比较;
[0056] 筛选出比较结果为P(Image = Good|Query)大于所述优质资源阈值的搜索资源, 作为针对Query的优质搜索资源。
[0057] 可选地,所述筛选模块还适于:
[0058] 对所述原始图片搜索资源中的图片进行遍历;
[0059] 遍历到某张图片时,获取该图片的属性信息;
[0060] 根据该图片的属性信息计算该图的P(Image = Good|Query)。
[0061 ] 可选地,所述筛选模块还适于:
[0062] 在原始图片搜索资源中,筛选出其中的优质图片搜索资源;
[0063] 在所述筛选出的优质图片搜索资源中,进一步筛选出针对Query的部分优质图片 搜索资源;
[0064] 在部分优质图片搜索资源中,计算各优质图片搜索资源的Pdmage = Good I Query);
[0065] 将计算得到的各优质图片搜索资源的P (Image = Good I Query)分别与预设的优质 资源阈值进行比较;
[0066] 筛选出比较结果为P(Image = Good|Query)大于所述优质资源阈值的搜索资源, 作为针对Query的优质搜索资源。
[0067] 可选地,所述筛选模块还适于:
[006
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1