信息查询方法和装置的制作方法

文档序号:6568254阅读:130来源:国知局
专利名称:信息查询方法和装置的制作方法
信息查询方法和装置技术领域
本申请涉及互联网搜索技术领域,具体而言,涉及一种信息查询方法和装置。
背景技术
目前,随着互联网技术的发展,电子商务网站越来越多地被商家使用。通常,卖家 通过客户端在电子商务网站上发布产品信息,电子商务网站的后台服务器对这些产品发布 信息进行存储。当买家在电子商务网站上搜索所需的产品发布信息时,其通过后台服务器 在电子商务网站上提供的入口输入查询词,其中,该查询词包含查询的核心词(或称,关键 词)。后台服务器将查询词与之前存储的产品发布信息进行匹配,若匹配成功,则返回相应 的产品发布信息。
具体地,现有技术中后台服务器将查询词与之前存储的产品发布信息进行匹配主 要包括以下步骤
SI,根据查询词(Query)中的核心词进行扩展,得到与该核心词相关的查询词,例 如多个同义词或近义词;
S2,将上述核心词、多个同义词以及近义词分别与之前存储的产品发布信息进行 匹配,若当前的产品发布信息包括上述核心词、多个同义词或近义词之一,则将该当前的产 品发布信息作为匹配成功的查询结果进行返回。
然而,这种查询方式存在一定的缺点,具体如下
I)召回率低对Query进行扩展时,由于准确率、性能等的限制,从而导致可扩展 出的与Query相关的查询词的数量有限,从而导致在匹配时,能够匹配出的信息较少,从而 导致匹配成功的结果数较少,召回率较低;
2)完全依赖Query本身的特征在对Query进行扩展时,完全依赖Query本身的 特征,没有考虑到产品发布信息(或称为文档)的特征,从而导致Query扩展数量较少,扩 展的准确率也较难保证;
3) Query的扩展需要考虑原始Query与扩展Query的相关性,还要考虑原始Query 与文档、扩展Query与文档之间的相关性,这使得相关性的计算过于复杂,计算效率低下, 减慢了搜索查询的速度,且由于进行相关性计算时存在多重计算环节,如果其中一个环节 准确率较低时,就会导致最终计算的相关性不准确。发明内容
本申请的主要目的在于提供一种信息查询方法和装置,以至少解决现有的查询方 式中存在的匹配成功的结果数较少的问题。
根据本申请的一个方面,提供了一种信息查询方法,其包括获取查询词的类目点 击率和发布信息的类目点击率;根据查询词的类目点击率和发布信息的类目点击率计算查 询词与发布信息之间的相似度;当计算得到的相似度大于第一预定阈值时,将发布信息作 为匹配成功的查询结果进行返回。
获取查询词的类目点击率的步骤包括对查询词进行分词,得到一个或多个词语; 在类目点击率的历史统计信息中获取分词后得到的词语对应的类目点击率,其中,分词后得到的词语对应的类目点击率为分词后得到的词语组成的短串在对应的类目中的类目点击率;依次对分词后得到的词语执行以下步骤,其中,将正在执行以下步骤的词语称为当前词语若除当前词语之外的词语组成的短串在对应的类目中的类目点击率与分词后得到的词语对应的类目点击率之间的差值达到第二预定阈值,则将当前词语标记为核心词,否则, 将当前词语标记为非核心词;获取所有核心词构成的短串在对应的类目中的类目点击率作为查询词的类目点击率。
获取发布信息的类目点击率的步骤包括对发布信息进行分词,得到一个或多个核心词;在类目点击率的历史统计信息中获取分词后得到的核心词组成的短串在对应的类目中的类目点击率。
根据查询词的类目点击率和发布信息的类目点击率计算查询词与发布信息之间的相似度的步骤包括根据查询词的类目点击率和发布信息的类目点击率计算查询词与发布信息两者的类目点击分布之间的距离;根据距离所在的区间来计算查询词与发布信息之间的相似度。
根据查询词的类目点击率和发布信息的类目点击率计算查询词与发布信息两者的类目点击分布之间的距离的步骤包括
权利要求
1.ー种信息查询方法,其特征在于,包括 获取查询词的类目点击率和发布信息的类目点击率; 根据所述查询词的类目点击率和所述发布信息的类目点击率计算所述查询词与所述发布信息之间的相似度; 当计算得到的相似度大于第一预定阈值时,将所述发布信息作为匹配成功的查询结果进行返回。
2.根据权利要求1所述的方法,其特征在于,获取所述查询词的类目点击率的步骤包括 对所述查询词进行分词,得到一个或多个词语; 在类目点击率的历史统计信息中获取所述分词后得到的词语对应的类目点击率,其中,所述分词后得到的词语对应的类目点击率为所述分词后得到的词语组成的短串在对应的类目中的类目点击率; 依次对所述分词后得到的词语执行以下步骤,其中,将正在执行以下步骤的词语称为当前词语若除当前词语之外的词语组成的短串在对应的类目中的类目点击率与所述分词后得到的词语对应的类目点击率之间的差值达到第二预定阈值,则将所述当前词语标记为核心词,否则,将所述当前词语标记为非核心词; 获取所有核心词构成的短串在对应的类目中的类目点击率作为所述查询词的类目点击率。
3.根据权利要求1所述的方法,其特征在于,获取所述发布信息的类目点击率的步骤包括 对所述发布信息进行分词,得到ー个或多个核心词; 在类目点击率的历史统计信息中获取所述分词后得到的核心词组成的短串在对应的类目中的类目点击率。
4.根据权利要求1所述的方法,其特征在于,根据所述查询词的类目点击率和所述发布信息的类目点击率计算所述查询词与所述发布信息之间的相似度的步骤包括 根据所述查询词的类目点击率和所述发布信息的类目点击率计算所述查询词与所述发布信息两者的类目点击分布之间的距离; 根据所述距离所在的区间来计算所述查询词与所述发布信息之间的相似度。
5.根据权利要求4所述的方法,其特征在干,根据所述查询词的类目点击率和所述发布信息的类目点击率计算所述查询词与所述发布信息两者的类目点击分布之间的距离的步骤包括 DiQp,Dp)--^PQ(w).Xo^ 其中,Qp为所述查询词的类目点击分布,Dp为所述发布信息的类目点击分布,D(Qp, Dp)为所述查询词与所述发布信息两者的类目点击分布之间的距离; PQ(w)为所述查询词中包括的核心词组成的短串在第w个类目中的类目点击率; PD(w)为所述发布信息中包括的核心词组成的短串在第w个类目中的类目点击率; W为类目的序号,W = 1,2,…M,其中,M为类目点击率的历史统计信息中所有类目的个数。
6.根据权利要求1所述的方法,其特征在于,将所述发布信息作为匹配成功的查询结果进行返回的步骤包括 按照所述相似度从高到低的顺序返回多个匹配成功的查询結果。
7.ー种信息查询装置,其特征在于,包括 获取单元,用于获取查询词的类目点击率和发布信息的类目点击率; 计算单元,用于根据所述查询词的类目点击率和所述发布信息的类目点击率计算所述查询词与所述发布信息之间的相似度; 传输单元,用于在计算得到的相似度大于第一预定阈值时,将所述发布信息作为匹配成功的查询结果进行返回。
8.根据权利要求7所述的装置,其特征在于,所述获取単元包括 第一分词模块,用于对所述查询词进行分词,得到ー个或多个词语; 第一获取模块,用于在类目点击率的历史统计信息中获取所述分词后得到的词语对应的类目点击率,其中,所述分词后得到的词语对应的类目点击率为所述分词后得到的词语组成的短串在对应的类目中的类目点击率; 修正模块,用于依次对所述分词后得到的词语执行以下步骤,其中,将正在执行以下步骤的词语称为当前词语若除当前词语之外的词语组成的短串在对应的类目中的类目点击率与所述分词后得到的词语对应的类目点击率之间的差值达到第二预定阈值,则将所述当前词语标记为核心词,否则,将所述当前词语标记为非核心词; 第二获取模块,用于获取所有核心词构成的短串在对应的类目中的类目点击率作为所述查询词的类目点击率。
9.根据权利要求7所述的装置,其特征在于,所述获取単元包括 第二分词模块,用于对所述发布信息进行分词,得到ー个或多个核心词; 第三获取模块,用于在类目点击率的历史统计信息中获取所述分词后得到的核心词组成的短串在对应的类目中的类目点击率。
10.根据权利要求7所述的装置,其特征在于,所述计算単元包括 第一计算模块,用于根据所述查询词的类目点击率和所述发布信息的类目点击率计算所述查询词与所述发布信息两者的类目点击分布之间的距离; 第二计算模块,用于根据所述距离所在的区间来计算所述查询词与所述发布信息之间的相似度。
11.根据权利要求10所述的装置,其特征在于,所述第一计算模块用于通过以下公式根据所述查询词的类目点击率和所述发布信息的类目点击率计算所述查询词与所述发布信息两者的类目点击分布之间的距离 D{Q^ = ^{Wy 其中,Qp为所述查询词的类目点击分布,Dp为所述发布信息的类目点击分布,D(Qp, Dp)为所述查询词与所述发布信息两者的类目点击分布之间的距离; PQ(w)为所述查询词中包括的核心词组成的短串在第w个类目中的类目点击率; PD(w)为所述发布信息中包括的核心词组成的短串在第w个类目中的类目点击率; W为类目的序号,W = 1,2,…M,其中,M为类目点击率的历史统计信息中所有类目的个数。
全文摘要
本发明公开了一种信息查询方法和装置,其中,该方法包括获取查询词的类目点击率和发布信息的类目点击率;根据查询词的类目点击率和发布信息的类目点击率计算查询词与发布信息之间的相似度;当计算得到的相似度大于第一预定阈值时,将发布信息作为匹配成功的查询结果进行返回。本发明解决了现有的查询方式中存在的匹配成功的结果数较少的问题,在保证准确率的同时,能够提高召回率,即给予用户更多的返回结果。
文档编号G06F17/30GK103034665SQ20111030526
公开日2013年4月10日 申请日期2011年10月10日 优先权日2011年10月10日
发明者韩小梅, 宋超, 杨松, 陈超 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1