一种信息检索方法及相关系统和装置的制作方法

文档序号:6438551阅读:184来源:国知局
专利名称:一种信息检索方法及相关系统和装置的制作方法
技术领域
本申请涉及互联网领域,尤其涉及一种信息检索方法及相关系统和装置。
背景技术
在互联网领域中,对于电子商务、搜索引擎等类型的网站来说,信息搜索引擎系统能够根据用户输入的检索词,判断用户的查询意图,并在特定位置上向用户展现需要投放的相关信息。准确预估信息在给定的检索词上的点击率,对用户体验、信息投放方的收益、以及网站的盈利都有重要影响。用户可能会在一次搜索会话中点击某些信息,信息搜索引擎系统会记录各次信息展示结果以及用户点击情况。用户一般会根据信息相关性进行点击,因此历史点击数据反映了用户对信息展示结果的相关性的隐性评价。由于历史点击数据的数量巨大,且获取成本较低,因此对于改进信息展示结果具有重要的应用价值。用户的点击行为会受到信息展示位置的影响。有研究表明,尽管相关性较差,但是在信息展示结果中,靠前位置展示的信息相比靠后位置展示的信息,一般能够获得更多的用户点击。上述影响可以称为位置偏置(Position Bias)。位置偏置的存在,增大了利用点击数据准确获得信息相关性的难度。近年来,业界提出了各种点击模型,以消除位置偏置对基于历史点击数据进行信息相关性分析的影响。点击模型是基于历史点击数据统计用户对信息展示结果的点击行为的概率模型。这些点击模型都基于一个最基本的前提假设:查看假设(ExaminationHypothesis),即如果用户查看了某一位置上的信息,那么其点击该信息的概率为一个仅依赖于检索词和该信息的定值。根据这一假设,靠后位置展示的信息,其点击率较小是由于其被用户查看的概率较小。代表性的点击模型包括查看模型(Examination Model)、用户浏览模型(User Browsing Model,UBM)和贝叶斯浏览模型(Baysian Browsing Model,BBM)。查看模型(Examination Model)假设用户查看某一位置上的信息的概率依赖于该位置;UBM进而假设用户查看某一位置上的信息的概率不仅依赖于该位置,还依赖于同一信息展示结果中前一次的点击位置。由于相关性和查看事件的耦合,使得在UBM中信息相关性的后验分布不可解,只能采用迭代算法(例如坐标下降法)估计UBM参数,获得信息相关性的后验分布。BBM在UBM中引入信息相关性的先验分布,利用查看、点击和相关性之间特定的条件独立性推导出信息相关性的后验分布的封闭公式,使得BBM训练可以只遍历一遍训练数据,大大提闻了训练效率。在点击模型中另一常用的假设是瀑布浏览前提假设(Cascade Hypothesis),即用户按照由前到后顺序查看信息展示结果,其点击某一位置上的信息的概率依赖于同一展示展不结果中排在该信息之前的其他信息。代表性的点击模型包括点击链模型(Click ChainModel,CCM)和动态贝叶斯模型(Dynamic Bayesian Model,DBN)。在CCM中,假设某个信息展示位置上的信息被用户查看了,则该信息被用户点击的概率为其相关性,而用户继续查看下一条信息的概率为某一特定概率;如果该信息未被用户点击,则用户继续查看下一条信息的概率为另一依赖于其相关性的特定概率。在DBN中,将信息相关性区分为其对用户的吸引度和用户对其的满意度。用户是否点击信息依赖于其对用户的吸引度,而用户是否继续查看下一条信息依赖于用户对其的满意度。现有的各种点击模型存在如下技术问题:基于瀑布浏览前提假设(Cascade Hypothesis)的点击模型,例如CCM、DBN等,假设用户按照由前到后顺序查看信息展示结果。但是实际情况下,用户往往采用跳跃式的浏览方式,使得瀑布浏览前提假设的适用性减弱,进而影响点击模型的有效性。不基于瀑布浏览前提假设(Cascade Hypothesis)的点击模型,例如UBM, BBM等,假设用户查看某一位置上信息的概率仅与同一信息展示结果中前一次的点击位置相关。该假设虽然可以刻画用户采用跳跃式的浏览方式,但是无法刻画用户按照由前到后顺序查看的浏览方式。可见,现有的各种点击模型均无法准确刻画用户的浏览方式,使得点击模型的有效性受到影响,从而导致信息展示结果的准确率和召回率较低。准确率(Precision Rate)是指检索出的相关信息数与检索出的信息总数的比率,旨在衡量信息搜索引擎系统的查准率;召回率(Recall Rate)是指检索出的相关信息数与信息库中所有的相关信息数的比率,旨在衡量信息搜索引擎系统的查全率。

发明内容
本申请实施例提供一种信息检索方法及信息搜索引擎系统,用以提升信息展示结果的准确率和召回率。本申请实施例还相应提供一种信息排序装置。本申请实施例提供的信息检索方法,包括:根据用户发起的携带检索词的信息检索请求,从信息库中查询符合所述检索词的信息集合;根据比较浏览模型CBM确定所述信息集合中各信息对应的用户点击反馈特征值,所述CBM为刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型,CBM参数利用历史点击数据根据点击模型通过训练获得;基于所述信息集合中各信息对应的用户点击反馈特征值进行信息的排序,并将排序后得到的信息展示结果展现给用户。本申请实施例提供的信息搜索引擎系统,包括信息展示装置、信息库和信息排序装置,其中:所述信息展示装置,用于根据用户发起的携带检索词的信息检索请求,从所述信息库中查询符合所述检索词的信息集合,以及将所述信息排序装置排序后得到的信息展示结果展现给用户;所述信息库,用于存储待投放的信息;所述信息排序装置,用于根据比较浏览模型CBM确定所述信息集合中各信息对应的用户点击反馈特征值,基于所述信息集合中各信息对应的用户点击反馈特征值进行信息的排序,得到信息展示结果,所述CBM为刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型,CBM参数利用历史点击数据根据点击模型通过训练获得。
本申请实施例提供的信息排序装置,包括:确定单元,用于根据比较浏览模型CBM确定需要向用户展现的信息集合中各信息对应的用户点击反馈特征值,所述CBM为刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型,CBM参数利用历史点击数据根据点击模型通过训练获得;排序单元,用于基于所述信息集合中各信息对应的用户点击反馈特征值进行信息的排序,得到信息展示结果。本申请实施例提供的信息检索方法及相关系统和装置,提供刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型CBM,该点击模型能够准确刻画用户实际采用的比较复杂的浏览方式,消除位置偏置对信息的点击率预估的影响,有效统计出信息的用户点击反馈作为进行信息相关性分析的依据,从而提升信息展示结果的准确率和召回率。本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。


此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例中CBM的图模型表示示意图;图2为本申请实施例中信息搜索引擎系统框图;图3为本申请实施例中信息检索方法流程图;图4为本申请实施例中信息排序装置框图。
具体实施例方式本申请实施例提供一种信息检索方法及相关系统和装置,通过提供能够准确刻画用户的浏览方式的点击模型,消除位置偏置对信息的点击率预估的影响,有效统计出信息的用户点击反馈作为进行信息相关性分析的依据,从而提升信息展示结果的准确率和召回率。以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本申请发明人通过研究发现,用户在浏览信息展示结果时,对信息的浏览方式并非简单的按照由前到后顺序查看,而是采用相对比较复杂的浏览方式,在查看某个位置上的信息时,用户会同时查看该位置的前方和/或后方的信息,进行比较后再进行点击。基于此,本申请实施例中提供一种新的点击模型,能够克服现有的各种点击模型无法准确刻画用户的浏览方式的缺点,合理刻画用户采用的上述相对比较复杂的浏览方式,消除位置偏置对信息的点击率预估的影响。本申请文件中,将该新的点击模型称为比较浏览模型(Comparative Browsing Model, CBM), CBM为刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型;将根据历史点击数据统计出的消除位置偏置影响的信息的点击率称为信息的用户点击反馈,用户点击反馈是信息的点击率预估的重要数据源。下面从点击模型描述、点击模型推理、点击模型参数估计、点击模型训练等方面,对本申请实施例提供的点击模型CBM进行详细说明。对于一个给定的检索词,令U1, I2, I3,..., IJ表示该检索词对应的搜索会话,其中N为搜索会话的数目,每次搜索会话中向用户展现M条信息。假设信息库中存储有D条待投放的信息,对任一信息j,使用&表示其相关性的随机变量,其中j为信息库中信息的唯一标识。对任一搜索会话Ik,定义映射Φ,:如果信息j在第i个位置上展示,则Φ,α)=j。为了表达方便,定义贫= (O。1、CBM 描述点击模型CBM基于如下前提假设:(I)用户按照由前到后顺序查看信息展示结果;(2)用户查看某一位置i上的信息的概率,依赖于:a、在位置i之前用户点击过的最下方一条信息的位置,即位置i之前的最后点击位置;和,b、在位置i之后用户点击过的最上方一条信息的位置,即位置i之后的最前点击位置。

(3)如果用户查看了某条信息j,则其点击信息j的概率仅依赖于该信息本身。点击模型CBM的图模型表示请参见图1,其中,C为表示用户点击的随机变量,E为表示用户查看的随机变量,S为表示信息相关性的随机变量,箭头表示随机变量之间的依赖关系。点击模型CBM的概率公式,请参见公式[I]:P (E1 = I) = β ο,!, + ,-1P (Ci = 11 Ei = O, Si) = OP(Ci = IjEi = LSi)=Si[I]P[Ei — 11 C1,...,C^1,C.+1,...,Cm ) —其中,β为CBM参数,表示针对位置i而言,给定其他位置上用户的点击行为之后,用户查看位置i的概率;P表示位置i之前的最后点击位置,d = 1-p表示当前位置与其之前的最后点击位置之间的距离,q表示位置i之后的最前点击位置,b = q-1表示当前位置与其之后的最前点击位置之间的距离。所有可能的组合τ = (p,d,q,b)可以表示为集合了,即τ表示历史点击数据中一种在不同信息展示位置上的点击分布情况,了表示历史点击数据中所有点击分布情况的全集,如公式[2]所示:
权利要求
1.一种信息检索方法,其特征在于,包括: 根据用户发起的携带检索词的信息检索请求,从信息库中查询符合所述检索词的信息集合; 根据比较浏览模型CBM确定所述信息集合中各信息对应的用户点击反馈特征值,所述CBM为刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型,CBM参数利用历史点击数据根据点击模型通过训练获得; 基于所述信息集合中各信息对应的用户点击反馈特征值进行信息的排序,并将排序后得到的信息展示结果展现给用户。
2.如权利要求1所述的方法,其特征在于,所述根据比较浏览模型CBM确定所述信息集合中各信息对应的用户点击反馈特征值,具体通过公式a=(4' Iciw y'.实现,μ ^表示信息j对应的用户点击反馈特征值,Rj为表示信息相关性的随机变量,N表示历史点击数据中搜索会话的数目,C1:N表示历史点击数据中N次搜索会话得到的各信息展示结果的用户点击情况;其中:
3.如权利要求2所述的方法,其特征在于,所述基于信息集合中各信息对应的用户点击反馈特征值进行信息的排序,具体包括: 按照用户点击反馈特征值从高到低的顺序,对所述信息集合中所有信息进行排序;或者, 从所述信息集合中筛选出用户点击反馈特征值不低于设定的第一阈值的信息,并按照用户点击反馈特征值从高到低的顺序,对筛选出的信息进行排序。
4.如权利要求2所述的方法,其特征在于,所述基于信息集合中各信息对应的用户点击反馈特征值进行信息的排序,具体包括: 根据信息集合中各信息对应的用户点击反馈特征值、其他质量评价特征值、以及每个质量评价特征所占的权重,确定所述信息集合中各信息的质量评价值; 按照质量评价值从高到低的顺序,对所述信息集合中所有信息进行排序;或者,从所述信息集合中筛选出质量评价值不低于设定的第二阈值的信息,并按照质量评价值从高到低的顺序,对筛选出的信息进行排序。
5.如权利要求4所述的方法,其特征在于,用户点击反馈特征值所占的权重为所述用户点击反馈特征值的置信度,具体通过公式
6.如权利要求1所述的方法,其特征在于,所述CBM参数由分布式任务调度管理系统采用并行的训练方式获得。
7.一种信息搜索引擎系统,其特征在于,包括信息展示装置、信息库和信息排序装置,其中: 所述信息展示装置,用于根据用户发起的携带检索词的信息检索请求,从所述信息库中查询符合所述检索词的信息集合,以及将所述信息排序装置排序后得到的信息展示结果展现给用户; 所述信息库,用于存储待投放的信息; 所述信息排序装置,用于根据比较浏览模型CBM确定所述信息集合中各信息对应的用户点击反馈特征值,基于所述信息集合中各信息对应的用户点击反馈特征值进行信息的排序,得到信息展示结果,所述CBM为刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型,CBM参数利用历史点击数据根据点击模型通过训练获得。
8.一种信息排序装置,其特征在于,包括: 确定单元,用于根据比较浏览模型CBM确定需要向用户展现的信息集合中各信息对应的用户点击反馈特征值,所述CBM为刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型,CBM参数利用历史点击数据根据点击模型通过训练获得; 排序单元,用于基于所述信息集合中各信息对应的用户点击反馈特征值进行信息的排序,得到信息展示结果。
9.如权利要求8所述的装置,其特征在于,所述确定单元,具体用于通过公式
10.如权利要求9所述的装置,其特征在于,所述排序单元,具体用于按照用户点击反馈特征值从高到低的顺序,对所述信息集合中所有信息进行排序,得到信息展示结果;或者,从所述信息集合中筛选出用户点击反馈特征值不低于设定的第一阈值的信息,并按照用户点击反馈特征值从高到低的顺序,对筛选出的信息进行排序,得到信息展示结果。
11.如权利要求9所述的装置,其特征在于,所述排序单元,具体包括: 获取子单元,用于获取信息集合中各信息对应的其他质量评价特征值、以及每个质量评价特征所占的权重; 确定子单元,用于根据信息集合中各信息对应的用户点击反馈特征值、其他质量评价特征值、以及每个质量评价特征所占的权重,确定所述信息集合中各信息的质量评价值;排序子单元,用于按照质量评价值从高到低的顺序,对所述信息集合中所有信息进行排序,得到信息展示结果;或者,从所述信息集合中筛选出质量评价值不低于设定的第二阈值的信息,并按照质量评价值从高到低的顺序,对筛选出的信息进行排序,得到信息展示结果O
12.如权利要求11所述的装置,其特征在于, 所述获取子单元,具体用于通过公式IICw实现用户点击反馈特征值所占的权重的获取,
全文摘要
本申请公开了一种信息检索方法及相关系统和装置,用以提升信息展示结果的准确率和召回率。所述信息检索方法,包括根据用户发起的携带检索词的信息检索请求,从信息库中查询符合所述检索词的信息集合;根据CBM确定所述信息集合中各信息对应的用户点击反馈特征值,所述CBM为刻画用户按照由前到后顺序查看且比较邻近位置上信息的浏览形式的点击模型,CBM参数利用历史点击数据根据点击模型通过训练获得;基于所述信息集合中各信息对应的用户点击反馈特征值进行信息的排序,并将排序后得到的信息展示结果展现给用户。
文档编号G06F17/30GK103116582SQ20111036330
公开日2013年5月22日 申请日期2011年11月16日 优先权日2011年11月16日
发明者刘凯鹏 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1