搜索系统和相应方法_3

文档序号:8909170阅读:来源:国知局
可W输出关于某本最近被拍成由该 演员参演的电影的书的建议,作为内容建议。
[0062] 有很多任意的潜在证据源,其中的一些例子包括:
[0063] ?用户的注意力的当前焦点(焦点证据55)
[0064] ?此焦点位于的更广泛的语境(语境证据54)
[0065] ?给定的用户所感兴趣的内容类型的证据(内容类型证据52),例如,电影、书籍、 艺术等。
[0066] ?具体设及给定的用户的证据,例如W前生成的语言,点击历史记录或社会背景/ 人口统计(用户证据53)
[0067] 如下述所解释的,已知每个证据源,关联引擎10生成针对各段内容的估计。如后 所述,对于各段内容,关联引擎10用于结合对于证据源50的估计,W生成针对该段内容的 总体估计。关联引擎10用于将总体估计排序,W输出因此作为内容建议30的k个最可能 的内容或代表。为此,关联引擎10可W用于处理每个独立的证据源,即用户的点击历史记 录独立于文本输入,其也独立于内容类型52等。
[0068] 一般模型
[0069] 正如所讨论的那样,关联引擎10用于按多段内容与给定的证据50之间存在相关 性的似然性对多段内容进行排序。为了实现该一点,关联引擎10可W用于通过一系列具有 W下形式的点估计,来生成内容数据库20中的多段内容的排序。
[0070] P(CIE)
[ocm] 其中C是内容数据库20中的一段内容,E是一组所有被观察的证据50."C"是"C 是相关的"(Cisrelevant)的简称。
[0072] 使用贝叶斯定理扩展等式1,结果如下:
[0073]
[0074] 该一扩展产生了S个不同的项,用于使关联引擎独立地估计,W确定内容C与该 组所有被观察的证据50,E之间存在相关性的似然性。
[007引 ??(0):内容先验
[007引 ??巧);证据先验
[0077] ?P巧IC);内容条件似然性
[0078] 如果只需要所述多段内容与给定的观察到的证据的相关性排序(而不是概率估 计),关联引擎10则不需要估计证据先验,P巧)。
[0079] 内容先验
[0080]内容相关性的先验概率,P(c),是在缺乏设及到单个用户或环境的任何具体证据 时,对于一段内容将会相关的似然性的度量。可W通过关联引擎10对于与该段内容相关联 的所有数据源(例如,网页)进行一般使用模式的综合分析,对该先验概率进行建模。关于 一种该样的建模方法介绍如下。
[0081] 各种度量与用户同多个数据源的交互频率相关联,和/或与一段内容的感知欢迎 度相关联,其中所述多个数据源与该段内容相关;:
[0082] ?导入链接的数量,所述导入链接指向包含该内容的代表的页面;
[0083] ?数据源视图的数量,其中该数据源与该内容相关联;
[0084] ?用户评论或评级的数量,所述用户评论或评级设及与该内容相关联的数据源。
[0085] 可W假设用户与数据源的交互由随机变量Interact生成,其中该交互的域为C X(0, 1](其中C是该组的所有数据源,(0, 1]是大于0且小于或等于1的实数集,而X是笛 卡尔乘积)。可W假设随机变量Interact的取样的独立同分布(i.i.d)序列对所有单独 用户与所有数据源之间的交互进行建模,即每个随机变量具有与其它随机变量相同的概率 分布,而所有的随机变量都是相互独立的。与每个交互相关联的实值(从该里开始称为"权 重")表示交互的"积极性"。例如"喜欢"或"投票赞成"将是非常积极的,页面浏览会比较 中性,"投票反对"将被赋予非常低的权重。该种对任何交互的正权的分配假设了任何交互 都增加了一段内容的相关性的先验概率,即使该交互对内容表达了消极情绪。该种加权方 案将被探索式地确定,但是应当被选择,该样使得用户交互的平均权重为0. 5。该种约束将 有助于确保权重的分布在所有的数据源间具有可比性,其中先验数据源将被单独计算。
[0086] 交互事件的观察到的序列(InteractJ可W被用来生成内容相关性的先验。
[0087] 对于各段内容C,关联引擎10对对应于该段内容的数据源的权重求和,W获得总 分。最后,通过关联引擎10对该些和进行归一化,W获得概率分布,所述概率分布可W用来 对相关性的先验概率进行建模。数学形式如下:
[008引 P(c是相关的)=E{权重(Interact;)I数据源(Interact;) =c}
[0089] 如上所述,可W在所有数据源上归一化特定的数据源的交互。可替代地,如果需要 的话,可W在所有的数据源上归一化属于该数据源类型的数据源的交互,例如通过与所有 You化be视频的所有交互对与一个化uTube视频的交互归一化,或通过与所有的维基百科 网页的所有交互对与一个维基百科网页的交互归一化。如果用户W依赖于数据源类型的不 同的方式进行交互,则上述方法可能是合适的。可替代地,可W在交互的类型上归一化一个 数据源的交互,例如,在所有数据源的所有点击历史记录上对一个特定网页的点击历史记 录归一化。
[0090] 关联引擎10可W用于平滑化先验分布,W补偿用W生成模型的交互数据的缺乏。 其中,该种平滑化处理的方式如下;向所述域中的各数据源添加固定数目的权重为0.5的 交互。该种平滑化也可W用来降低先验内容的影响,或人为偏向某些数据源。
[0091] 还存在一些信息源,该些信息源可W是能够归于先验内容的很好的候选。例如,新 近度(最近与一段内容相关联的数据源产生了多久)可能是重要的,特别是在最新内容特 另时目关的情况下,例如如果信息需要是爆炸性新闻。先验内容还可w包含关于一个特定数 据源有多"可信"的信息,即相对来自稍微不出名的博客内容,来自英国广播公司炬BC)的 内容在先验性上更相关。
[009引证据先验
[0093] 因为证据先验P巧)相对于目标内容C是恒定的,它不影响排序结果,并且,如果内 容的排序是系统所需要的全部,则证据先验可被关联引擎10忽略。因此,关联引擎10是否 用于估计先验证据是可选的,该取决于是否需要真实概率估计,例如,比较不同系统的查询 结果。
[0094] 关联引擎10可W使用许多方法来近似化该分布;例如,如果考虑中的证据是语 言,关联引擎10可W考虑从通用语言分布中提取证据概率,所述通用语言分布涵盖了所有 内容,如大型非针对性的文本数据语料库。虽然在实践中,该在计算上难W实现,并不会产 生稳定的估计。
[0095] 关联引擎10可W采用的另一种方法是,计算证据先验,作为所有单独段内容的边 缘化。可W通过选取表示最相关实体的多段内容的子集来表示总分布,实现对于所述证据 先验的近似化处理。该可能导致对于真实的证据先验实施较差的近似化处理,但可W对返 回值的范围进行归一化,并在大多数情况下在系统查询中间产生某种一致性。
[0096] 该种方法导致的总体估计具体如下:
[0097]
[0098] 优选地,系统用于通过查找被认为与查询最相关的多段内容的子集Ck(大小为k), 近似化上述表达式。下面详细描述了执行过程。该些k段内容可W随后由关联引擎10进 行排序,W实现对内容的最终排序。k的精确值将取决于系统可用的计算能力W及期望的查 询响应时间。
[0099] 因为前k个的检索旨在找到所有与该查询可W有一定相关性的内容的子集,所W 绝大部分概率质量可W被分配到该前k个检索。因此,如上所述,关联引擎10可W用于归 一化前k个检索,W获得证据的先验概率的估计。
[0100] 证据的条件似然性
[0101] 为了计算观察到的证据E的证据似然性P巧|c,M。),已知一段特定的内容C在内容 特定的统计模型M。下是相关的,优选地,关联引擎10用于将证据50,E分成非重叠的、相互 独立的集合[el,…,en],所述集合[el,…,en]从某一分布中独立生成,且该集合的生成W 目标段的内容CW及相关联的内容特定的统计模型M。为条件。该种独立性假设可W写成:
[0102]
[0103] 因此,该证据似然性由关联引擎10计算,作为独立的证据源的概率估计的乘 积。因此,关联引擎优选地用于分别计算单个证据的估计。
[0104] 与每个证据源相关联的各段内容都有一个统计模型M,且单个证据源的相对影响 可W由关联引擎10通过按分布平滑化超参数来控制,所述超参数允许系统指定由各证据 源产生的信息量的范围。该可W被解释为各证据源中的"信任度"或置信度。一个证据源 的积极平滑因子(在极限情况下是均匀分布的,在该种情况下,证据源基本上被忽略)相 对于其它证据源,将减少一个证据源的概率估计之间的差别,所述一个证据源取决于与多 段不同的内容相关联的数据源。随着平滑化的增加,分布变得更加平坦,且证据源对概率 P巧|c,Me)的整体影响减小。
[0105] 具体的似然性估计
[0106] 不同证据源50按不同的数据类型分类。例如,焦点证据55采用语言文本数据的 形式,而用户证据53则由语言数据(即用户查询)和行为数据(例如浏览与一段特定内容 相关联的数据源和点击图表等)的结合建模而成。在每一种情况下,我们将描述每个证据 源的数据类型,W及由关联引擎10所使用的用来生成似然性估计的建模技术。
[0107] 语境证据54和焦点证据55
[010引举一个例子,用户可W查看主要由诸如新闻文章的文本构成网页,在该种情况下, 焦点文本55可W构成当前正在查看的段落或句子,并且语境54可W是该页面上的剩余文 本。语境的使用提供了一种途径来在用户正在观看的更广泛的主题内为聚焦内容的结果打 下基础。再举一个例子,如果用户制定了表达信息需要的查询(如某些沿着"我想在我的手 机上打字更快"的线索),那么该个查询可W被视为焦点证据54,而此时可W不存在语境证 据55。
[0109] 语境证据54和焦点证据55的证据源可分别通过e。和ef表示。在模型M下做出 的观察文本与给定内容之间存在相关性的概率估计为P(etIC,M)。其中,假设一个潜在的语 言分布既负责生成与内容数据库20中的一段给定内容相关联
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1