个性化趋势图像搜索建议的制作方法_3

文档序号:9769194阅读:来源:国知局
索查询的基 础。
[0044] 框222表示候选图像生成模块,该模块具有用于对处理单元202编程W生成代表趋 势图像捜索查询的候选图像的逻辑。更具体而言,模块222可针对个性化趋势图像捜索查询 中的每一个标识多个候选图像。例如,如果特定棒球运动员的名字被标识为个性化趋势图 像捜索查询,则该棒球运动员的图像可被标识为候选图像。
[0045] 框224-般性地示出代表性图像选择模块,该模块具有用于对处理单元202编程W 将候选图像的一子集(例如一个候选图像)选择为代表性图像W在用户的客户端设备120上 呈现给所标识的用户的逻辑。代表性图像可基于相应候选图像的多个属性选择。例如,代表 性图像可基于其与捜索查询的相关性(所述相关性可作为用户点击该图像的次数)和/或基 于其视觉一致性来选择。在至少一个实施例中,该选择进一步基于该图像的突发性。一般而 言,突发性描述了该图像的趋势性且可将该图像的点击的加速或增加纳入考虑。下面更详 细描述了一种用于计算突发性的方法。在一些示例中,模块224可包括候选图像打分模块, 该模块具有对处理单元202编程W生成每个图像的得分的逻辑,所述得分可W是从图像的 相关性、视觉一致性、突发性和/或其它特征中的一者或多者得到的综合得分。代表性图像 可被选择W最佳地促进用户对趋势捜索的原因的理解。即,代表性图像可因其传达图像捜 索查询所隐含的事件的能力而被选择。
[0046] 框226表示输出模块,该模块具有对设备200的处理单元202编程W导致代表性图 像被呈现到输入/输出接口 210和/或网络接口 212的逻辑。
[0047] 总线228可操作地将计算机可读介质204连接到处理单元202,总线234可W是总线 112并且在一些实例中其可包括系统总线、数据总线、地址总线、PCI总线、迷你 PCI总线W及 任何各种本地、外围和/或独立总线中的一个或多个。
[0048] 图3是描述了个性化趋势图像捜索查询框架216可执行来促进图像捜索查询建议 的过程的示例架构300的框图。架构300的各个部分可经由离线处理和/或经由查询时处理 来完成。在一些示例中,个性化趋势图像捜索建议框架116将执行所有处理,无论离线还是 查询时。在其它实现中,架构300的部分或全部可在设备120处执行。
[0049] 架构300包括在302接收用户标识信息。用户标识信息包括唯一标识用户122或被 用户122用来经由浏览器132访问(诸)分布式计算资源的设备120的任何信息。例如,(诸)设 备120中的每一个可具有唯一标识,在该设备使用浏览器132时查明该唯一标识。用户标识 信息可构成例如设备120标识。在一些实现中,用户标识信息可构成关于用户122的身份的 信息。例如,使用(诸)设备120的用户可登录到浏览器或W其它方式提供标识信息,该标识 信息可被(诸)分布式计算资源102使用。出于个性化趋势图像捜索建议框架116的目的,如 将在下面更详细地描述的,用户标识信息将所标识的用户与捜索查询相关联。如本文使用 的,"所标识的用户"可指代用户或设备120。
[0050] 架构300包括对历史图像捜索查询数据304上的操作,该数据可被存储在数据存储 206中或别处。在实验中,捜索查询数据304包括来自商业图像捜索引擎的大规模捜索日志 (在两周中具有2100万用户和4100万查询)。捜索查询数据304-般包括至少用户捜索查询、 做出该查询的用户的标识、W及与用户捜索查询相关联的结果。在一些实现中,捜索查询数 据304还包括与捜索查询相关联的点击信息。
[0051 ]在框306,架构300接收图像捜索查询数据304,且在308架构300可标识趋势图像捜 索查询。图像捜索查询一般因为其频率的近期增加而被标识为趋势性的。在至少一个实现 中,趋势图像捜索查询的标识可包括仅标识特定时间段上预定数量的最频繁捜索。在一些 实现中,确定特定数量的最频繁捜索,且针对运些最频繁捜索中的每一个计算一度量(在此 处在一些实例中被称为"BuzzScore)。"随后,具有最高BuzzScore的那些频繁捜索被标识为 趋势图像捜索查询。在实验中,10000个最频繁的捜索被标识且BuzzScore被针对那10000个 捜索中的每一个确定。同样在那些实验中,具有100个最高BuzzScore的那些捜索查询被标 识为趋势图像捜索查询。
[0化2] 在一些实现中,BuzzScore可使用等式(1)计算:
[0054] 其中P(qj I Qd)是查询q庙日期d的给定查询集Qd中的可能性。等式(1)采用加权总 和来聚集若干天内的信息中的所有差异。W此方式,在308标识趋势图像捜索查询可检测在 一时刻(例如,在该时刻)具有剧烈提升的流行度的捜索。在一些实现中,可使用最大差异, 良Pmax{P(qk|Qd)-P(qj|Qs)},尽管运种方法不能将在考虑下的时间框架中更近期获得其流 行度的那些捜索查询与在该时间框架中更早具有流行度中的尖峰的查询进行区分。在实验 中,加权总和方法比最大差异方法执行得更好。
[0055] 为了在308标识趋势图像捜索查询,架构300还可选择代表具有类似语义的查询组 的代表捜索。例如,在框306对BuzzScore的计算可进一步采用一般化计数概念。在一般化计 数概念中,如果第二查询屯2是第一查询的子串,则帖给出QW的一般化计数。所W,例如, 对"总统己拉克奥己马"的捜索提供了对捜索查询"己拉克奥己马"的一般化计数。在等式 (1)中计算的BuzzScore从而可如等式(2)所示地被修改:
[0056] BuzzScore'(Qj)=BuzzScore X log(l+v(qj,d)+v*(qj,d)) (2)
[0057] 其中v(w,d)是在日期d期间查询^的计数,而/(w,d)是在日期d期间查询q撕一 般化计数。趋势图像捜索查询可被标识为具有最高BuzzScore'的查询的数量,或具有高于 阔值得分的BuzZScore '的那些查询的数量。
[005引架构300进一步包括个性化趋势图像捜索查询310。简言之,310表示确定在308确 定的趋势图像捜索中的哪些捜索是所标识用户最感兴趣的。架构300可在302接收关于用户 的信息,并确定该信息和趋势图像捜索查询之间的关系。例如,根据该信息可学习到:该用 户对"芭蕾"和"美国政治"感兴趣,且310将确定与运些主题有关的趋势图像捜索查询。
[0059]在一些实现中,310将使用来自图像捜索查询数据304的信息来个性化趋势图像捜 索查询。来自图像捜索查询数据304的运种信息可包括所标识用户的捜索历史。然而,每个 个体用户的捜索日志数据经常是稀缺的,且从而可提供关于用户的非常有限的信息。相应 地,架构300可利用关于所标识用户之外的用户的捜索历史信息。更具体而言,步骤310可标 识与所标识用户所做的查询相同或类似的捜索查询。那些用户所做的其它捜索随后可被用 作标识所标识用户可能感兴趣的其它主题的起点。与那些其它捜索相关联的点击数据可建 议哪些查询是所述用户特别感兴趣的,而没有被点击的那些查询可能是不感兴趣的,尽管 对那些查询的兴趣未被明确地知晓。从而,点击信息主要仅提供了肯定数据(positive data)(即,仅被点击的查询),运类似于单类协同过滤(OCCF)问题。在一些情况下,OCCF问题 已使用矩阵因子分解解决。在使用本文描述的技术的实验中,也可使用矩阵因子分解,因为 建议目标是趋势捜索,趋势捜索的本性就是在短时间段期间由许多用户发出。没有稀缺性 问题。在至少一个实施例中,权重归一化矩阵因子分解可如等式(3)中所示的那样公式化:
(3)
[0061]其中R是点击矩阵,Ri,J = I指示用户Ui发出了训练集中的查询qj,而(u〇,qj)被称为 肯定对(positivepai;r)。Ri,j = 0指示用户Ui没有发出训练集中的查询qj,而(Ui,qj)被称为 否定对(negative pair)。A由交叉验证来决定,且在实验中被设置为0.0IdU =[山'^Ui… Ul IUl I ]是用户矩阵,其中Ui是用户Ui的兴趣,作为Z向量。Z是潜在主题的数量。 Q* =姐…q)…9|悼||]是趋势捜索矩阵,其中q}是趋势捜索的的潜在属性且是ZXl向 量。Qt是趋势捜索集,且W是控制肯定对的重要性的权重矩阵,由等式(4)限定:
[00创 W"二{m/J % 二 0 (4)
[0063] 其中W,;应当小于1,因为肯定(明对更显著,W避免失衡问题。
[0064] 在此示例中,仅趋势捜索被用作目标矩阵。因为趋势捜索的数量与用户的数量相 比极小,所W结果可能受损。在一些实例中,通过考虑所有捜索查询(即,趋势和非趋势捜索 查询)来理解用户和趋势捜索之间的潜在关系可能导致更好的结果。例如,gjt,Qt和Qt可分别 被Qj,Q,和Q取代,其中当Qe是公共捜索集时Q=Qt U Qe,且吊S隶示公共捜索查询。然而,使用 公共捜索集忽视了趋势捜索的重要性,趋势捜索是建议目标。具体而言,将每个公共捜索与 每个趋势捜索相同地对待可能牺牲趋势捜索的准确性,运是因为与趋势捜索相比公共捜索 大得多的数量。
[0065]使用"趋势知瞄'的加权归一化矩阵因子分解技术(TA-WRMF),本公开的各方面利 用关于公共捜索的信息而不牺牲趋势捜索的准确性。此技术计入肯定和否定对之间的量化 失衡W及趋势和公共捜索之间的量化失衡。具体而言,TA-WRMF技术可将加权矩阵W定义为 等式(5):
巧)
[0067]其中wp〉i增加肯定对的重要性,而Wn<i控制否定对的重要性。W,;;仅被应用到否定 对。在此构造下,包含(^的对是更重要的/肯定对。
[006引从上文可W领会,向所有捜索查询应用TA-WRMF技术是很大的任务,且其执行时间 可能不可接受。相应地,在一些示例中,可通过采用面向用户的采样策略来逼近W/ji.来减少 复杂性。具体而言,否定采样对WfS的数量与用户Ui的肯定对Wf的数量成比例。其中m是否 定采样对与肯定采样对的比(iV/i '-'/,Vf),如等式(6)中所示:

[0070]其中Wf是Ui的否定对的数量。现在复杂性被大大降低,且等式(3)可使用随机梯 度下降来求解W获得提升的效率。在此示例中,迭代公式如等式(7)和(8)所示:
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1