一种上下文信息处理方法及装置的制造方法_2

文档序号:9787519阅读:来源:国知局
准确性,在抓取用户数据的同时,还可以抓取该用户数据 对应的上下文信息。举例来说,针对用户A点击观看网页上的视频A,用户数据可体现为观看 视频A,该用户数据对应的上下文信息可体现为:时间为20: 30、地点为北京、设备类型为 pad、视频播放来源为优酷、联网方式为wifi连接。上述示例中包括时间、地点、设备类型、视 频播放来源、联网方式5个维度的上下文信息。
[0043] 需要说明的是,除了用户数据和上下文信息之外,还可抓取用户A对视频A的评分 值。举例来说,评分值可以为用户A观看视频A后打出的分数,如1~5分中用户A点击了 3分, 则该用户对视频A的评分值即为3分。或者,评分值还可以为用户A对视频A的喜爱程度,如喜 欢表示1分、不喜欢表示0分,若用户A点击了喜欢,则该用户对视频A的评分值即为1分。本发 明实施例对评分值的具体设定方式、抓取评分值的方式等均不做具体限定,可由实际应用 情况而定。
[0044] 综上,针对用户A点击观看网页上的视频A,便可获得如下一组信息:用户A-视频 A-20: 30-北京一 pad-优酷一 wifi连接一评分值为3,针对该组信息可以简化理解为:用 户user-物品item-多维度上下文信息Contextn-评分值value,其中,η表示上下文信息 的维度数目。
[0045] 按照上述过程,还可获取用户A在全天其他时间段观看视频的信息,以及其他用户 在全天观看视频的信息。举例来说,除上述用户A观看视频A抓取到的一组信息之外,还抓取 到用户B观看视频A的一组信息:用户B-视频A-20:10-沈阳一 pad-优酷一 wif i连接一评 分值为4,用户C观看视频A的一组信息:用户C 一视频A-20:15-北京一 phone-优酷一 wifi 连接一评分值为5,等等,此处不再其他举例说明。
[0046] 上述示例中,通过抓取大量用户观看视频的信息,便可得到一个5维度的上下文信 息,且每个维度的上下文信息中包括很多向量。举例来说,时间维度可定义为Cl,且包括n cl 个时间向量;地点维度可定义为C2,且包括nC2个地点向量;以此类推,设备类型、视频播放来 源、联网方式可依次定义为C3、C4、C5,且每个维度对应包括的向量数目依次为nC3、nC4、n C5。
[0047]举例来说,每个维度上下文信息中向量的划分粒度可以为最小粒度;或者,还可以 根据物品,确定每个维度上下文信息中向量的划分粒度。举例来说,如果物品为随时间维度 变化较慢的类型,例如对于服饰类物品的购买行为分析,可将时间维度的向量粒度划分为 Iday;如果物品为随时间维度变化较快的类型,例如对于视频物品的观看行为,可将时间维 度的向量粒度划分为30min,等等。通常,向量粒度越细,所含向量数目越多,越有助于通过 聚类分析找到向量的客观分组,但计算量也会随之增大,对此,可结合实际应用而定,本发 明实施例对向量粒度的划分方式可不做具体限定。
[0048]本发明方案旨在通过处理,将多维度上下文信息降阶为单维度上下文信息,有助 于简化基于本发明方案进行个性化推荐的过程。
[0049] 基于此,可先对每个维度的上下文信息进行分组处理,找到各维度下的向量的合 理分组。具体地,可以计算各维度上下文信息的两两向量之间的紧密程度,并根据该紧密程 度实现向量分组。举例来说,两两向量之间的紧密程度可以体现为向量间的相似度,通常, 相似度取值越大表示两个向量越相近;或者,两两向量之间的紧密程度还可以体现为向量 间的距离,通常,距离取值越小表示两个向量越相近。
[0050] 若以向量间的相似度来表示紧密程度,则可通过线性回归的方式进行聚类分析, 获得向量组。
[0051] 若以向量间的距离来表示紧密程度,则可通过以下方式进行向量分组:利用物品 在任两个向量下的评分值进行欧式距离计算,获得所述任两个向量之间的距离;利用所述 任两个向量之间的距离,通过聚类分析,将该维度上下文信息包括的各个向量划分到不同 向量组。举例来说,可通过K-means、K_medoids等方式实现聚类分析,本发明实施例对此可 不做具体限定。
[0052]以时间维度为例,可以获得不同用户针对物品1在时间向量1下的评分值1、不同用 户针对物品1在时间向量2下的评分值2,然后对这两个时间向量下的评分值进行欧式距离 计算,获得时间向量1和时间向量2之间的距离。以此类推,便可得到时间维度下任两个时间 向量之间的距离,再通过聚类分析,将距离较近的向量划分到一个向量组中。作为一种示 例,可以采用皮尔森相关系数,计算向量间的距离r,以时间向量为例,可体现为下述公式。
[0054]其中,N表示评分值的数目;X1表示时间向量1下的评分值;又表示时间向量1下的平 均评分值;yi表示时间向量2下的评分值;歹表示时间向量2下的平均评分值。
[0055]本发明实施例中,物品1在时间向量1下的评分值1可以理解为,在抓取到的user- item一contextn一value中,忽略其他维度的上下文信息,将value作为时间维度的评分值, 艮P,user-item-contexttime-value。
[0056]举例来说,时间维度以Ih为向量粒度,针对在20:00~21:00抓取到的用户观看视 频A时的信息、在21:00~22:00抓取到的用户观看视频A时的信息,可得到下表所示数据。
[0058] 则时间向量T1与T2之间的紧密程度r:
[0060] 综上,便获得了Tl与T2之间的紧密程度r = 0.866。
[0061]上文仅以时间向量的紧密程度为例,对计算过程进行了解释说明,结合实际应用, 还可参照上述方式计算获得其他维度的向量紧密程度,此处不再举例说明。
[0062]另外,本发明实施例中,距离较近可以理解为两个向量之间的距离不超过预设距 离值。可选地,可以结合应用情况,设定所述预设距离值,并在聚类分析过程中,依据该预设 距离值进行向量分组;或者,可以结合应用情况,设定指定向量组数目,并在聚类分析过程 中,依据指定向量组数目和计算出的两两向量间的距离,确定一个合适的预设距离值,进而 实现向量分组,本发明实施例对此可不做具体限定。
[0063] 举例来说,若时间维度的向量划分粒度为lh,经由上述聚类分析过程后,可能将时 间向量8:00~9:00、11:00~13:00、17:00~18:00划分到一个向量组中,表示这些时间段内 用户的行为习惯较为相似,可进行聚类合并。对此我们可以理解为,上述时间段属于非工作 时间,用户行为趋向一致。相比人为将时间维度划分为上午、中午、下午、晚上的分组方式, 本发明方案得到的分组,更能客观准确的反映用户行为习惯,基于对用户行为习惯的准确 把握,使得在本发明方案基础上进行的个性化推荐的准确性也会有所提高。
[0064] 如此,还可针对地点、设备类型、视频播放来源、联网方式这4个维度的上下文信 息,进行向量分组,具体可参照上文介绍,此处不再详述。举例来说,时间维度聚类分组后得 到K ci个向量组,地点、设备类型、视频播放来源、联网方式这4个维度聚类分组后依次得到 以2、以 3、以4、1^个向量组。通常,聚类分析得到的向量组数目要少于该维度上下文信息所包 括的向量数目。
[0065]需要说明的是,关于通过聚类分析将
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1