一种上下文信息处理方法及装置的制造方法_2

文档序号：9787519阅读：来源：国知局

准确性，在抓取用户数据的同时，还可以抓取该用户数据对应的上下文信息。举例来说，针对用户A点击观看网页上的视频A，用户数据可体现为观看视频A，该用户数据对应的上下文信息可体现为：时间为20: 30、地点为北京、设备类型为 pad、视频播放来源为优酷、联网方式为wifi连接。上述示例中包括时间、地点、设备类型、视频播放来源、联网方式5个维度的上下文信息。
[0043] 需要说明的是，除了用户数据和上下文信息之外，还可抓取用户A对视频A的评分值。举例来说，评分值可以为用户A观看视频A后打出的分数，如1~5分中用户A点击了 3分，则该用户对视频A的评分值即为3分。或者，评分值还可以为用户A对视频A的喜爱程度，如喜欢表示1分、不喜欢表示0分，若用户A点击了喜欢，则该用户对视频A的评分值即为1分。本发明实施例对评分值的具体设定方式、抓取评分值的方式等均不做具体限定，可由实际应用情况而定。
[0044] 综上，针对用户A点击观看网页上的视频A，便可获得如下一组信息：用户A-视频 A-20: 30-北京一 pad-优酷一 wifi连接一评分值为3,针对该组信息可以简化理解为：用户user-物品item-多维度上下文信息Contextn-评分值value，其中，η表示上下文信息的维度数目。
[0045] 按照上述过程，还可获取用户A在全天其他时间段观看视频的信息，以及其他用户在全天观看视频的信息。举例来说，除上述用户A观看视频A抓取到的一组信息之外，还抓取到用户B观看视频A的一组信息：用户B-视频A-20:10-沈阳一 pad-优酷一 wif i连接一评分值为4，用户C观看视频A的一组信息：用户C 一视频A-20:15-北京一 phone-优酷一 wifi 连接一评分值为5，等等，此处不再其他举例说明。
[0046] 上述示例中，通过抓取大量用户观看视频的信息，便可得到一个5维度的上下文信息，且每个维度的上下文信息中包括很多向量。举例来说，时间维度可定义为Cl，且包括n cl 个时间向量;地点维度可定义为C2,且包括nC2个地点向量；以此类推，设备类型、视频播放来源、联网方式可依次定义为C3、C4、C5，且每个维度对应包括的向量数目依次为nC3、nC4、n C5。
[0047]举例来说，每个维度上下文信息中向量的划分粒度可以为最小粒度;或者，还可以根据物品，确定每个维度上下文信息中向量的划分粒度。举例来说，如果物品为随时间维度变化较慢的类型，例如对于服饰类物品的购买行为分析，可将时间维度的向量粒度划分为 Iday;如果物品为随时间维度变化较快的类型，例如对于视频物品的观看行为，可将时间维度的向量粒度划分为30min，等等。通常，向量粒度越细，所含向量数目越多，越有助于通过聚类分析找到向量的客观分组，但计算量也会随之增大，对此，可结合实际应用而定，本发明实施例对向量粒度的划分方式可不做具体限定。
[0048]本发明方案旨在通过处理，将多维度上下文信息降阶为单维度上下文信息，有助于简化基于本发明方案进行个性化推荐的过程。
[0049] 基于此，可先对每个维度的上下文信息进行分组处理，找到各维度下的向量的合理分组。具体地，可以计算各维度上下文信息的两两向量之间的紧密程度，并根据该紧密程度实现向量分组。举例来说，两两向量之间的紧密程度可以体现为向量间的相似度，通常，相似度取值越大表示两个向量越相近;或者，两两向量之间的紧密程度还可以体现为向量间的距离，通常，距离取值越小表示两个向量越相近。
[0050] 若以向量间的相似度来表示紧密程度，则可通过线性回归的方式进行聚类分析，获得向量组。
[0051] 若以向量间的距离来表示紧密程度，则可通过以下方式进行向量分组：利用物品在任两个向量下的评分值进行欧式距离计算，获得所述任两个向量之间的距离;利用所述任两个向量之间的距离，通过聚类分析，将该维度上下文信息包括的各个向量划分到不同向量组。举例来说，可通过K-means、K_medoids等方式实现聚类分析，本发明实施例对此可不做具体限定。
[0052]以时间维度为例，可以获得不同用户针对物品1在时间向量1下的评分值1、不同用户针对物品1在时间向量2下的评分值2,然后对这两个时间向量下的评分值进行欧式距离计算，获得时间向量1和时间向量2之间的距离。以此类推，便可得到时间维度下任两个时间向量之间的距离，再通过聚类分析，将距离较近的向量划分到一个向量组中。作为一种示例，可以采用皮尔森相关系数，计算向量间的距离r，以时间向量为例，可体现为下述公式。
[0054]其中，N表示评分值的数目；X1表示时间向量1下的评分值；又表示时间向量1下的平均评分值;yi表示时间向量2下的评分值；歹表示时间向量2下的平均评分值。
[0055]本发明实施例中，物品1在时间向量1下的评分值1可以理解为，在抓取到的user- item一contextn一value中，忽略其他维度的上下文信息，将value作为时间维度的评分值，艮P，user-item-contexttime-value。
[0056]举例来说，时间维度以Ih为向量粒度，针对在20:00~21:00抓取到的用户观看视频A时的信息、在21:00~22:00抓取到的用户观看视频A时的信息，可得到下表所示数据。
[0058] 则时间向量T1与T2之间的紧密程度r:
[0060] 综上，便获得了Tl与T2之间的紧密程度r = 0.866。
[0061]上文仅以时间向量的紧密程度为例，对计算过程进行了解释说明，结合实际应用，还可参照上述方式计算获得其他维度的向量紧密程度，此处不再举例说明。
[0062]另外，本发明实施例中，距离较近可以理解为两个向量之间的距离不超过预设距离值。可选地，可以结合应用情况，设定所述预设距离值，并在聚类分析过程中，依据该预设距离值进行向量分组;或者，可以结合应用情况，设定指定向量组数目，并在聚类分析过程中，依据指定向量组数目和计算出的两两向量间的距离，确定一个合适的预设距离值，进而实现向量分组，本发明实施例对此可不做具体限定。
[0063] 举例来说，若时间维度的向量划分粒度为lh，经由上述聚类分析过程后，可能将时间向量8:00~9:00、11:00~13:00、17:00~18:00划分到一个向量组中，表示这些时间段内用户的行为习惯较为相似，可进行聚类合并。对此我们可以理解为，上述时间段属于非工作时间，用户行为趋向一致。相比人为将时间维度划分为上午、中午、下午、晚上的分组方式，本发明方案得到的分组，更能客观准确的反映用户行为习惯，基于对用户行为习惯的准确把握，使得在本发明方案基础上进行的个性化推荐的准确性也会有所提高。
[0064] 如此，还可针对地点、设备类型、视频播放来源、联网方式这4个维度的上下文信息，进行向量分组，具体可参照上文介绍，此处不再详述。举例来说，时间维度聚类分组后得到K ci个向量组，地点、设备类型、视频播放来源、联网方式这4个维度聚类分组后依次得到以2、以 3、以4、1^个向量组。通常，聚类分析得到的向量组数目要少于该维度上下文信息所包括的向量数目。
[0065]需要说明的是，关于通过聚类分析将

完整全部详细技术资料下载

当前第2页1 2 3 4