一种序列化信息推荐方法

文档序号:9646599阅读:378来源:国知局
一种序列化信息推荐方法
【技术领域】
[0001] 本发明涉及信息推荐领域,特别涉及一种序列化信息推荐的方法及其优化方法, 支持具有序列化特征的信息推荐。
【背景技术】
[0002] 随着信息社会化、社会信息化,信息生产与消费促进了信息产业和信息技术的飞 速发展,互联网已经成为人们获取信息的重要来源。然而互联网规模和信息资源的迅猛增 长带来了信息过载的问题,人们面临"信息虽然丰富,但有用信息获取困难"的窘境,在此 基础上进行数据分析、处理和筛选,并向用户进行实用的,个性化的推荐已成为新的应用方 向。
[0003]许多信息都是通过特征点方式,以线性序列化的方式呈现的。特征点是指序列中 具有某种特定功能,满足某种特定条件或者具备某种特殊属性且可向用户推荐的序列的组 成元素,例如用户浏览商品信息的历史记录序列,在校生的学习轨迹序列,出租车行驶的位 置序列等。根据特征点,分析和挖掘待推荐的序列化信息所独有的特性,例如偏好、频率、距 离、位置等信息,能够使个性化推荐的准确度得到较大的提升。例如,在基于位置的个性化 推荐服务(LBS,LocationBasedServices)中,由于用户的行进路线具有序列化的特征,因 此可通过用户所在位置信息和用户的行进路线特征来判断该用户是否会有某一种行为出 现(如有购物、娱乐或餐饮等行为),此等应用均建立在对序列化模式的深层理解之上。有很 多应用可以抽象成序列化模式下的推荐问题,如用户的购物喜好推荐,学生的学习过程推 荐,出租车线路推荐等。
[0004] 序列化信息推荐将传统对点的推荐扩展到一个序列的推荐上,但由于这种类型的 推荐受到时间、空间、频率、偏好等各种特征的约束,因此可归结为带有约束的最优或近似 最优的序列化信息推荐问题,现有技术存在的主要缺点有:第一,没有利用历史数据去寻找 潜在的特征点(例如学习分析中潜在的影响学习效果的行为,出租车线路推荐中的潜在载 客点)以及没有评估这些特征点的利用概率(例如学习计划推荐中学生较为关注的知识点 出现的概率,出租车线路推荐中的载客概率等);第二,现有寻找推荐序列的方法没有进行 优化。上述两点造成了现有推荐技术中精度不高,效率低下的问题。

【发明内容】

[0005] 本发明的目的在于针对上述问题与不足,提供一种序列化信息推荐及其优化的方 法,针对序列元素的特征设定权重,根据序列特征约束进行个性化推荐,解决序列化信息推 荐精度不高和效率低下等技术问题。
[0006]为达到上述目的,本发明采用如下的技术方案。
[0007]-种序列化信息推荐方法,包括以下步骤: (1)生成序列元素特征点;根据历史数据使用聚类方法,如K-means或K近邻等得到N个簇,选取每个簇的几何中心作为潜在的特征点集合;生成一个潜在的特征点集合C,用 点表示特征点,C中包含η个潜在特征点Cl,集合C中的元素为所有特征点{Cl,c2,c3,C4,……,cn};相比盲目的选取一些点作为潜在特征点,通过聚类的方法得到的点可以大幅 度提高特征点的准确性,减少了点的数量,能较大幅度提高精度和缩减计算规模; (2) 以历史数据作为样本集,生成序列元素特征点利用概率,作为推荐序列的评价基础 指标;特征点的利用概率计算方法为:首先对聚类结果进行分析,获得每个类簇的区域点 覆盖,然后根据覆盖中包含的点,统计该区域所包含的点的利用频数记为Q,设置所有区域 中所包含点的可能的利用总频数为归一化参数T,则该区域所对应簇的利用概率为Q/T,例 如在出租车路径推荐问题中,Q可看作是在某一区域里被出租的车辆数量,T可设定为租车 公司的车辆总数;在学习分析问题中,Q可看作是某一聚类中学生较为关注例如关注频次 超过某一阈值的知识点的数量,T则为知识点总数,对于每一个潜在特征点,把该特征点所 代表的簇的利用概率近似作为该点的利用概率;根据样本分析,赋予每个特征点一个不同 的利用概率Ρι,用浮点数表示利用概率,得到一个概率集合p,p中元素Ρι的值为〇到1之 间的一个随机小数,即P中的元素为{Pi,P2,P3,......,pn},〇^Pl^l(l^i^n); (3) 生成序列信息,即序列活动图;序列活动图定义为三元组:(C,P,E),其中C表示 特征点集合,P表示每个特征点对应的利用概率集合,E表示边集,E中包含m条边ei,即两 个特征点之间的序列,E中的元素为{ e2,e3,......,em},E中元素e;定义为(ca,cb,山), 其中ca,cb (1 <a,b<n)为表示起点和终点的两个特征点,山为边的长度,即权重,首先 生成边即相邻特征点之间所组成的连线的长度,边的长度由待解决问题所关注的焦点结合 实际情况来决定,例如租车路径推荐问题中,边的长度可定义为特征点所代表地理位置之 间的物理距离,然后结合步骤(1)、(2)所获得的特征点集和概率集构成序列活动图; 根据序列活动图,可以生成序列;生成序列集合R,R中包含k条完整的序列^,用点 的集合形式表示,即R中的元素为{A,r2,r3,……,rk},R中元素Γι的长度设为r。,巧实 际形式为(ca,cb......c"),ca,cb......(1彡a,b,rc彡n)为序列中的紧邻的点,ca为起 始点,为结束点,为了控制序列长度r。,r。取1到η的开平方之间的一个随机整数,即 1rcsqrt(η); (4) 计算序列活动图中潜在的空载序列距离期望值,结合活动点如出租车路径推荐问 题中的出租车位置的当前位置选择并推荐最优序列,如出租车路径推荐问题中的出租车行 驶线路等;空载序列指,若某一特征点没有得到利用,例如出租车在该点没有接到顾客,客 户没有购买某件商品,学生没有学习某个知识点等,那么该点被认为是无价值的,由若干无 价值的点构成的序列,称为空载序列;最优序列的选择方法基于潜在的空载序列距离期望 值,空载序列距离期望值计算方法如下:假设点Α到点Β之间有一条长度为dist的序列,A 为活动点位置,点B的利用概率为Pb,若在B点可以得以应用,那么由A到B构成的序列可 看作是有价值的,反之,若B点没有得到利用,则需要前往下一个潜在特征点,那么由A到B 构成的序列是无用的,假设较坏的情况,即前往的下一个潜在特征点是无用的,将这段序列 的消耗记为CostA,计算方式如下:
即这段序列的消耗等于两点之间的长度乘以B点不利用的概率,对于点B的选取,根 据A得到与之最近的k个点作为待判定点,对其预估的消耗为对应的CostA的值,选取其中 CostA值最小者向后构造后继序列,依此类推,建立一个消耗值为L的有向序列,作为所求 的推荐序列候选;将集合C中N个特征点依次作为活动点起始位置来生成Μ条消耗为L的 推荐序列候选集合,计算每一条序列的潜在空载距离期望值,并在此基础上选择潜在空载 距离期望值最小者作为最优推荐序列。
[0008] 在上述技术方案中,对所述的空载序列距离期望值计算方法进行优化,具体过程 如下: 对于当前位置PoCab,有k条完整的序列,分别为Γι,r2,r3,……,rk,每条序列记为 (Cl,a,Cl,b......Cl,rc),(C2,a,C2,b......C2,rc),(C3,a,C3,b......C3,rc^ ......,(Ck,a,Ck,b......Ck,rc),首 先计算序列PoCab-Clia- c hb-......-C 的空载序列期望,并存放为最小值变量min 中;然后再依次计算其他序列,若计算得到的其他序列的空载序列期望小于当前min值时, 将此值存入当前min变量中,如此不断迭代,当出现在计算某一序列的过程中,其中间结果 值超过min值时,便不再继续计算,舍弃此序列进行剪枝。
[0009] 本发明方法与现有技术相比具有以下优点:第一,在历史数据中找到潜在特征点, 并对这些特征点的利用概率进行评价,用于推荐特征点序列的生成,以提高推荐精度;第 二,根据筛选后的特征点结合优化最优序列推荐的方法,以提高推荐效率。
【具体实施方式】
[0010] 下面结合具体实施例对本发明作进一步的描述。
[0011] 本实施例提供一种序列化信息推荐方法,具体实施步骤如下: 第一步,生成推荐序列 假设η为潜在特征点的数目,m为构成活动图中的序列即活动图中的边的数目,k为活 动点遍历序列的数目。
[0012] 具体步骤如下: 第一,生成特征点信息。生成一个潜在特征点集合C,用点表示特征点,C中包含η个潜 在特征点Α。集合C中的元素为所有特征点{Cl,c2,c3,c4,……,cn}。
[0013] 第二,生成特征点的利用概率信息。根据样本获得每个特征点的利用概率 Pl,用浮 点数表示利用概率,得到一个概率集合P,P中元素Pi的值为〇到1之间的一个随机小数。 即P中的元素为{Pi,p2,P3,......,pn},0彡Pi彡1 (1彡i彡η)。
[0014] 第三,生成序列信息即序列活动图。根据特征点生成序列集合Ε,Ε中包含m条边 ei,即两个特征点之间的序列,边的长度即权重为山。即E中的元素为{ei,e2,e3,……, 6"1}<^中元素61的实际形式为((3 3,(31),(11),(^,(31)(1彡3,13彡11)分别为边的起始点和结 束点,山为边的长度。
[0015] 根据以上数据,可以生成活动点遍历轨迹所得到的序列。生成序列集合R,R中包 含k条完整的序列Γι,即活动点的序列,用点的集合形式表示。即R中的元素为{Γ
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1