一种序列化信息推荐方法

文档序号：9646599阅读：378来源：国知局

一种序列化信息推荐方法
【技术领域】
[0001] 本发明涉及信息推荐领域，特别涉及一种序列化信息推荐的方法及其优化方法，支持具有序列化特征的信息推荐。
【背景技术】
[0002] 随着信息社会化、社会信息化，信息生产与消费促进了信息产业和信息技术的飞速发展，互联网已经成为人们获取信息的重要来源。然而互联网规模和信息资源的迅猛增长带来了信息过载的问题，人们面临"信息虽然丰富，但有用信息获取困难"的窘境，在此基础上进行数据分析、处理和筛选，并向用户进行实用的，个性化的推荐已成为新的应用方向。
[0003]许多信息都是通过特征点方式，以线性序列化的方式呈现的。特征点是指序列中具有某种特定功能，满足某种特定条件或者具备某种特殊属性且可向用户推荐的序列的组成元素，例如用户浏览商品信息的历史记录序列，在校生的学习轨迹序列，出租车行驶的位置序列等。根据特征点，分析和挖掘待推荐的序列化信息所独有的特性，例如偏好、频率、距离、位置等信息，能够使个性化推荐的准确度得到较大的提升。例如，在基于位置的个性化推荐服务（LBS，LocationBasedServices)中，由于用户的行进路线具有序列化的特征，因此可通过用户所在位置信息和用户的行进路线特征来判断该用户是否会有某一种行为出现(如有购物、娱乐或餐饮等行为)，此等应用均建立在对序列化模式的深层理解之上。有很多应用可以抽象成序列化模式下的推荐问题，如用户的购物喜好推荐，学生的学习过程推荐，出租车线路推荐等。
[0004] 序列化信息推荐将传统对点的推荐扩展到一个序列的推荐上，但由于这种类型的推荐受到时间、空间、频率、偏好等各种特征的约束，因此可归结为带有约束的最优或近似最优的序列化信息推荐问题，现有技术存在的主要缺点有：第一，没有利用历史数据去寻找潜在的特征点(例如学习分析中潜在的影响学习效果的行为，出租车线路推荐中的潜在载客点）以及没有评估这些特征点的利用概率(例如学习计划推荐中学生较为关注的知识点出现的概率，出租车线路推荐中的载客概率等）；第二，现有寻找推荐序列的方法没有进行优化。上述两点造成了现有推荐技术中精度不高，效率低下的问题。

【发明内容】

[0005] 本发明的目的在于针对上述问题与不足，提供一种序列化信息推荐及其优化的方法，针对序列元素的特征设定权重，根据序列特征约束进行个性化推荐，解决序列化信息推荐精度不高和效率低下等技术问题。
[0006]为达到上述目的，本发明采用如下的技术方案。
[0007]-种序列化信息推荐方法，包括以下步骤： (1)生成序列元素特征点；根据历史数据使用聚类方法，如K-means或K近邻等得到N个簇，选取每个簇的几何中心作为潜在的特征点集合；生成一个潜在的特征点集合C，用点表示特征点，C中包含η个潜在特征点Cl，集合C中的元素为所有特征点{Cl，c2，c3，C4,……，cn};相比盲目的选取一些点作为潜在特征点，通过聚类的方法得到的点可以大幅度提高特征点的准确性，减少了点的数量，能较大幅度提高精度和缩减计算规模； (2) 以历史数据作为样本集，生成序列元素特征点利用概率，作为推荐序列的评价基础指标；特征点的利用概率计算方法为：首先对聚类结果进行分析，获得每个类簇的区域点覆盖，然后根据覆盖中包含的点，统计该区域所包含的点的利用频数记为Q，设置所有区域中所包含点的可能的利用总频数为归一化参数T，则该区域所对应簇的利用概率为Q/T，例如在出租车路径推荐问题中，Q可看作是在某一区域里被出租的车辆数量，T可设定为租车公司的车辆总数；在学习分析问题中，Q可看作是某一聚类中学生较为关注例如关注频次超过某一阈值的知识点的数量，T则为知识点总数，对于每一个潜在特征点，把该特征点所代表的簇的利用概率近似作为该点的利用概率；根据样本分析，赋予每个特征点一个不同的利用概率Ρι，用浮点数表示利用概率，得到一个概率集合p，p中元素Ρι的值为〇到1之间的一个随机小数，即P中的元素为{Pi，P2,P3,......,pn},〇^Pl^l(l^i^n)； (3) 生成序列信息，即序列活动图；序列活动图定义为三元组：（C，P，E)，其中C表示特征点集合，P表示每个特征点对应的利用概率集合，E表示边集，E中包含m条边ei，即两个特征点之间的序列，E中的元素为{ e2,e3,......，em}，E中元素e;定义为（ca,cb,山），其中ca，cb (1 <a，b<n)为表示起点和终点的两个特征点，山为边的长度，即权重，首先生成边即相邻特征点之间所组成的连线的长度，边的长度由待解决问题所关注的焦点结合实际情况来决定，例如租车路径推荐问题中，边的长度可定义为特征点所代表地理位置之间的物理距离，然后结合步骤（1)、（2)所获得的特征点集和概率集构成序列活动图；根据序列活动图，可以生成序列；生成序列集合R，R中包含k条完整的序列^，用点的集合形式表示，即R中的元素为{A，r2，r3,……，rk}，R中元素Γι的长度设为r。，巧实际形式为（ca，cb......c")，ca,cb......(1彡a,b，rc彡n)为序列中的紧邻的点，ca为起始点，为结束点，为了控制序列长度r。，r。取1到η的开平方之间的一个随机整数，即 1rcsqrt(η)； (4) 计算序列活动图中潜在的空载序列距离期望值，结合活动点如出租车路径推荐问题中的出租车位置的当前位置选择并推荐最优序列，如出租车路径推荐问题中的出租车行驶线路等；空载序列指，若某一特征点没有得到利用，例如出租车在该点没有接到顾客，客户没有购买某件商品，学生没有学习某个知识点等，那么该点被认为是无价值的，由若干无价值的点构成的序列，称为空载序列；最优序列的选择方法基于潜在的空载序列距离期望值，空载序列距离期望值计算方法如下：假设点Α到点Β之间有一条长度为dist的序列，A 为活动点位置，点B的利用概率为Pb，若在B点可以得以应用，那么由A到B构成的序列可看作是有价值的，反之，若B点没有得到利用，则需要前往下一个潜在特征点，那么由A到B 构成的序列是无用的，假设较坏的情况，即前往的下一个潜在特征点是无用的，将这段序列的消耗记为CostA，计算方式如下：
即这段序列的消耗等于两点之间的长度乘以B点不利用的概率，对于点B的选取，根据A得到与之最近的k个点作为待判定点，对其预估的消耗为对应的CostA的值，选取其中 CostA值最小者向后构造后继序列，依此类推，建立一个消耗值为L的有向序列，作为所求的推荐序列候选；将集合C中N个特征点依次作为活动点起始位置来生成Μ条消耗为L的推荐序列候选集合，计算每一条序列的潜在空载距离期望值，并在此基础上选择潜在空载距离期望值最小者作为最优推荐序列。
[0008] 在上述技术方案中，对所述的空载序列距离期望值计算方法进行优化，具体过程如下：对于当前位置PoCab，有k条完整的序列，分别为Γι，r2，r3,……，rk，每条序列记为 (Cl,a，Cl,b......Cl,rc)，(C2,a，C2,b......C2,rc)，(C3,a，C3,b......C3,rc^ ......，(Ck,a，Ck,b......Ck,rc)，首先计算序列PoCab-Clia- c hb-......-C 的空载序列期望，并存放为最小值变量min 中；然后再依次计算其他序列，若计算得到的其他序列的空载序列期望小于当前min值时，将此值存入当前min变量中，如此不断迭代，当出现在计算某一序列的过程中，其中间结果值超过min值时，便不再继续计算，舍弃此序列进行剪枝。
[0009] 本发明方法与现有技术相比具有以下优点：第一，在历史数据中找到潜在特征点，并对这些特征点的利用概率进行评价，用于推荐特征点序列的生成，以提高推荐精度；第二，根据筛选后的特征点结合优化最优序列推荐的方法，以提高推荐效率。
【具体实施方式】
[0010] 下面结合具体实施例对本发明作进一步的描述。
[0011] 本实施例提供一种序列化信息推荐方法，具体实施步骤如下：第一步，生成推荐序列假设η为潜在特征点的数目，m为构成活动图中的序列即活动图中的边的数目，k为活动点遍历序列的数目。
[0012] 具体步骤如下：第一，生成特征点信息。生成一个潜在特征点集合C，用点表示特征点，C中包含η个潜在特征点Α。集合C中的元素为所有特征点{Cl，c2，c3，c4,……，cn}。
[0013] 第二，生成特征点的利用概率信息。根据样本获得每个特征点的利用概率 Pl，用浮点数表示利用概率，得到一个概率集合P，P中元素Pi的值为〇到1之间的一个随机小数。即P中的元素为{Pi,p2，P3,......，pn}，0彡Pi彡1 (1彡i彡η)。
[0014] 第三，生成序列信息即序列活动图。根据特征点生成序列集合Ε，Ε中包含m条边 ei，即两个特征点之间的序列，边的长度即权重为山。即E中的元素为{ei，e2，e3,……， 6"1}<^中元素61的实际形式为（(3 3，(31)，(11)，（^，(31)(1彡3，13彡11)分别为边的起始点和结束点，山为边的长度。
[0015] 根据以上数据，可以生成活动点遍历轨迹所得到的序列。生成序列集合R，R中包含k条完整的序列Γι，即活动点的序列，用点的集合形式表示。即R中的元素为{Γ

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：叶俊民;陈曙;李超;王继新;左明章;
技术所有人：华中师范大学;
我是此专利的发明人

上一篇：一种用于内存文件系统的文件数据一致性更新方法
上一篇：一种json格式数据的查询管理系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。