基于Web用户时间属性的序列模式挖掘方法

文档序号：6534920阅读：170来源：国知局

基于Web用户时间属性的序列模式挖掘方法
【专利摘要】本发明涉及一种基于Web用户时间属性的序列模式挖掘方法。针对个体用户访问模式存在的时间偏好进行分析，挖掘用户时间特征上的个性，进而对用户个体进行建模，从而形成用户个性化的访问模式。为此提出UFAP-双亲索引森林，刻画用户访问序列模式。结合个人用户访问时间偏好——驻留时间、时间间隔，分别对用户访问的网页类内Web页面的驻留时间和网页类与类之间的时间间隔进行K-means聚类，最终构建出用户个性化的时间偏好访问模式。本发明实现细粒度、全方位的个性化推荐，使推荐不仅仅局限在站内，甚至可以形成站间的互动，对于电子商务网站生态圈的优化和实施个性化服务具有深远意义。
【专利说明】基于Web用户时间属性的序列模式挖掘方法
【技术领域】
[0001]本发明涉及一种新的Web用户时间属性方面的序列模式挖掘方法。
【背景技术】
[0002]基于Web日志序列模式挖掘技术的研究方向将网页与个人浏览习惯相关联，针对用户上网存在的固定特征刻画出Web用户访问模式，从而发现用户的兴趣爱好、固有浏览习惯等。网站运营商则据此优化网站结构，合理投放广告，甚至提供给用户相关个性化推荐。
[0003]由于Web日志中包含了大量用户的访问记录，因此根据记录可以挖掘出用户访问网页的频繁路径，构建用户的频繁访问序列模式。如Yao-Te Wang与Anthony J.T.Lee提出的通过用户频繁访问序列中存在的网页链的关系，构建用户的频繁路径访问超图。然而传统的频繁访问序列模式的挖掘，如GSP、Aprior1、PrefixSpan等,是通过不断迭代增加候选序列的长度从而挖掘频繁访问序列，其缺点是产生大量的中间候选序列，存储代价大。为了实现访问序列的高压缩化并兼顾访问序列的有效挖掘，Jian Pei, Jiawei Han等提出了WAP-tree算法，它采用一种新的数据结构，有效避免了大量候选序列的产生。
[0004]然而传统的序列模式挖掘算法忽略了用户的驻留时间、时间间隔等时间特征，于是针对用户驻留时间特征，任家东，张嘯剑等设计了一种网页驻留时间约束的极大频繁页面集挖掘MFPSM算法，有效减少对冗余网页的挖掘。针对时间间隔约束条件也设计了相应算法，如Tony Cheng-Kui Huang的模糊时间间隔序列模式挖掘、多用户加权时间间隔序列模式挖掘。
[0005]从上文基于Web日志序列模式挖掘的讨论中可以认识到迄今为止大多数时间特征序列模式的相关研究侧重点是面向多用户的行为共性特征的分析、提取及分类，通过挖掘用户时间特征的算法将时间作为约束条件，按时间属性相似度分类，并没有单独将时间作为个人用户行为习惯或固有偏好进行提取刻画。

【发明内容】

[0006]本发明目的在于公开一种基于Web用户时间属性的序列模式挖掘方法,通过研究个体用户时间特征的上网习惯所形成的频繁访问序列，从中刻画出个人用户时间偏好的上网行为模式。
[0007]本发明给出的技术方案为:
一种基于Web用户时间属性的序列模式挖掘方法，其特征在于，针对个体用户访问模式存在的时间偏好进行分析，挖掘用户时间特征上的个性，进而对用户个体进行建模，从而形成用户个性化的访问模式，具体包括步骤:
步骤一，数据预处理。根据用户浏览日志，剔除冗余网页，进行网页分类处理，再根据用户访问时间戳对原始数据进行排序，生成所需会话集，最终得到所需格式日志。
[0008]步骤二，构建Web用户访问树。根据预处理后的日志，统计频繁访问网页类，生成频繁会话集，创建一种辅助表的数据结构并在其中加以记录，再根据辅助表中记录的用户频繁会话模式，并在字典树的基础上提出Web用户访问树——UFAP-双亲索引树。
[0009]步骤三，生成Web用户频繁访问森林。根据辅助表中网页类间的置信度统计UFAP-双亲索引树的强关联边，进一步调整UFAP-双亲索引树，使其网页类间边的关系符合强关联。通过UFAP-双亲索引树的调整得到UFAP-双亲索引主树和辅助表中记录的以频繁访问网页类为根的UFAP-双亲索引子树。
[0010]步骤四，Web用户频繁访问森林中抽取用户时间偏好一驻留时间、时间间隔，通过度量用户网页驻留时间与访问网页类的时间间隔推测用户是否对网页感兴趣。通过K-means方法对频繁访问网页类的驻留时间集进行聚类，并对网页类间跳转时间间隔也进行聚类，再结合所生成的Web用户频繁访问森林最终得到了用户时间属性的访问模式——Web用户时间偏好访问森林。
[0011]与现有技术相比，本发明技术方案的创新点体现在:1)提出了一种UFAP-双亲索引森林的数据结构。2) 对个体用户访问的网页类内Web页面的驻留时间和网页类与类之间的时间间隔属性使用了 K-means聚类。本发明利用传统中的模型实现细粒度、全方位的个性化推荐，使推荐不仅仅局限在站内，甚至可以形成站间的互动，对于电子商务网站生态圈的优化和实施个性化服务具有深远意义。并且利用该时间偏好访问模式还可以达到个人用户行为身份识别的目的。
【专利附图】

【附图说明】
[0012]下面结合附图和实施方式对本发明作进一步的详细说明:
图1是根据表I构造初始化UFAP-双亲索引树。
[0013]图2是邻接表统计出的强关联边结果示意图。
[0014]图3是根据图2强关联边调整图1后的UFAP-双亲索引树。
[0015]图4为本发明算法流程图。
【具体实施方式】
[0016]以下结合附图对本发明技术方案作进一步说明。
[0017]本发明的大致思路为:针对个体用户访问模式存在的时间偏好进行分析，挖掘用户时间特征上的个性，进而对用户个体进行建模，从而形成用户个性化的访问模式。为此提出了一种新的数据结构——UFAP-双亲索引森林，刻画用户访问序列模式。并结合个人用户访问时间偏好一驻留时间、时间间隔，分别对用户访问的网页类内Web页面的驻留时间和网页类与类之间的时间间隔进行K-means聚类，最终构建出用户个性化的时间偏好访问模式。
[0018]本发明算法流程图4如下所示，整个算法实现流程图描述:
I)数据预处理。根据用户浏览日志，剔除驻留时间小于5s的冗余网页，并进行简单网页分类处理，再根据用户访问时间戳对原始数据进行排序，生成所需会话集，最终得到所需格式日志。
[0019]2)构建Web用户访问树。根据预处理后的日志，统计频繁访问网页类，生成频繁会话集，创建一种辅助表的数据结构并在其中加以记录，再根据辅助表中记录的用户频繁会话模式，并在字典树的基础上提出Web用户访问树——UFAP-双亲索引树。
[0020]3)生成Web用户频繁访问森林。根据辅助表中网页类间的置信度统计UFAP-双亲索引树的强关联边，进一步调整UFAP-双亲索引树，使其网页类间边的关系符合强关联。通过UFAP-双亲索引树的调整得到UFAP-双亲索引主树和辅助表中记录的以频繁访问网页类为根的UFAP-双亲索引子树。
[0021]4) Web用户频繁访问森林中抽取用户时间偏好一驻留时间、时间间隔。由于网页驻留时间与访问网页类的时间间隔是用户兴趣度的重要体现，所以通过度量用户网页驻留时间与访问网页类的时间间隔可以有效推测用户是否对网页感兴趣。通过K-means方法对频繁访问网页类的驻留时间集进行聚类，同理对网页类间跳转时间间隔也进行K-means聚类处理，再结合所生成的Web用户频繁访问森林最终得到了用户时间属性的访问模式——Web用户时间偏好访问森林。
[0022]
【权利要求】
1.一种基于Web用户时间属性的序列模式挖掘方法，其特征在于，针对个体用户访问模式存在的时间偏好进行分析，挖掘用户时间特征上的个性，进而对用户个体进行建模，从而形成用户个性化的访问模式，具体包括步骤: 步骤一，数据预处理；根据用户浏览日志，剔除冗余网页，进行网页分类处理，再根据用户访问时间戳对原始数据进行排序，生成所需会话集，最终得到所需格式日志；步骤二，构建Web用户访问树；根据预处理后的日志，统计频繁访问网页类，生成频繁会话集，创建一种辅助表的数据结构并在其中加以记录，再根据辅助表中记录的用户频繁会话模式，并在字典树的基础上提出Web用户访问树——UFAP-双亲索引树；步骤三，生成Web用户频繁访问森林；根据辅助表中网页类间的置信度统计UFAP-双亲索引树的强关联边，进一步调整UFAP-双亲索引树，使其网页类间边的关系符合强关联；通过UFAP-双亲索引树的调整得到UFAP-双亲索引主树和辅助表中记录的以频繁访问网页类为根的UFAP-双亲索引子树；步骤四，Web用户频繁访问森林中抽取用户时间偏好一驻留时间、时间间隔，通过度量用户网页驻留时间与访问网页类的时间间隔推测用户是否对网页感兴趣；通过K-means方法对频繁访问网页类的驻留时间集进行聚类，并对网页类间跳转时间间隔也进行聚类，再结合所生成的Web用户频繁访问森林最终得到了用户时间属性的访问模式——Web用户时间偏好访问森林。
【文档编号】G06F17/30GK103744957SQ201410004623
【公开日】2014年4月23日申请日期:2014年1月6日优先权日:2014年1月6日
【发明者】蒋昌俊, 陈闳中, 闫春钢, 丁志军, 于汪洋, 陈英华申请人:同济大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蒋昌俊;陈闳中;闫春钢;丁志军;于汪洋;陈英华;
技术所有人：同济大学;
我是此专利的发明人

上一篇：一种基于模型参考的车辆跟驰系统自适应控制方法
上一篇：一种基于主副本存储模式的主数据存储方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。