基于云计算的海量用户行为实时分析方法及系统的制作方法

文档序号:6524767阅读:302来源:国知局
基于云计算的海量用户行为实时分析方法及系统的制作方法
【专利摘要】本发明公开了一种基于云计算的海量用户行为实时分析方法与系统,通过客户端实时采集用户行为及上下文数据,基于MapReduce模型进行预处理与聚合;对本体数据推理,实时分析用户最新兴趣;提出基于用户行为上下文的轨迹重现算法,进行轨迹补全;利用余弦因子法计算用户间兴趣相似度,建立用户兴趣相似度矩阵;构建马尔科夫转移矩阵以及基于协同过滤的马尔科夫推荐模型,实现有效与精准推送。本发明采用本体,对用户行为及上下文信息建模,并使用基于HBase的本体存储模式,实现大规模行为信息的语义级共享和重用。本发明将云计算、本体及推理、知识发现等技术相结合,解决了海量用户行为分析中,实时性、高效性、大规模存储以及智能化的问题。
【专利说明】基于云计算的海量用户行为实时分析方法及系统
【技术领域】
[0001]本发明涉及用户行为分析,具体地指一种基于云计算的海量用户行为实时分析方法及系统。
【背景技术】
[0002]用户行为分析是分析用户在使用网络资源时表现出来的规律、个性化的习惯,其目的在于监视、预测、甚至控制用户行为,而用户兴趣是用户的个性化特点针对网络资源的具体表现。在互联网飞速发展的今天,对用户行为进行分析,提取用户兴趣,了解其特点,一方面可以进行用户个性化定制与推送,为网站访问者提供更加主动的、智能化的服务;另一方面,从用户行为的不同表现,发现其兴趣和偏好,可以优化页面之间组织关系,完善网站系统架构,从而减轻用户寻找信息的负担,使其操作更加简单,节约时间和精力。
[0003]对于用户行为的分析,国内外做过很多研究,但存在一些问题:首先,大多集中于挖掘WEB日志,但这些日志并不足以及时描述用户访问网站时的情景,有必要实时搜集用户在客户端操作时行为以及上下文信息,将二者相结合,才能最大限度地重现用户浏览Web页面的真实场景,提取全面的用户行为轨迹,为分析用户行为提供有效的数据保障。其次,大型网站一般拥有庞大的在线用户,产生的实时行为和上下文信息量巨大,因此,系统的存储能力和计算速度更强,才能及时地将分析结果反馈给用户。而目前,大多数用户行为分析系统采用关系数据库技术与传统的数据处理方法,不能很好满足海量数据的高效分析。另夕卜,对于用户行为建模,国内外学者大多采用贝叶斯网络模型、向量模型,维度单一、缺乏层次性,不利于信息的共享、重用以及语义级行为数据的推理和分析。因此,有必要研究与发明一种海量用户行为数据的实时、高效的分析方法与系统。
[0004]目前,兴起的云计算技术以其强大的处理能力、存储能力以及廉价的硬件需求在IT领域引发了一场技术革命,作为一种新兴的共享基础架构的方法,云计算以公开标准和服务为基础,提供了安全、快速、便捷的海量数据存储和高效、弹性化的计算能力:
[0005]廉价可靠的海量分布式存储服务以及数据管理技术,为大规模用户行为数据的实时采集、管理与存储降低了处理成本,提高了效率;
[0006]虚拟化技术,实现了集中管理和动态使用物理资源、自主分配和调度计算资源的目的,为数据分析提供了可伸缩的计算能力并屏蔽了各种数据平台的异构性;

【发明内容】

[0007]本发明目的在于克服上述现有技术的不足而提供一种基于云计算的海量用户行为实时分析方法及系统,本发明综合利用云计算、本体推理以及知识发现方法等技术,对实时采集的海量用户行为数据,提供一种高效存储、分析的方法与系统,从而,实现了有效与精准的推送。
[0008]实现本发明目的采用的技术方案是:一种基于云计算的海量用户行为实时分析方法,包括如下步骤:[0009](I)客户端实时采集用户行为及上下文信息,然后通过客户端Ajax异步上传到服务器保存;
[0010](2)对用户行为及上下文信息采用MapReduce并行模型进行预处理与聚合,将结果存放到HBase数据库相应表中;
[0011](3)建立用户行为及上下文本体模型,并设计基于HBase的本体存储模式;
[0012](4)将聚合后的用户行为及上下文信息添加到用户行为及上下文本体模型中,利用Jena和Hive对存储在HBase中的用户行为及上下文本体模型数据进行推理,找出用户最新兴趣数据;
[0013](5)对(2)中所述结果,提取每个用户每一次会话内浏览的网页URL链接,采用基于用户行为上下文的轨迹重现算法进行轨迹补全,将补全后的结果存放到HBase数据库相应表中;
[0014](6)依据(5)中所述补全后的结果建立马尔科夫转移矩阵,并将该矩阵存放到HBase数据库相应表中,依据(4)中所述用户最新兴趣数据,利用余弦因子法计算出每个用户间的兴趣相似度,构成兴趣相似度矩阵;结合所述马尔科夫转移矩阵建立基于协同过滤的马尔科夫推荐模型;
[0015](7)针对实时捕捉到的用户输入页面URL,通过基于协同过滤的马尔科夫推荐模型进行下一步URL集推荐。
[0016]此外,本发明还提供一种基于云计算的海量用户行为实时分析系统,包括:
[0017]客户端,用于实时采集用户行为及上下文信息,然后通过客户端Ajax异步上传到服务器保存;
[0018]基于MapReduce的数据预处理与聚合模块,用于对用户行为、实时上下文信息采用MapReduce并行模型进行预处理与聚合,将结果存放到HBase数据库相应表中;
[0019]用户行为本体模型建立模块,用于建立用户行为及上下文本体模型,并设计基于HBase的本体存储模式;
[0020]用户兴趣偏好分析模块,用于将所述基于MapReduce的数据预处理与聚合模块聚合后的用户行为及上下文信息添加到用户行为及上下文本体模型中,利用Jena和Hive对存储在HBase中的用户行为及上下文本体模型数据进行推理,找出用户最新兴趣数据;
[0021]用户浏览轨迹补全模块,用于利用基于用户行为上下文的轨迹重现算法,对基于MapReduce的数据预处理与聚合模块所得结果进行补全,将补全后的结果存放到HBase数据库相应表中;
[0022]马尔科夫推荐模型建立模块,用于依据用户浏览轨迹补全模块所述补全后的结果建立马尔科夫转移矩阵,并将该矩阵存放到HBase数据库相应表中,依据用户兴趣偏好分析模块中所述用户最新兴趣数据,利用余弦因子法计算出每个用户间的兴趣相似度,构成兴趣相似度矩阵;结合所述马尔科夫转移矩阵建立基于协同过滤的马尔科夫推荐模型;
[0023]系统推荐模块,用于针对实时捕捉到的用户输入页面URL,通过基于协同过滤的马尔科夫推荐模型进行下一步URL集推荐。
[0024]相较于现有技术,本发明基于云计算的海量用户行为实时分析方法与系统,利用本体,对用户行为建模,实现行为信息语义级的共享和重用,提高了模型互操作性和可靠性;实时采集用户行为及上下文数据进行分析,使结果更可靠;以列存储数据库Hbase对本体和行为信息进行存储,为海量数据管理奠定基础;基于MapReduce模型进行计算,为高效地、及时地数据处理提供支撑;将推理规则转化为基于Hive的查询,提高了用户兴趣分析效率;提出基于用户行为上下文的轨迹重现算法,进行轨迹补全,为马尔科夫转移矩阵以及基于协同过滤的马尔科夫推荐模型的建立提供更真实的行为数据;将云计算技术的强大处理能力和大规模数据存储能力、本体及其推理、知识发现方法相结合,实时分析海量用户行为数据,及时获取用户兴趣,从而实现有效与精准的用户推送。
【专利附图】

【附图说明】
[0025]图1为本发明基于云计算的海量用户行为实时分析系统的结构框图
[0026]图2为本发明基于云计算的海量用户行为实时分析方法的流程图。
[0027]图3为用户行为本体核心类图。
[0028]图4为基于HBase的本体存储流程图。
[0029]图5为基于HBase本体存储模式结构图。
【具体实施方式】
[0030]为了使本发明的目的、技术方案以及优点更加清楚明白,以下结合附图,对本发明作进一步详细说明。
[0031]如图1所示,本发明基于云计算的海量用户行为实时分析系统,包括客户端、基于MapReduce的数据预处理与聚合模块、用户浏览轨迹补全模块、本体分解与存储模块、用户兴趣偏好分析模块、系统推荐模块。同时,本系统还包括用户行为本体模型的存储、面向列的开源数据库HBase。开发时,使用的软件包括:HadOOp-0.20.2_⑶H3B4、HBase-0.90.1-CDH3B4、Hive-0.10.0_cdh4.3.0,Protege4.2,Jquery-l.6,Jena-2.6.4,Tomcat6.0 等。
[0032]上述基于云计算的海量用户行为实时分析系统对海量用户行为实时分析方法如图2所示,具体包括:
[0033]S100、客户端实时采集用户行为、上下文信息,包括用户行为主体(用户帐号或SessioinID)、发生时间、发生的页面(包含页面标题和页面URL),上下滚动页面、移动或点击鼠标、页面停留时间、是否收藏,打印,保存、访问同一页面次数、复制粘贴文字操作,当前用户的搜索条件、搜索关键字对应的标题等,然后通过客户端Ajax异步上传到服务器端保存。
[0034]S200、基于MapReduce的数据预处理与聚合模对服务器端中的用户行为及上下文信息采用MapReduce并行模型进行预处理和聚合。MapReduce编程模式,将任务自动分成多个子任务,通过Map和Reduce两步,实现在大规模计算节点中的调度与分配,为实时用户行为数据预处理、融合与推理分析提供了可能性。
[0035]其中,预处理包括数据清理、数据转换、数据归约,具体步骤包括:
[0036]数据清理:去除其中不完整数据,删除重复数据、图片、页面动画等无用的数据;
[0037]数据转换:对页面进行的打印、收藏、保存、下载操作,在获取后,将其转换为对应的数据格式保存在数据库中;
[0038]数据归约:由于用户行为数据量很大,对其进行规范化处理,减少数据量,并保持数据的完整性。
[0039]数据聚合包括:对正确、但无效的用户行为信息,无法通过预处理解决,采用基于规则的用户行为聚合算法进行过滤、整合,从而保证为推理机制提供有效的行为信息。本实施例根据应用场景,可以定义以下规则,但不限于这些规则:
[0040]规则1:对实时行为中的页面分类,聚合同一个页面被访问的次数和页面总共停留时间等信息。
[0041]IF聚合后页面停留时间小于IOs的信息Then删除该信息
[0042]Else将聚合结果保存到聚合表EndIf
[0043]规则2:对实时行为中的关键字分类,聚合同一关键字在不同页面停留时间,页面标题保留停留时间最长的标题,不同页面次数之和等。
[0044]IF聚合后页面停留时间小于IOs的信息Then删除该信息
[0045]Else将聚合结果保存到聚合表EndIf
[0046]S300、使用OWL-DL描述语言建立用户行为、上下文本体模型,设计基于
[0047]HBase的OWL本体存储模式。具体为:
[0048]使用Prot6g64.2创建用户行为及上下文本体模型,其中,本体核心类如图3所示。由于用户行为与环境状态密切相关,它或者决定一个应用行为,或者触发用户感兴趣的事件,因此,研究中加入环境上下文信息。另外,图2中每个类均有自己属性,该属性为本领域技术人员所用的常规技术手段,此处不再赘述。
[0049]设计基于HBase的OWL本体存储模式,数据库存储方式把本体描述语言中所包含的类及其之间的逻辑关系,通过映射的方式,保存到表中,并保持了原模型的语义,利用数据库系统对表的操作、管理,实现了对本体的高效管理。考虑到用户行为数据的海量性,HBase数据库比关系数据库在进行大规模数据的存储与处理方面效率更高,速度更快,因此,将用户行为及上下文本体模型分解后,使用基于HBase的方式进行存储(本体存储流程如图4所示),能更好地满足对用户行为实时分析的需要。由此,为本体的命名空间、本体的资源、本体的二兀组、本体中的各种关系(包括一兀关系、二兀关系、隶属关系、等价关系与不等价关系等)、各种属性限制(例如!Restriction、onProperty、allValuesFrom、someValuesFrom)等,建立了相应的表,如图5所示。设计中尽可能地保留了本体模型的语义,实现了对OWL-DL语言特征的存储,因此,该模式可扩展性强,本体进化也无须改变表结构,适合于大规模本体的存储和处理。
[0050]本体(Ontology)原本是哲学的一个概念,主要描述事物的抽象本质,是对客观世界的系统解释和说明。信息【技术领域】的本体概念是规范化地表示一个或多个领域的概念、属性及其之间的相互关系,让其在共享范围内获得认可,从而表示该领域的基本知识。本体推理是利用本体对象之间的联系,进行语义层面的知识发现。鉴于Ontology在语义匹配上的明显优势,针对用户行为及其下文信息的零散性、随意性而又总体体现出的主题相关性,本系统创新性地采用本体建立用户行为模型,从而,实现了行为信息的共享和重用,提高了模型互操作性和可靠性。同时,利用本体推理技术,挖掘用户兴趣所在。
[0051]S400、将聚合后的用户行为、上下文信息加载到本体模型,利用Jena和Hive对存储在HBase中的本体模型数据 进行推理,发现用户最新兴趣,具体包括以下步骤:
[0052]建立本体推理和Hive推理机制,其中,本实施例使用Jena2.6本体推理机,设计本体模型的推理规则,并保存到HBase数据库中。在读取本体文件后,创建本体模型,建立本体推理机,将规则读取到推理机中,设置推理的类型,Jena API的InfModel接口支持任何相关推理,可用创建的本体模型和推理机创建InfModel的对象,进行推理分析,将推理结果保存在本体存储模式表中。
[0053]Hive推理用于将本体推理规则转换为Hive查询语句,对保存在基于HBase中本体模型数据进行推理,这种Hive与HBase的结合,充分利用了云计算技术的快速存取和灵活分析的优势,改进了以往关系数据库存储本体模型时加载和推理慢的弊病;
[0054]推理得到结果主要包括:用户喜欢访问页面标题,页面URL,搜索最多的关键字,经常访问的时间段等兴趣信息。
[0055]S500、对步骤(2)中的结果文件,提取每个用户每一次会话内浏览的网页URL链接,采用基于用户行为上下文的轨迹重现算法进行轨迹补全,将结果存放到HBase数据库相应表中。
[0056]基于用户行为上下文的轨迹重现算法描述如下:
[0057]
【权利要求】
1.一种基于云计算的海量用户行为实时分析方法,其特征在于,包括如下步骤: (1)客户端实时采集用户行为及上下文信息,然后通过客户端Ajax异步上传到服务器保存; (2)对用户行为及上下文信息采用MapReduce并行模型进行预处理与聚合,将结果存放到HBase数据库相应表中; (3)建立用户行为及上下文本体模型,并设计基于HBase的本体存储模式; (4)将聚合后的用户行为及上下文信息添加到用户行为及上下文本体模型中,利用Jena和Hive对存储在HBase中的用户行为及上下文本体模型数据进行推理,找出用户最新兴趣数据; (5)对(2)中所述结果,提取每个用户每一次会话内浏览的网页URL链接,采用基于用户行为上下文的轨迹重现算法进行轨迹补全,将补全后的结果存放到HBase数据库相应表中; (6)依据(5)中所述补全后的结果建立马尔科夫转移矩阵,并将该矩阵存放到HBase数据库相应表中,依据(4)中所述用户最新兴趣数据,利用余弦因子法计算出每个用户间的兴趣相似度,构 成兴趣相似度矩阵;结合所述马尔科夫转移矩阵建立基于协同过滤的马尔科夫推荐模型; (7)针对实时捕捉到的用户输入页面URL,通过基于协同过滤的马尔科夫推荐模型进行下一步URL集推荐。
2.根据权利要求1所述基于云计算的海量用户行为实时分析方法,其特征在于:步骤(O中所述用户行为及上下文信息包括用户行为主体、发生时间、发生的页面、上下滚动页面、移动或点击鼠标、页面停留时间、收藏、打印、保存、访问同一页面次数、复制粘贴文字操作、当前用户的搜索条件、搜索关键字对应的标题。
3.根据权利要求1所述基于云计算的海量用户行为实时分析方法,其特征在于,在步骤(2)中, 所述预处理包括:去除不完整数据,删除重复数据、图片、页面动画;对页面进行的打印、收藏、保存、下载操作,在获取后,将其转换为对应的数据格式保存在数据库中; 所述数据聚合包括:对正确、但无效的用户行为信息,采用基于规则的用户行为聚合算法进行过滤、整合。
4.根据权利要求1所述基于云计算的海量用户行为实时分析方法,其特征在于:步骤(3)中使用OWL-DL描述语言建立用户行为及上下文本体模型,并对本体模型进行分解,设计基于HBase的本体存储模式。
5.根据权利要求1所述基于云计算的海量用户行为实时分析方法,其特征在于,在步骤(4)中, 利用Jena对存储在HBase中的用户行为及上下文本体模型数据进行推理包括:使用Jena2.6本体推理机,设计本体模型的推理规则,并保存到HBase数据库中,读取本体文件后,创建本体模型,建立本体推理机,将规则读取到推理机中,设置推理的类型,J进行推理分析,将推理结果保存在本体存储模式表中; 利用Hive对存储在HBase中的用户行为及上下文本体模型数据进行推理包括:将本体推理规则转换为Hive查询语句,对保存在基于HBase中本体模型数据进行推理。
6.根据权利要求1所述基于云计算的海量用户行为实时分析方法,其特征在于:步骤(6)中马尔科夫状态转移矩阵表示为A=a[i] [j]且Σβ[?] [j]=l (从j=l到N),其中a[i][j]=P(Sj| Si)。
7.一种基于云计算的海量用户行为实时分析系统,其特征在于,包括: 客户端,用于实时采集用户行为及上下文信息,然后通过客户端Ajax异步上传到服务器保存; 基于MapReduce的数据预处理与聚合模块,用于对用户行为、实时上下文信息采用MapReduce并行模型进行预处理与聚合,将结果存放到HBase数据库相应表中; 用户行为本体模型建立模块,用于建立用户行为及上下文本体模型,并设计基于HBase的本体存储模式; 用户兴趣偏好分析模块,用于将所述基于MapReduce的数据预处理与聚合模块聚合后的用户行为及上下文信息添加到用户行为及上下文本体模型中,利用Jena和Hive对存储在HBase中的用户行为及上下文本体模型数据进行推理,找出用户最新兴趣数据; 用户浏览轨迹补全模块,用于利用基于用户行为上下文的轨迹重现算法,对基于MapReduce的数据预处理与聚合模块所得结果进行补全,将补全后的结果存放到HBase数据库相应表中; 马尔科夫推荐模型建立模块,用于依据用户浏览轨迹补全模块所述补全后的结果建立马尔科夫转移矩阵,并将该矩阵存放到HBase数据库相应表中,依据用户兴趣偏好分析模块中所述用户最新兴趣数据,利用余弦因子法计算出每个用户间的兴趣相似度,构成兴趣相似度矩阵;结合所述马尔科夫转移矩阵建立基于协同过滤的马尔科夫推荐模型; 系统推荐模块,用于针对实时捕捉到的用户输入页面URL,通过基于协同过滤的马尔科夫推荐模型进行下一步URL集推荐。
8.根据权利要求7所述基于云计算的海量用户行为实时分析系统,其特征在于,还包括: 本体分解与存储模块,用于对用户行为本体的命名空间、本体的资源、本体的三元组、本体中的各种关系、各种属性限制,在HBase数据库中建立相应的表,设计中尽可能地保留本体模型的语义,实现对OWL-DL语言特征的存储。
【文档编号】G06F17/30GK103793465SQ201310711739
【公开日】2014年5月14日 申请日期:2013年12月20日 优先权日:2013年12月20日
【发明者】高曙, 蒋子龙, 徐雄威, 张燃, 罗正宜 申请人:武汉理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1