基于海量用户行为数据的高速计算分析方法

文档序号:9547213阅读:360来源:国知局
基于海量用户行为数据的高速计算分析方法
【技术领域】
[0001]本发明属于数据处理领域,尤其涉及一种基于海量用户行为数据的高速计算分析方法。
【背景技术】
[0002]随着广电网络公司后平移时代的到来,数字电视业务发展日益成熟,付费频道、时移回看、V0D(Video On Demand)即视频点播、其他增值业务(股票、电视商城、游戏等)等多种双向互动新业务在不断的充实广电网络运营商的业务服务内容,广电网络运营商的发展重点逐渐从数字平台搭建、双向网络改造转向了更加多元化的业务经营和盈利模式。
[0003]作为传统的广电网络运营商,在数字电视媒体环境下,随着双向网络的不断完善,用户行为数据的采集成为可能,而面对上百万,甚至上千万用户的海量行为数据,如何进行高速的计算分析成为了各大运营商丞待解决的问题。
[0004]现有的海量数据计算分析技术,主要是通过将结构化的数据存储在众多的存储及运算设备之中,然后经过数据库的查询、运算、分析,从百万级,甚至千万级用户的海量行为数据中,查询到需要的数据记录和结果,然后再进行运算分析,以形成最终的分析结果。这种方式,由于所有的分析、计算都要从庞大的海量数据中进行查询及运算,使得查询运算的效率大大降低,分析一个简单的指标,都需要从所有数据中进行查询,以获取所需的数据指标。往往查询与运算的时间都是好几个小时,甚至十几个小时,随着数据量的增加,效率会更低,只能通过添加高性能的运算服务器,以提高查询运算的效率。现有的海量数据计算分析技术根本无法做到对海量数据的实时分析与计算,且需要投入大量的高性能服务器资源以配合分析与计算。

【发明内容】

[0005]本发明主要解决的是面对越来越灵活的双向新媒体业务,面对百万级,甚至千万级用户的海量行为数据,将采集到的用户行为数据进行HDFS分布式存储,经过ETL模块对数据进行提取、转换和加载之后,由符合传媒行业特点的优化组合算法模块,将海量的用户行为数据进行高效的数据预处理,形成一系列的中间结果数据,再通过不同的WEB应用程序调用相关的中间结果数据集,以实现对海量用户行为数据的高速分析运算,为运营商提供秒级的实时计算分析。
[0006]通过该方法可使广电网络运营商利用现有的双向网络通道获取到的海量用户行为数据,快速有效的得到真实的、准确的分析运算结果,实时地为运营商提供运营决策依据,有效的提高了海量数据的分析运算效率。同时在资源利用率上,较现有的海量数据分析技术可节省大量的硬件设备资源及人员成本。
【附图说明】
[0007]图1为本发明实施例提供的基于海量用户行为数据的高速计算分析方法的实现流程图。
【具体实施方式】
[0008]下面结合附图并通过【具体实施方式】来进一步说明本发明的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
[0009]如图1所示,为本发明基于海量用户行为数据的高速计算分析方法的实现流程图,详述如下:
[0010]在步骤SI中,采集运营商的海量用户行为数据及第三方系统的异构数据;
[0011]在步骤S2 中,通过 HDFS ((Hadoop Distributed File System))分布式存储模块进行三备份分布式存储;
[0012]在步骤S3中,由ETL(Extract-Transform-Load)模块完成对海量行为数据的提取、转化及加载;
[0013]在步骤S4中然后再由算法处理模块,结合传媒行业的特点,对转化后的海量行为数据,利用基本统计分析算法,例如描述性统计分析、假设检验、回归分析、多元统计分析、方差分析、线性时间序列分析、参数贝叶斯方法、修正收视媒体指标分析方法等,利用高级数据分析算法,例如关联规则挖掘涉及的Apr1ri算法、基于划分的算法、F-P数频集算法,分类分析涉及的判定树归纳分类、贝叶斯分类、向后传播分类,聚类分析涉及的K-means、CLARANS, BIRCH、CURE、DBSCAN,神经网络算法、高维数据统计分析等,利用智能关联规则挖掘算法、节目评估模型、高级时间序列预测方法等创新算法,通过将上述算法结合符合传媒行业的特点,进行算法间优化组合,形成特定的算法包及数据模型,并针对上述算法特点,对用户的海量行为数据进行预处理,提取共用部分,形成供数据查询、分析、运算、模型演化等,的一系列的中间结果数据,并存储在中间结果数据存储模块中;
[0014]在步骤S5中,由不同的WEB应用程序由操作用户提交分析请求,直接从中间结果数据存储模块中调用所需的指标数据,并通过简单的查询、统计、分析、公式计算等运算即可完成对用户分析请求的结果反馈。对操作用户的指标分析请求响应时间达到秒级,甚至毫秒级的实时响应。使得服务器端资源压力下降,能够做到WEB应用的高并发。
[0015]由于采用了优化组合的算法包及数据模型进行海量的数据预处理操作,每次的用户指标查询请求,只需要从经过数据预处理的中间结果数据中提取相关数据参与运算,不需要从完整的原始海量行为数据中进行查询和运算,分析运算效率由现有技术所需的几个小时,十几个小时的漫长等待时间,提升为秒级,甚至毫秒级的实时响应,大大提高了分析运算效率,同时整个分析运算过程只需要普通的PC服务器资源即可完成,大大节省了硬件服务器资源的投入。
[0016]以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种基于海量用户行为数据的高速计算分析方法,其特征在于:包含如下步骤: A、首先采集运营商的海量用户行为数据及第三方系统的异构数据; B、通过HDFS分布式存储模块进行三备份分布式存储; C、通过ETL模块完成对海量行为数据的提取、转化及加载; D、然后再由算法处理模块对转化后的海量行为数据通过优化组合的算法包及数据模型进行数据预处理操作,最终形成一系列的中间结果数据,并存储在中间结果数据存储模块中; E、通过不同的WEB应用程序由操作用户提交分析请求,直接从中间结果数据存储模块中调用所需的指标数据,并通过运算即可完成对用户分析请求的结果反馈。
【专利摘要】本发明主要解决的是面对越来越灵活的双向新媒体业务,面对百万级,甚至千万级用户的海量行为数据,将采集到的用户行为数据进行HDFS分布式存储,经过ETL模块对数据进行提取、转换和加载之后,由符合传媒行业特点的优化组合算法模块,将海量的用户行为数据进行高效的数据预处理,形成一系列的中间结果数据,再通过不同的WEB应用程序调用相关的中间结果数据集,以实现对海量用户行为数据的高速分析运算,为运营商提供秒级的实时计算分析。
【IPC分类】G06F17/30
【公开号】CN105302831
【申请号】CN201410345089
【发明人】李馥岑, 孙鑫, 张旭明
【申请人】上海星红桉数据科技有限公司
【公开日】2016年2月3日
【申请日】2014年7月18日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1