一种整合实时和非实时模式的大数据分析系统的制作方法

文档序号:8472840阅读:1737来源:国知局
一种整合实时和非实时模式的大数据分析系统的制作方法
【技术领域】
[0001]本发明涉及大数据分析技术,更具体地,涉及一种整合实时和非实时模式的大数据分析系统。
【背景技术】
[0002]伴随着以互联网为基础的信息化服务的深度发展,例如社交网络全面应用、物联网技术的逐渐推广、电子商务和线上支付的日益普及等等,各种互联网平台所生成的数据量也呈现出急剧增长的态势。据统计,目前全球互联网之上的数据总量已经达到ZB级别(1ZB等于I万亿GB),并且以每两年提高一倍的速度继续快速增加。预计在2020年,人均拥有数据量将达到5200GB,届时人们的工作、教育、社交、娱乐、购物、医疗、投资等活动有可能都将依托各种互联网服务展开,并且产生各种形式的相关数据。
[0003]大数据分析技术就是将互联网平台上的海量数据作为对象进行查询、挖掘和分析,获得海量数据中的有效部分,并且从有效部分中提取出反映某些规律性的信息。通过对这些信息加以利用,可以取得互联网平台用户的总体和个体特征,执行用户需求的合理预测,改善服务和用户体验。在基于大数据分析技术的后台之上,可以实现有针对性的服务流程优化、目标化消息及广告推送、用户体验的个性化改善等功能。
[0004]互联网平台的大数据分析体现出如下的特点:首先,作为分析目标的数据规模庞大,一般只有具备100TB以上的可分析数据才能够称之为大数据分析,但实际大数据分析系统的目标数据量都远远超过这一下限。第二,作为分析目标的数据呈现充分的多源化和异构性。在早期的数据分析模式当中,数据多是通过专门用于执行用户反馈信息收集或采样的表单页面生成的结构化数据,数据的单位和格式也基本相同,而在当前的互联网服务平台当中,分析目标数据伴随着整个互联网服务的运行流程而生成,例如用户在网络论坛的发帖、在社交网络平台的转发、在多媒体内容提供服务中的点播记录以及在电子商务行为中的浏览和交易记录,都是大数据分析的目标,可见数据来源呈现出复杂的多源化状态。而且,目标数据的数据类型和数据结构繁多,具有预定格式的结构化数据只占目标数据的一部分,海量的照片、视频、动态图形、聊天记录、网帖等等以非统一结构的数据形式存在,还具有非结构化的数据流,例如传感器实时数据等。多源化的数据来源和复杂化的数据结构使得大数据分析系统难以用传统的数据库表单加以表示,因而大数据分析系统必须具有面向非结构化的数据的处理和分析机制。第三,大数据分析系统要求较快的处理速度,理想状态是达到实时分析。一方面,互联网数据量呈现迅速增长的趋势,客观上要求大数据分析系统实现较快的数据处理;另一方面,互联网数据的价值具有随着时间延迟而迅速衰减的特点,互联网服务自身的特性也要求能够对用户状态作出尽可能快的响应。例如,在线电子商务活动中,用户的购买需求具有很强的时效性,当用户针对某一类产品进行浏览时,就要求电子商务平台在该用户行为持续的有效时间内正确分析用户的需要并给予相关的产品推荐等服务,而这一有效时间可能只有十分钟以内的持续期,可见支持这一运行模式的大数据分析系统必须具备快速的数据处理和分析能力。第四,大数据分析的目标数据价值密度低。大数据分析的目标数据主体是非统一结构化的原始数据,而且通常不执行采样处理,而是采用全体数据,这样能够呈现出原始数据的全部细节,但是也会引入大量的错误或者无用数据,因此从整体上看,目标数据的低价值密度必然意味着大数据分析系统需要持续性地执行大量的分析运算,才能从海量的目标数据当中挖掘足够的有效信息。
[0005]通过上述特点,我们可以看到,大数据分析的数据运算量、多源异构性数据的处理复杂度以及对高速处理分析的需要,都对大数据分析系统的运算性能提出了较高的要求。在实际应用当中,由于受到软硬件及网络资源的限制,难以使大数据分析的全部任务均达到实时处理和响应。因此,现有技术中的大数据分析系统一般需要构建由实时分析系统和非实时分析系统组成的双平台架构。
[0006]在现有技术中,实时分析系统和非实时分析系统基于各自业务不同的时间性要求,按照不同的数据结构形式组织互联网平台的目标数据,响应不同的需求而分别执行不同分析计算,然后将目标数据存储于不同的数据库系统。为了外部访问大数据分析结果的便利,可以为实时和非实时分析系统提供统一的中间层接口。具体如图1所示,采集系统101实时性地获取互联网服务平台的业务数据;进而,面向实时分析系统102和非实时分析系统103,采集系统101分别提取符合各系统预定分析条件的目标数据,进而按照不同的数据结构对目标数据进行组织。其中对于需要执行实时分析的数据,采集系统101按照消息流进行组织,然后把消息流实时传输到实时分析系统102。而对于执行非实时分析的数据,则由采集系统101将数据集成为日志数据,然后按照定时传输给非实时分析系统103进行处理和分析。实时分析系统102基于对所述消息流的分析所形成实时性结果数据,该实时性结果数据被传送至对外部查询请求的响应具有良好的时间性的实时集中数据库系统104 ;实时分析系统102和非实时分析系统103均可以产生非实时性结果数据,该非实时性结果数据可以被传送至非实时性分布数据库系统105进行保存。各个具有实时或者非实时响应要求的外部应用线程107通过统一的中间层接口 106访问实时集中数据库系统104和非实时性分布数据库系统105,对实时性和非实时性结果数据进行查询,所获得的查询结果能够为外部应用线程107的功能实现提供支持。
[0007]现有技术由于采用了实时分析系统和非实时分析系统二者分立存在的双平台架构,因而存在一定的缺陷。具体来看,虽然整个系统采用了统一的接口向外部应用提供服务,但是在内部,实时分析系统和非实时分析系统在数据结构、分析处理算法和结果反馈等方面都呈现完全不同的机制,因而基本上处在彼此分离运行的状态,二者无法进行有效的整合,具有对相同目标数据执行重复分析造成资源配置低效的问题,也存在实时分析和非实时分析之间不能实现数据和结果交互的缺陷。例如,在线电子商务活动中,用户针对产品的浏览、搜索、加入购物车等行为记录数据会在实时分析系统中得到处理,从而获得实时性的响应结果,例如对用户给予同类商品或者关联商品的即时广告推送;另一方面,用户的上述行为记录也会被纳入相关日志数据的一部分,在之后的特定定时期间被传送至非实时分析系统,用于执行对用户行为模式的分析。上述模式在一定程度上存在重复性计算,对实时和非实时分析结果的融合在现有架构中也比较难以实现。
[0008]同时,双平台独立架构以及平台当中完全异构化的数据和计算方式也造成大数据分析系统整体复杂度加大,难以用统一的模式进行资源分配、任务管理和过程控制,使得大数据分析系统在建设、运行和维护方面的难度和成本都会增加。

【发明内容】

[0009]基于现有技术中的上述缺陷,本发明提供了一种整合实时和非实时模式的大数据分析系统。本发明对外通过统一的中间层接口提供具有实时响应和非实时响应的大数据分析业务,内部则建立了面向实时模式与非实时模式二者统一的数据结构、分析处理运算和结果反馈机制,并且通过基于优先权重参数的资源分配和任务调度,满足不同分析任务实时或者非实时性的响应时间要求。
[0010]本发明所述的整合实时和非实时模式的大数据分析系统,其特征在于,包括:
[0011]采集系统,用
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1