可动态配置的大数据分析系统及方法_2

文档序号:9524634阅读:来源:国知局
。 阳05引其中步骤S4具体为:
[0059] S41 :判断所述预警冗余度值是否大于等于下界经验初始值;
[0060] 若是,则执行S42 :更新所述对象实例;
[0061] 若否,则执行S411 :判断所述对象实例是否处于就绪状态;
[0062] 若是,则执行S412 :激活所述对象实例,并返回步骤S41 ;
[0063] 若否,则执行S413:创建任务实例,并返回步骤S41;
[0064] 其中在步骤S42之后,还包括S43 :判断所述预警冗余度值是否小于等于上界经验 初始值; W65] 若是,则执行S44 :更新所述对象实例,并生成随机数;
[0066] 若否,则执行S431:判断所述对象实例是否处于就绪状态或重载状态;
[0067] 若是,则执行S432:删除所述对象实例,并返回步骤S43;
[0068] 若否,则执行S433:调整对象实例的参数,并返回步骤S43。 W例其中,步骤S412之后,还包括: 阳070] S414:判断是否激活成功; 阳〇7U 若是,则返回步骤S41;
[00巧反么则执行S415 :设定警示节点信息列表的节点状态为重载;
[0073] 步骤S413之后,还包括S416:判断是否创建成功;
[0074] 若是,则返回步骤S41; 阳0巧]反之,则执行S415。
[0076] 其中,步骤S432之后,还包括S434:判断是否删除成功;
[0077] 若是,则返回步骤S43;
[0078] 反之,则执行S415; 阳0巧]步骤S433之后,还包括S436 :判断是否调整成功;
[0080] 若是,则返回步骤S43;
[0081] 反之,则执行S415。
[0082] 其中,步骤S5具体为:
[0083]S51 :计算所述优化下界值:优化下界值=下界经验初始值+步长*随机数;
[0084]S52 :计算所述优化上界值:优化上界值=上界经验初始值-步长*随机数。
[00化]为了方便理解理解上述技术方案,本发明结合图1~图3提供一个具体的实施例 进行阐述。
[0086] 首先,需要说明的是,在大数据分析计算中,大规模分布式计算服务需要进行系统 优化,提高系统的容错性能仅仅从系统开发过程来保证是不够的。因为大数据分析计算系 统中设及系统性能的参数繁多,难W调控,运是一个十分困难的工作。针对运一挑战性的问 题,本发明提出一种可动态配置的大数据分析系统与方法,该系统包括实时数据存储管理 模块、实时流分析计算模块、离线分析模块、可视化模块等四大模块,每一个模块中都设计 了一个可进行动态配置管理的组件,如数据管理配置组件、实时流分析计算配置组件、离线 分析计算配置组件、动态配置组件。其中,动态配置组件是系统动态配置管理的核屯、,其同 时与各模块协同实现系统性能的配置优化。而系统可W采用当前最新的大数据平台技术进 行实现,如化doop、Kafka、Sparkstreaming、Hive等,目前本发明提供的系统通过产品线 部署检测,运行状况良好。
[0087] 本发明提出的可动态配置的大数据分析系统的总体结构,如图1所示。本系统采 用模块化设计,主要包括实时数据存储管理模块、实时流分析计算模块、离线分析模块、可 视化模块等四大模块。各个模块的主要功能如下:
[0088] (1)实时数据存储管理模块
[0089] 该模块由Ξ个组件构成,包括:实时流数据获取组件、实时流数据存储组件、实时 存储管理配置组件。
[0090] 实时流数据获取组件主要负责对现有大规模分布式服务集群中的实时流数据 进行获取,由该组件完成格式化、过滤和收集,在收集过程中,完成流数据的分批工作 化atchingmodule)。
[0091] 实时存储组件将格式化之后的数据交换格式JS0N异步发送至皿FS将数据批 batch进行存储,同时也由该组件将数据送到批队列化atchqueue)中提供给实时计算组 件。
[0092] 存储管理配置组件主要负责本模块动态配置相关控制参数。
[0093] 似实时流分析计算模块
[0094] 该模块由Ξ个组件构成,包括:实时流处理组件、实时数据分析组件、实时流分析 计算配置组件。
[0095] 实时流处理组件主要为实时分析组件提供服务。一方面,负责从皿FS中拉取离线 计算结果的相关数据提供分析组件做分析参考,运是属于实时分析的预计算;另一方面,将 分析结果持久化,既提供给上层可视化提供数据来源,也要将数据存储到皿FS。
[0096] 实时数据分析组件主要负责经典统计分析W及基于机器学习的智能分析,并对分 析算法负载进行任务调度,实现负载均衡。
[0097] 实时流分析计算配置组件主要负责本模块动态配置相关控制参数。 阳09引樹离线分析模块
[0099] 该模块由Ξ个组件构成,包括:离线数据处理组件、离线数据分析组件、离线数据 分析计算配置组件。
[0100] 离线数据处理组件主要为离线分析组件提供服务。一方面,负责从皿FS中拉取离 相关数据,为离线分析进行预计算;另一方面,将离线数据分析结果持久化,既提供给上层 可视化提供数据来源,也将计算结果数据存储到皿FS与NoSQL。 阳101] 离线数据分析组件主要负责经典的全局统计分析W及基于机器学习的全局智能 分析,并对离线分析算法负载进行任务调度,实现负载均衡。 阳102] 离线数据分析计算配置组件主要负责本模块动态配置相关控制参数。 阳103]对于离线计算分析模块主要是对分布式集群中数据进行离线的经典统计分析。
[0104] 离线数据分析任务按设定时间窗口进行调度,根据计算结果生成报表,供服务开 发和运维人员对服务进行资源调配W及后期优化参考。 阳1化](4)可视化模块
[0106] 该模块由四个组件构成,包括:动态配置组件、动态配置视图组件、实时分析视图 组件、离线分析视图组件。 阳107] 该模块主要对实时流分析计算模块W及离线数据分析计算模块所产生的计算结 果进行可视化展示,允许在设置的时延范围内提供动态图表,及时显示集群服务运行状态 和响应情况,对超过阔值数据进行报警处理。
[0108] 本模块展示的数据分为Ξ类:
[0109]a、实时分析视图组件展示实时分析数据
[0110] 该部分主要包括各分析结果实时汇总,W及实时统计分析与智能预测的数据。 阳111 ] b、离线分析视图组件展示离线分析数据
[0112] 该部分主要包括各种主题消息的汇总与状态分析与智能预测结果的展示,包括所 在地服务请求的统计汇总。
[0113] C、动态配置视图组件展示配置数据,并可关联到展示分析结果的检测精度。
[0114] 为了适应当前大规模分布式服务系统的服务状态的有效分析,提升实时分析的即 时分析效益,往往需要及时发现异常的分析任务,使得运种实时分析系统的可用性要求提 高,本发明对运种实时流计算系统构建了冗余配置技术,实现实时流计算系统的动态配置, 在保证系统可用性的前提下提高实时大数据分析系统的性能,提升即时分析的时效性。
[0115] 为便于讨论,其中对本发明所述系统作W下说明:
[0116] (1)系统有N个节点,共提供Μ类数据分析或统计计算任务;
[0117] 似本发明所述系统完成一类任务的组件之间是松散禪合的,即系统可为节点之间 提供可靠的异步通讯机制,同时异步之间的通讯开销相同。
[0118] 下面针对实时分析的时效性提出一种动态配置方法,首先对系统中的各种配置管 理工作的数据结构用BNF范式的基本语法形式来表示。
[0119] -、实例任务的数据结构
[0120] 设定一个时间窗口为timeWindow,在给定的timeWindow时间跨度内对整个大数 据分析系统本发明所述的一个实例对象请求定义为: 阳 121]Task: : = <Td,Load,λArrive,λQir〉
[0122] 其中Td表不判断对象计算任务失效的超时时间,Load是对象实例任务请求的平 均任务量,λArrive是一种存储对象实例请求到达率的数组,λcur是当前对象请求平均 到达率,初始时设定;λ化r=λArray[0]。 阳123] 二、节点相关的数据结构
[0124] 对系统中节点用NodelD进行唯一标识,用NodeName表示节点名,系统中节点信息 列表NodeListW及系统的对象实例列表ObjectList。
[01 巧]NodeList[NodelD]:: =〈NodeName,NodeCapacity,ActivelnstNum,ObjectList,NodeStatus,ObjTypeSet〉
[01%] 其中的NodeCapacity表示节点NodelD在单位时间内能处理的任务量,ActivelnstNum表示该节点活性实例数目,化jTypeSet表示该节点对象类型的集合,可W 为INADMIN、RTADMIN、或者OLADMIN。 阳127]ObjectList[ObjID]:: =〈ObjectName,ObjInstList,Task〉
[0128] 其中的化jID是系统中服务对象类的唯一标识,化jectName是系统中服务对象类 的名称,化jInstList表示该类服务对象所管理的
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1