可动态配置的大数据分析系统及方法

文档序号:9524634阅读:946来源:国知局
可动态配置的大数据分析系统及方法
【技术领域】
[0001] 本发明设及大数据分析应用领域,尤其是设及一种可动态配置的大数据分析系统 及方法。
【背景技术】
[0002] 现在的商务智能系统、决策支持系统等日益要求支持大数据集成与分析,由于大 数据分析计算的数据量大、过程复杂、处理时间长,因而大数据分析及应用也正面临着一种 新的挑战:系统必须具有高可靠性,要求软件系统对变化具有自适应性,运些系统需要具有 在不中断系统服务前提下更新配置的能力,容错管理问题,如何在更新失败的情况下处理 异常,使系统保持正常稳定的运行。即动态配置技术是实现大数据平台软件自适应可靠性 的一种重要手段。
[0003] 早期的大数据并行处理框架化doop受限于单点故障及计算模式相对单一, 化doop2.0引入YARN运一通用资源管理系统,提升了系统可靠性和整个集群的资源利用 率,使其成为可W运行包括实时流处理框架Storm、Spark等多种大数据处理框架及编程模 式,但提高大数据分析应用系统的容错能力,进一步使系统具有好的可靠性仍然是一个难 题。 阳004] 当前正广泛兴起的大数据引擎Spark技术最初由UCBerkel巧大学的AMF*L油实验 室开发,现在是由Apache基金管理的开源项目。Spark的目标是满足绝大多数据数据处理W及挖掘的应用,使数据分析程序运行的更快,容错性更好的一种通用的支持内存计算的 模型。Spark引入了弹性分布式数据集巧esilientDistributedDataSets)畑D模型,W充 分利用内存资源提升计算效率。与其它的大数据处理框架不同的是,Spark可W在化ark、 MLlib、Gra地X和SparkStreaming的基础上利用一个引擎高效的处理从ETL到S化到机器 学习再到流数据的处理。使用Spark加SparkStreaming(或aiark,BlinkDB)用于实时和 批处理;使用SparkStreaming加MLlib用于流处理和机器学习;使用Spark加Gra地X用 于图流水线等。但运种新的实时性流计算框架尽管实时性能与容错性能得到了大的改善, 但系统的高可靠性与高可用性仍然是一个挑战性问题。
[0005] 随着大数据平台中分布式系统规模越来越庞大、行为越来越复杂,系统中出现的 各种故障也呈指数级增长,给工业界、政府部口带来非常严重的危害和损失,系统一旦发生 停机事件,将会带来巨大损失和困扰,因此运些大数据分析系统需要具有在不中断系统服 务前提下具有自动配置的能力,W提高系统的可靠性,增强系统风险控制能力,提高软件平 台的整体运行效率。针对相关技术中的问题,目前尚未提出有效的解决方案。

【发明内容】

[0006] 本发明所要解决的技术问题是:提供用于大数据分析计算运行期的动态优化配 置,W提高系统的可靠性,增强风险控制能力。
[0007] 为了解决上述技术问题,本发明采用的技术方案为:提供一种可动态配置的大数 据分析系统,包括:
[0008] 实时数据存储管理模块,用于在分布式服务集群中获取实时流数据,并动态配置 相关控制参数,并存储;
[0009] 实时流分析计算模块,用于统计分析实时数据,获得实时计算结果,并对实时分析 算法负载进行任务调整;
[0010] 离线分析模块,用于统计分析离线数据,获得离线计算结果,并对离线分析算法负 载进行任务调整;
[0011] 可视化模块,用于对实时计算结果及离线计算结果进行可视化展示,并在设置的 时延范围内提供动态图表,及时显示集群服务运行状态和响应情况,对超过阔值数据进行 报警处理。
[0012] 为解决上述问题,本发明还提供一种大数据分析系统的动态配置方法,包括如下 步骤:
[0013]S1 :预设时间窗口,由动态配置管理器预设警示数据结构,并初始化;
[0014] S2:在节点内根据对象实例的任务类型设定对象实例的预警冗余度下界与上界的 经验初始值W及一个参数调整步长常数;
[0015] S3 :计算对象实例的预警冗余度值;
[0016] S4 :确定所述预警冗余度值位于下界与上界的经验初始值之间,并生成随机数;
[0017]S5:根据步长、随机数、上界及下界的经验初始值,计算出优化上界值及优化下界 值;
[0018] S6 :确定所述预警冗余度值位于优化下界值与优化上界值之间;
[0019] S7 :在预设的时间窗口内,轮询动态配置管理中的警示信息列表;
[0020] S8 :针对节点状态的警示信息列表,修改节点状态,W实现节点的动态维护。
[0021] 本发明的有益效果在于:区别于现有技术,本发明通过上述模块的协同配合,实现 系统性能的配置优化,同时通过计算警示冗余度,使得系统可运行于一个高效率的大数据 分析计算平台上,既提高了系统的可靠性,又增强风险控制能力。
【附图说明】
[0022] 图1为本发明系统的结构示意图;
[0023] 图2为本发明方法中系统各节点处于NORMAL状态时各类对象实例冗余度的动态 维护的流程示意图;
[0024] 图3为本发明方法中基于警示信息列表中节点状态的动态配置维护流程示意图。
【具体实施方式】
[0025] 为详细说明本发明的技术内容、所实现目的及效果,W下结合实施方式并配合附 图予W说明。
[00%] 本发明最关键的构思在于:通过系统的各个模块的协同作用,实现系统性能的配 置优化,进而获得高效率的大数据分析计算平台。
[0027] 请参照图1,本发明实施例提供一种可动态配置的大数据分析系统,包括:
[0028] 实时数据存储管理模块,用于在分布式服务集群中获取实时流数据,并动态配置 相关控制参数,并存储;
[0029] 实时流分析计算模块,用于统计分析实时数据,获得实时计算结果,并对实时分析 算法负载进行任务调整;
[0030] 离线分析模块,用于统计分析离线数据,获得离线计算结果,并对离线分析算法负 载进行任务调整;
[0031] 可视化模块,用于对实时计算结果及离线计算结果进行可视化展示,并在设置的 时延范围内提供动态图表,及时显示集群服务运行状态和响应情况,对超过阔值数据进行 报警处理。
[0032] 其中,所述实时数据存储管理模块包括:
[0033] 实时流数据获取组件,用于获取分布式服务集群中的实时流数据,并进行格式化、 过滤、收集,并在收集过程中,完成流数据的分批工作;
[0034] 实时存储组件,用于将格式化之后的数据交换格式异步发送至皿FS,将数据批进 行存储。
[0035] 存储管理配置组件,用于实时数据存储管理模块动态配置相关控制参数。
[0036] 其中,所述实时流分析计算模块包括:
[0037] 实时流处理组件,用于从皿FS中获取数据W进行实时分析,获取实时计算结果; 并将实时计算结果持久化,发送给可视化模块,W及存储到皿FS中;
[0038] 实时数据分析组件,用于对实时数据进行统计分析W及基于机器学习的智能分 析,并对实时分析算法负载进行任务调度,实现负载均衡;
[0039] 实时流分析计算配置组件,用于实时流分析计算模块动态配置相关控制参数。
[0040] 其中,所述离线分析模块包括:
[0041] 离线数据处理组件,用于从皿FS中获取离线数据W进行离线分析,获取离线计算 结果,并将离线计算结果持久化,发送给可视化模块,W及存储到皿FS与NoSQL中。
[0042] 离线数据分析组件,用于对离线数据进行统计分析W及基于机器学习的智能分 析,并对离线分析算法负载进行任务调度,实现负载均衡;
[0043] 离线数据分析计算配置组件,用于离线分析模块动态配置相关控制参数。
[0044] 其中,所述可视化模块包括:
[0045] 动态配置组件,用于协同上述模块,实现系统性能的配置优化;
[0046] 实时分析视图组件,用于可视化展示实时计算结果,包括实时汇总、实时统计分析 及智能预测的数据。
[0047] 离线分析视图组件,用于可视化展示离线计算结果,包括主题消息的汇总、状态分 析及智能预测结果的展示,W及所在地服务请求的统计汇总。
[0048] 动态配置视图组件,用于展示配置数据,并关联到展示实时计算结果及离线计算 结果的检测精度。
[0049] 一种大数据分析系统的动态配置方法,包括如下步骤:
[0050] S1 :预设时间窗口,由动态配置管理器预设警示数据结构,并初始化;
[0051] S2:在节点内根据对象实例的任务类型设定对象实例的预警冗余度下界与上界的 经验初始值W及一个参数调整步长常数;
[0052]S3 :计算对象实例的预警冗余度值;
[0053] S4 :确定所述预警冗余度值位于下界与上界的经验初始值之间,并生成随机数;
[0054] S5:根据步长、随机数、上界及下界的经验初始值,计算出优化上界值及优化下界 值; 阳化5] S6 :确定所述预警冗余度值位于优化下界值与优化上界值之间;
[0056] S7 :在预设的时间窗口内,轮询动态配置管理中的警示信息列表;
[0057] S8 :针对节点状态的警示信息列表,修改节点状态,W实现节点的动态维护
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1