本发明属于大数据技术领域,尤其涉及一种基于云服务平台的大数据计算控制系统及方法。
背景技术:
目前,业内常用的现有技术是这样的:随着时代发展,大数据已经渗透我们生活的方方面面。在经济生活或者工业生产中产生的数据量越来越大,传统的计算控制系统已经不足以应对如此巨大的数据量。为了充分利用这些数据,以进一步加快技术的进步或者更好的服务于人们的生活,催生了大数据系统。能源管理平台作为独立的软件系统存在,关键功能在于展现能耗分类指标,未能与生产控制系统结合起来,难以实现能耗自动化、智能化监视及反向控制的目标。现有的大数据分析技术内存占用率高,导致运算速率低;运算效率不高,数据反馈慢。
综上所述,现有技术存在的问题是:现有的大数据分析技术内存占用率高,导致运算速率低;运算效率不高,数据反馈慢。
技术实现要素:
针对现有技术存在的问题,本发明提供了一种基于云服务平台的大数据计算控制系统及方法。
本发明是这样实现的,一种基于云服务平台的大数据计算控制方法,所述基于云服务平台的大数据计算控制包括以下步骤:
第一步,采集各项数据;
第二步,对日志数据进行时间序列化处理,形成数据流;基于多粒度通讯的dijkstra并行算法、spark内存计算技术、时间序列分析法的实时大数据计算分析处理采集数据,生成并行结果;
第三步,合并并行结果,生成处理结果;
第四步,利用存储器将采集的数据资源及处理后的数据进行存储;
第五步,利用显示器显示所述数据存储模块中的数据信息。
进一步,所述第二步中多粒度通讯的dijkstra并行算法包括:从数据源点开始,寻找与数据源点关联的数据节点,然后从中取出权值最小数据节点;重复扩张过程,并更新对应数据节点的权值;当数据节点权值不能再进行更新时,将该数据节点的标识修改为永久标识;数据节点的权值为该数据节点到数据源点的最短距离;当从数据源点和数据终点开始的进程首次将某一个节点的标识都修改为永久标识时,则可判定由源点经该节点到终点的路径为最短路径。
进一步包括:
(1)开辟两个进程1,2,分别从源点和终点开始扩张;
(2)将永久标识的节点发送给进程2,在进程2中判断该点标识是否也被修改成永久标识;同样的,进程2把永久标识节点发送给进程1,作同样的判断;若已存在被两个进程都标识为永久标识的节点时,则停止运算;若不存在,则继续进行节点的扩张;
(3)重复节点选择和节点松弛操作,将新得到的永久标识节点在进程间进行交换,重复(2)直至获取到最终路径为止。
进一步,所述第二步中时间序列分析法包括:
(1)对时间序列数据进行平稳性检验,通过时间序列的散点图或折线图对序列进行初步的平稳性判断;采用adf单位根检验来精确判断该序列的平稳性;对非平稳的时间序列,先对数据进行取对数或进行差分处理,然后判断经处理后序列的平稳性;重复以上过程,直至成为平稳序列;
(2)利用自相关系数和偏自相关系数这两个统计量识别arma(p,q)模型的系数特点和模型的阶数;若平稳序列的偏相关函数是截尾的,而自相关函数是拖尾的,可断定序列适合ar模型;若平稳序列的偏相关函数是拖尾的,而自相关函数是截尾的,则可断定序列适合ma模型;若平稳序列的偏相关函数和自相关函数均是拖尾的,则序列适合arma模型;自相关函数成周期规律的序列,可选用季节性乘积模型;自相关函数规律复杂的序列,可能需要作非线性模型拟合;
(3)确定模型阶数后,应对arma模型进行参数估计;采用最小二乘法ols进行参数估计;
(4)完成模型的识别与参数估计后,应对估计结果进行诊断与检验,以求发现所选用的模型是否合适;若不合适,应该知道下一步作何种修改。
进一步,所述第四步中利用存储器将采集的数据资源及处理后的数据进行存储具体包括:
(1)将采集的数据资源及处理后的数据划分,对每次的数据进行分别处理;
(2)根据采集时间数据处理精度,将每次所有时间点按顺序进行标记;
(3)用128位的随机数种子s,s以sha-1256算法进行hash,hash所得256位数据一分为二,即s11和s12;s11和s12重复上述过程,继续通过sha-1256进行扩展和分裂;扩展和分裂操作将持续到所产生的二叉树叶子节点能够覆盖所选择精度对应的所有时间点;
(4)将(2)产生的标记,按编号顺序,对应到第三步产生的叶子节点上,或者说每个时间点被转化成了256位的hash值;
(5)根据叶子节点情况进行合并,合并后转变为上层节点,直到无法合并为止;
(6)合并后的节点进行乱序处理,作为起止时间node数据存储。
本发明的另一目的在于提供一种实现所述基于云服务平台的大数据计算控制方法的基于云服务平台的大数据计算控制系统,所述基于云服务平台的大数据计算控制系统包括:
数据采集模块,与并行处理模块、日志处理模块相连,采集各项数据;
并行处理模块,处理数据采集模块采集的数据,生成并行结果;
合并模块,合并并行处理模块生成的并行结果,生成处理结果;
日志处理模块,对将日志数据进行时间序列化,形成数据流进行处理;
数据存储模块,存储采集的数据资源及处理后的数据;
显示模块,显示数据存储模块中的数据信息。
本发明的另一目的在于提供一种实现所述基于云服务平台的大数据计算控制方法的计算机程序。
本发明的另一目的在于提供一种实现所述基于云服务平台的大数据计算控制方法的信息数据处理终端。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的基于云服务平台的大数据计算控制方法。
综上所述,本发明的优点及积极效果为:利用数据采集模块采集各项数据,将原始数据和经过并行处理模块和日志处理模块处理后的数据通过数据存储模块存储在存储器中,用户可以通过显示模块查看各项数据。利用大数据分析电力或其他能源的购买量、预测能源消费、管理能源用户、提高能源效率、降低能源成本,本发明结构合理,可以有效提高能源的利用。可以有效解决背景技术中的问题。
本发明的并行处理模块利用spark内存计算技术,完成各项常用分析算法,提高了效率与容错率,同时对实时性要求高的计算结果推送给应用层或客户端;并行处理模块的实时大数据计算分析,完成调度算法、动态预测、安全分析,分析电力或其他能源的购买量、预测能源消费、管理能源用户。
与现有技术相比,本发明具有如下有益效果:利用数据采集模块采集各项数据,将原始数据和经过并行处理模块和日志处理模块处理后的数据通过数据存储模块存储在存储器中,用户可以通过显示模块查看各项数据。利用spark内存计算技术,完成各项常用分析算法,提高了效率与容错率,同时对实时性要求高的计算结果推送给应用层或客户端;利用时间序列分析法有效实现对实时动态数据的监控及未来趋势的预测;利用实时大数据计算分析技术,完成调度算法、动态预测、安全分析,分析电力或其他能源的购买量、预测能源消费、管理能源用户。本发明结构合理,可以有效提高能源的利用。
附图说明
图1是本发明实施例提供的基于云服务平台的大数据计算控制系统结构示意图;
图中:1、数据采集模块;2、并行处理模块;3、合并模块;4、日志处理模块;5、数据存储模块;6、显示模块。
图2是本发明实施例提供的基于云服务平台的大数据计算控制方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有的大数据分析技术内存占用率高,导致运算速率低;运算效率不高,数据反馈慢的问题。本发明利用时间序列分析法有效实现对实时动态数据的监控及未来趋势的预测;利用实时大数据计算分析技术,完成调度算法、动态预测、安全分析,分析电力或其他能源的购买量、预测能源消费、管理能源用户。本发明结构合理,可以有效提高能源的利用。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的基于云服务平台的大数据计算控制系统包括数据采集模块1、并行处理模块2、合并模块3、日志处理模块4、数据存储模块5和显示模块6。
数据采集模块1:与并行处理模块2、日志处理模块4相连,采集各项数据。
并行处理模块2:处理数据采集模块1采集的数据,生成并行结果。
合并模块3:合并并行处理模块2生成的并行结果,生成处理结果。
日志处理模块4:对将日志数据进行时间序列化,形成数据流进行处理。
数据存储模块5:存储采集的数据资源及处理后的数据。
显示模块6:显示数据存储模块5中的数据信息。
如图2所示,本发明实施例提供的基于云服务平台的大数据计算控制方法包括以下步骤:
s201:采集各项数据;
s202:对日志数据进行时间序列化处理,形成数据流;基于多粒度通讯的dijkstra并行算法、spark内存计算技术、时间序列分析法的实时大数据计算分析处理采集数据,生成并行结果;
s203:合并并行结果,生成处理结果;
s204:利用存储器将采集的数据资源及处理后的数据进行存储;
s205:利用显示器显示所述数据存储模块中的数据信息。
在本发明的优选实施例中,步骤s202中,多粒度通讯的dijkstra并行算法包括:
dijkstra算法是从数据源点开始,寻找与数据源点关联的数据节点,然后从中取出权值最小数据节点;重复上述扩张过程,并更新对应数据节点的权值;当数据节点权值不能再进行更新时,将该数据节点的标识修改为永久标识;此时数据节点的权值为该数据节点到数据源点的最短距离;鉴于dijkstra算法每次都是选取网络中权值最小的数据节点进行扩张,当从数据源点和数据终点开始的进程首次将某一个节点的标识都修改为永久标识时,则可判定由源点经该节点到终点的路径为最短路径;
具体步骤包括:
1、开辟两个进程1,2,分别从源点和终点开始扩张;
2、将永久标识的节点发送给进程2,在进程2中判断该点标识是否也被修改成永久标识;同样的,进程2把永久标识节点发送给进程1,作同样的判断;若已存在被两个进程都标识为永久标识的节点时,则停止运算;若不存在,则继续进行节点的扩张;
3、重复节点选择和节点松弛操作,将新得到的永久标识节点在进程间进行交换,重复操作2直至获取到最终路径为止。
在本发明的优选实施例中,步骤s202中,spark内存计算技术包括:
spark是一个实现快速通用的集群计算平台,是一个通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序;
spark系统将数据第一次从磁盘读入内存生成一种抽象的内存对象,即弹性分布式数据集(简称rdd),此后用户程序只操作在内存当中的rdd,计算过程只涉及内存读写,因此大幅提升了数据处理效率;且spark采用了基于粗粒度的转化的接口,这种转化操作在计算过程中形成一种有向无环图(dag),称为“血统(lineage)”,“血统”实质上是建立一种数据间转换的关系,而不是数据本身,因此当出现系统故障时,便可通过这个“血统”提供的信息,计算丢失的数据,即以计算换取数据移动和复制,这样即可大量节省容错所带来的开销;
在本发明的优选实施例中,步骤s202中,时间序列分析法包括:
时间序列是按时间顺序的一组数字序列,时间序列分析就是利用这组数列,应用数理统计方法加以处理,以预测未来事物的发展;
其基本原理:一是承认事物发展的延续性:应用过去数据,就能推测事物的发展趋势;二是考虑到事物发展的随机性;任何事物发展都可能受偶然因素影响,为此要利用统计分析中加权平均法对历史数据进行处理;
时间序列分析方法基本步骤:
1、数据平稳化处理:
首先要对时间序列数据进行平稳性检验,可以通过时间序列的散点图或折线图对序列进行初步的平稳性判断;一般采用adf单位根检验来精确判断该序列的平稳性;对非平稳的时间序列,先对数据进行取对数或进行差分处理,然后判断经处理后序列的平稳性。重复以上过程,直至成为平稳序列。
2、模型识别
利用自相关系数和偏自相关系数这两个统计量来识别arma(p,q)模型的系数特点和模型的阶数;若平稳序列的偏相关函数是截尾的,而自相关函数是拖尾的,可断定序列适合ar模型;若平稳序列的偏相关函数是拖尾的,而自相关函数是截尾的,则可断定序列适合ma模型;若平稳序列的偏相关函数和自相关函数均是拖尾的,则序列适合arma模型;自相关函数成周期规律的序列,可选用季节性乘积模型;自相关函数规律复杂的序列,可能需要作非线性模型拟合。
3、参数估计
确定模型阶数后,应对arma模型进行参数估计;采用最小二乘法ols进行参数估计,需要注意的是,ma模型的参数估计相对困难,应尽量避免使用高阶的移动平均模型或包含高阶移动平均项的arma模型。
4、模型检验
完成模型的识别与参数估计后,应对估计结果进行诊断与检验,以求发现所选用的模型是否合适;若不合适,应该知道下一步作何种修改。这一阶段主要检验拟合的模型是否合理;一是检验模型参数的估计值是否具有显著性;二是检验模型的残差序列是否为白噪声。
在本发明的优选实施例中,步骤s204中利用存储器将采集的数据资源及处理后的数据进行存储具体包括:
第一步,将采集的数据资源及处理后的数据划分,对每次的数据进行分别处理;
第二步,根据采集时间数据处理精度,将每次所有时间点按顺序进行标记;
第三步,用128位的随机数种子s,s以sha-1256算法进行hash,hash所得256位数据一分为二,即s11和s12;s11和s12重复上述过程,继续通过sha-1256进行扩展和分裂;扩展和分裂操作将持续到所产生的二叉树叶子节点能够覆盖所选择精度对应的所有时间点;
第四步,将第二步产生的标记,按编号顺序,对应到第三步产生的叶子节点上,或者说每个时间点被转化成了256位的hash值;
第五步,根据叶子节点情况进行合并,合并后转变为上层节点,直到无法合并为止;
第六步,合并后的节点进行乱序处理,作为起止时间node数据存储。
本发明实施例提供的一种基于云服务平台的大数据计算控制系统,利用数据采集模块1采集各项数据,将原始数据和经过并行处理模块2和日志处理模块4处理后的数据通过数据存储模块5存储在存储器中,用户可以通过显示模块6查看各项数据。利用大数据分析电力或其他能源的购买量、预测能源消费、管理能源用户、提高能源效率、降低能源成本,本发明结构合理,可以有效提高能源的利用。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。