基于KKS编码规则和大数据架构的分析指标计算平台的制作方法

文档序号:16694811发布日期:2019-01-22 19:25阅读:414来源:国知局
基于KKS编码规则和大数据架构的分析指标计算平台的制作方法

本发明属于电厂监控管理技术领域,特别涉及一种基于kks编码规则和大数据架构的分析指标计算平台。



背景技术:

kks编码起源于德国,全称电厂标识系统,是一种根据功能、型号和安装位置来明确标识发电厂中的系统、设备、组件和建构筑物的编码体系。我国最早于20世纪90年代开始引进和使用kks,目前,大部分新建的电厂从建设数字化电厂的角度出发,要求必须采用kks编码系统,统一编码并标识图纸及现场的设备挂牌标识,这也使kks编码成为了具备数据采集和状态检修的信息系统中各功能模块联系的纽带,从而被广泛应用。

基于kks编码和大数据架构的分析指标计算平台,简称kkm,是一个强大的流式数据实时分析一站式产品。它实时处理来自不同数据源的数据,并且可以即时通过丰富的接口访问数据。kkm算法引擎协助kdm数据平台完成数据的加工和处理,是kdm数据平台的“协处理器”,用于在线加工计算各种特征量和指标量,是实施数据挖掘的核心部件。

目前的电厂监测系统在使用中还存在如下问题:

1.因为工业组织的复杂性,监测系统采集到的价值信息必须以众多的应用软件的形式来体现,不同的业务组织使用的软件、呈现的信息可能存在差异,因此需要通过大数据开发对监测到的信息进行集中整理和分析,但大数据应用的外部价值在目前阶段常常被忽略;

2.监测系统监测到的数据往往数量庞大、特征分散,难以提供直观的信息;并且在对监测数据进行处理分析时,往往需要整合复杂的算法,但目前还缺少系统、明确的整合方式;

3.电站已经建立的各类专业化计算机系统,各种自动化装置,自动化系统,监测系统,信息化系统等,数据分析技术可以用于源系统自身的功能升级和改造,但因彼此之间相对独立,关联能力弱,难以产生质的升华。



技术实现要素:

为了解决上述技术问题,本发明提供了一种基于kks编码规则和大数据架构的分析指标计算平台。

本发明具体技术方案如下:

本发明提供了一种基于kks编码规则和大数据架构的分析指标计算平台,所述平台从实时数据平台获取通过kks编码规则进行数字化处理的数据、经过分析计算后将结果在应用展示平台进行展示,所述平台包括如下部分:

接收器模块,用于从不同的外部数据源获取数据,并对所述数据的格式进行统一

流式预处理模块,用于从所述接收器模块接收数据并进行过滤处理,得到可用的有效数据;

数据分发模块,用于根据需要确定数据分析流水线的数量,根据所述数据分析流水线的数量将所述有效数据分成多个数据流并进行分发;

流程管控模块,用于将所述数据流在所述平台内进行传送,并对所述数据流的流向进行管控;

数据计算模块,用于设计算法模型,并通过所述算法模型对所述数据流进行分析计算,得到指标化的数据;

数据发布模块,用于通过所述流程管控模块获取所述指标化的数据,并通过不同的协议、分别发布到不同的数据库中进行存储;

系统管理模块,用于为所述平台与所述应用展示平台提供链接,并将所述分析结果发送至所述应用展示平台进行展示。

进一步地,所述流式预处理模块包括如下部分:

数据清洗单元,用于对所述监测数据进行过滤处理,得到所述有效数据;

数据对齐单元,用于对所述有效数据进行缓存,并进行同步对齐,保证进入计算环节的数据在时间点上一致。

进一步地,所述数据清洗单元包括如下部分:

阈值过滤子单元,用于为所述数据设置上下阈值、确定有效范围,并将超出所述有效范围的数值丢弃或替换;

条件过滤子单元,用于为所述数据设置逻辑条件并进行判断,将不符合所述逻辑条件的数值丢弃或替换;

滤波子单元,用于对经过所述阈值过滤子单元和所述条件过滤子单元处理保留的数值进行光滑处理。

进一步地,所述数据分发模块包括如下部分:

数据分组单元,用于根据需要确定数据分析流水线的数量,将所述有效数据进行分组管理,得到多个数据流,相邻所述数据流之间可以存在交集;

数据集合单元,用于将不同的所述数据流中相同的所述有效数据进行合并。

进一步地,所述流程管控模块包括如下部分:

数据总线单元,用于为所述数据流在所述平台内的传送提供载体,根据所述数据的类型、所述数据流的数量以及所述数据的流通方向对所述数据流进行传输;

流程管理单元,用于对所有所述数据分析流水线的数据流向进行管控。

进一步地,所述数据计算模块包括如下部分:

工业智能块管理单元,用于将每个底层的原子性算法分别封装成一个独立的智能块;

实时流式计算单元,用于为每个所述数据分析流水线分别设计算法模型,并利用所述智能块构建出所述算法模型,通过所述算法模型对所述数据流进行实时流式分析;

批量历史计算单元,用于设计信息挖掘计算模型,并通过所述信息挖掘计算模型对所述流式分析的结果进行进一步挖掘;

机器学习单元,用于根据所述流式分析或所述挖掘的结果确定数据分析模型,并将所述数据分析模型反馈给所述实时流式计算单元或所述批量历史计算单元,从而对数据计算分析过程进行不断修正。

进一步地,所述实时流式分析的方法如下:

每条所述数据加工流水线分别对一组所述数据流进行处理,得到一系列衍生数据作为中间数据;根据需要设置多条指标加工流水线,将所述中间数据按照所述指标加工流水线的数量分组,每组所述指标加工流水线分别对一组所述中间数据进行处理,并分别输出一个指标化的数据。

进一步地,所述实时流式计算单元包括如下部分:

计数子单元,用于对所述有效数据进行计数,所述计数包括简单计数和窗口计数;

数据判断子单元,用于对所述数据的属性进行判断并相互关联,对警报信息设置阈值范围,并对丢失或错误的信息进行检测;

事件判断子单元,用于对计算过程中出现的事件进行判断并相互联结;

序列判断子单元,用于对所述事件的序列模式进行检测,据此跟踪所述数据的实时状态,并判断所述数据的变化趋势;

学习预测子单元,用于根据所述变化趋势创建学习模型,并对所述数据的变化趋势进行预测和纠正;

算法模型构建子单元,用于将多个所述智能块进行连接和拼装,构建出所述算法模型。

进一步地,所述数据发布模块包括如下部分:

事件存储单元,用于对所述数据分析流水线上的数据质量判断事件进行存储;

实时量存储单元,用于对所述数据分析流水线上产生的中间数据和时序事件进行存储;

指标存储单元,用于对所述数据分析流水线得到的指标数据和模型信息进行存储。

进一步地,所述系统管理模块包括如下部分:

访问安全管理单元,用于对接入所述平台的用户设置访问权限,并进行安全管理;所述操作权限包括最高权限、二级权限和三级权限,所述最高权限具备编码增加、删除、修改、查看以及导出的功能;所述二级权限具备编码修改、查看以及导出的功能;所述三级权限仅具有查看和导出的功能;

服务组件管理单元,用于通过可扩展模式对接入所述平台的服务组件进行管理。

本发明的有益效果如下:本发明提供了一种基于kks编码规则和大数据架构的分析指标计算平台,接收器模块从海量数据中筛选出可利用的信息,通过流式预处理模块对数据进行预处理,并通过数据分发模块进行分组,从而便于大数据处理工作的开展;数据计算模块通过将复杂的算法整合成一体化的算法模型,从而可以系统、便捷地对数据进行处理,得到的指标化的数据由数据发布模块分发至相应的数据库进行存储,可以提供清晰、直观的结果信息;流程管控模块负责管理数据信息在整个平台内的流通和传递,将各个模块串联起来,同时系统管理模块用于将指标化的数据发送给应用展示平台进行展示,使不同工作系统可以有机结合,从而实现综合性的管理。通过上述设计,有效解决了传统的数据监测系统在使用中存在的问题,使kkm系统更加完善、能够满足更多的使用需求。

附图说明

图1为实施例1所述的一种基于kks编码规则和大数据架构的分析指标计算平台的结构示意图;

图2为实施例2所述的一种基于kks编码规则和大数据架构的分析指标计算平台的结构示意图;

图3为实施例3所述的一种基于kks编码规则和大数据架构的分析指标计算平台中数据清洗单元的结构示意图;

图4为实施例4所述的一种基于kks编码规则和大数据架构的分析指标计算平台中实时流式计算单元的结构示意图;

图5为实施例4所述的一种基于kks编码规则和大数据架构的分析指标计算平台中实时流式计算的流程图。

具体实施方式

下面结合附图和以下实施例对本发明作进一步详细说明。

实施例1

如图1所示,本实施例1提供了一种基于kks编码规则和大数据架构的分析指标计算平台(后文中均简称为“kkm平台”),所述平台从实时数据平台获取通过kks编码规则进行数字化处理的数据、经过分析计算后将结果在应用展示平台进行展示,所述平台包括如下部分:

接收器模块1,用于从不同的外部数据源获取数据,并对所述数据的格式进行统一;

流式预处理模块2,用于从所述接收器模块1接收数据并进行过滤处理,得到可用的有效数据;

数据收集有两种方式:主动和被动。主动方式下,平台通过接收器去拉取数据,例如定时从文件末端获取,从消息队列中获取。被动方式时,平台开放接收服务,外部服务通过写入的方式,将数据接入平台。

主动接收的数据包括来自消息队列的数据(使用jms、kafka等)、邮件内容包含的数据、本地文件的数据(例如csv文件)以及接收kkm平台内置数据库数据(例如内置实时库、内置关系库、内置nosql);被动接收的数据包括来自java端的数据(使用thrift、rest等协议)、来自javascript客户端的数据(使用websocket、rest等协议)、来自程序开发语言(如c/c++/python)的数据(使用thrift协议)以及来自其它kkm平台的数据。

数据分发模块3,用于根据需要确定数据分析流水线的数量,根据所述数据分析流水线的数量将所述有效数据分成多个数据流并进行分发;

流程管控模块4,用于将所述数据流在所述平台内进行传送,并对所述数据流的流向进行管控;

数据计算模块5,用于设计算法模型,并通过所述算法模型对所述数据流进行分析计算,得到指标化的数据;

当算法数量越来越多,算法逻辑越来越复杂时,如果没有有效的算法逻辑组织方式,设计人员将会在庞大的算法体系内毫无头绪,花费大量时间在算法逻辑的整理、检索、重复开发等工作上。数据计算模块5定义一套组织结构,帮助算法设计人员管理大规模复杂的算法,同时使算法组件化、可重复使用。

计算过程中,用户不必面对复杂的算法过程和算法脚本,算法逻辑通过验证,并可投入使用后,可以封装成算法模板,模板只暴露需要用户配置的参数,例如输入测点的编码、输出指标的编码,算法数据来源的基本参数,以及计算逻辑的参数等,用户无需关注具体的逻辑过程。用户配置完毕后,即可启动算法计算,并输出指标。算法模板是快速实施、大规模部署的快捷方式。

数据发布模块6,用于通过所述流程管控模块4获取所述指标化的数据,并通过不同的协议、分别发布到不同的数据库中进行存储;

系统管理模块7,用于为所述平台与所述应用展示平台提供链接,并将所述分析结果发送至所述应用展示平台进行展示。

本实施例提供的基于kks编码规则和大数据架构的分析指标计算平台,接收器模块1从海量数据中筛选出可利用的信息,通过流式预处理模块2对数据进行预处理,并通过数据分发模块3进行分组,从而便于大数据处理工作的开展;数据计算模块5通过将复杂的算法整合成一体化的算法模型,从而可以系统、便捷地对数据进行处理,得到的指标化的数据由数据发布模块6分发至相应的数据库进行存储,可以提供清晰、直观的结果信息;流程管控模块4负责管理数据信息在整个平台内的流通和传递,将各个模块串联起来,同时系统管理模块7用于将指标化的数据发送给应用展示平台进行展示,使不同工作系统可以有机结合,从而实现综合性的管理。通过上述设计,有效解决了传统数据监测系统在使用中存在的问题,使kkm系统更加完善、能够满足更多的使用需求。

实施例2

如图2所示,本实施例2在实施例1的基础上提供了一种基于kks编码规则和大数据架构的分析指标计算平台,该实施例2进一步限定了所述流式预处理模块2包括如下部分:

数据清洗单元21,用于对所述监测数据进行过滤处理,得到所述有效数据;

数据对齐单元22,用于对所述有效数据进行缓存,并进行同步对齐,保证进入计算环节的数据在时间点上一致。

因受环境的影响,监测到的实时数据总夹杂着噪声、毛刺等影响数据正常使用的无效数据,因此在进入实际分析前,必须经过过滤处理,才能消除无效数据造成的影响。

所述数据分发模块3包括如下部分:

数据分组单元31,用于根据需要确定数据分析流水线的数量,将所述有效数据进行分组管理,得到多个数据流,相邻所述数据流之间可以存在交集;

对数据进行流水线加工处理时,由于同一个指标需要用到多个不同的数据,而不同的指标也可能用到相同的数据,因此需要对其进行分组,同时组与组之间并不完全独立,可以存在共用的数据;

数据集合单元32,用于将不同的所述数据流中相同的所述有效数据进行合并;

数据传输的时候,为避免冗余数据增加系统的工作负担,需要对重复的数据进行合并、以减小数据的访问量,同时由于数据同步传输,也可以保证不同数据之间时序正常。

所述流程管控模块4包括如下部分:

数据总线单元41,用于为所述数据流在所述平台内的传送提供载体,根据所述数据的类型、所述数据流的数量以及所述数据的流通方向对所述数据流进行传输;

流程管理单元42,用于对所有所述数据分析流水线的数据流向进行管控。

流程管控模块4通过对平台内数据的流通进行追踪管控,为其他模块的运行提供全面的监视功能,包括系统运行监视、算法运行监视以及性能监视。系统运行监视主要是服务器资源信息,例如cpu负载,内存使用情况,程序线程情况,jvm垃圾回收情况等;算法运行监视是对算法逻辑过程形成一系列的指标度量,平台会自动收集性能分析参数,形成分析报告。kkm平台还可以对每一步计算逻辑进行跟踪,用户可以设置输出日志,从日志中查看某一步逻辑的输入和输出,经过对比便可得知计算逻辑是否正确,这有利于平台在实际使用中的诊断。

所述数据计算模块5包括如下部分:

工业智能块管理单元51,用于将每个底层的原子性算法分别封装成一个独立的智能块;

原子性算法包括加减乘除等不能进一步拆分的最底层的算法,将每个原子性算法分别封装成智能块,在计算过程中可以直接通过拼装构建算法模型,操作简单、使用方便;

实时流式计算单元52,用于为每个所述数据分析流水线分别设计算法模型,并利用所述智能块构建出所述算法模型,通过所述算法模型对所述数据流进行实时流式分析;

该单元具备实时在线式流式计算引擎框架,内嵌脚本分析引擎、storm引擎等,使用高效的脚本分析引擎,将分析过程模式化、标准化,让算法的开发过程变得如搭积木一般快捷、简单;

批量历史计算单元53,用于设计信息挖掘计算模型,并通过所述信息挖掘计算模型对所述流式分析的结果进行进一步挖掘;

该单元具备批量在线分析和大规模实时数据分析引擎框架,内嵌spark、hadoop等引擎;批量分析用于对历史数据进行统计与分析,它在实时分析的结果上作进一步深层次挖掘数据信息,管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求;该模块还可以提供与spark引擎匹配的使用界面,更加方便了spark的使用;

机器学习单元54,用于根据所述流式分析或所述挖掘的结果确定数据分析模型,并将所述数据分析模型反馈给所述实时流式计算单元52或所述批量历史计算单元53,从而对数据计算分析过程进行不断修正;

该单元集成当前业界流行的机器学习分析模型,可以根据实时流式计算单元和批量历史计算单元的计算结果作为数据源,并寻找出最合适的分析模型,并将模型反馈到实时分析或批量分析中使用,从而能不断地修正分析过程;支持以下机器学习算法:数值预测,涉及到线性回归、岭回归、套索回归等;分类:涉及到二元分类和多元分类;聚类;异常检测;深度学习;推荐系统。

所述数据发布模块6包括如下部分:

事件存储单元61,用于对所述数据分析流水线上的数据质量判断事件进行存储;

实时量存储单元62,用于对所述数据分析流水线上产生的中间数据和时序事件进行存储;

指标存储单元63,用于对所述数据分析流水线得到的指标数据和模型信息进行存储。

所述系统管理模块7包括如下部分:

访问安全管理单元71,用于对接入所述平台的用户设置访问权限,并进行安全管理;所述操作权限包括最高权限、二级权限和三级权限,所述最高权限具备编码增加、删除、修改、查看以及导出的功能;所述二级权限具备编码修改、查看以及导出的功能;所述三级权限仅具有查看和导出的功能;

服务组件管理单元72,用于通过可扩展模式对接入所述平台的服务组件进行管理。

实施例3

如图3所示,本实施例3在实施例1的基础上提供了一种基于kks编码规则和大数据架构的分析指标计算平台,该实施例3进一步限定了所述数据清洗单元21包括如下部分:

阈值过滤子单元211,用于为所述数据设置上下阈值、确定有效范围,并将超出所述有效范围的数值丢弃或替换;

条件过滤子单元212,用于为所述数据设置逻辑条件并进行判断,将不符合所述逻辑条件的数值丢弃或替换;

滤波子单元213,用于对经过所述阈值过滤子单元121和所述条件过滤子单元212处理保留的数值进行光滑处理。

进行数据清洗时,首先通过阈值过滤子单元211根据数值直接排除部分不符合阈值范围的数据;然后通过条件过滤子单元212设置详细的逻辑条件,对数值符合的数据进行进一步筛选;最后,通过滤波子单元213对保留下来的数据进行fft(快速傅里叶变换)处理,使数据更光滑,从而清除数据中的噪声和毛刺、保留有效信息。

实施例4

如图4所示,本实施例4在实施例3的基础上提供了一种基于kks编码规则和大数据架构的分析指标计算平台,该实施例4进一步限定了所述实时流式计算单元52包括如下部分:

计数子单元521,用于对所述有效数据进行计数,所述计数包括简单计数(如:失败次数)和窗口计数(如:每小时失败次数);

数据判断子单元522,用于对所述数据的属性进行判断并相互关联,对警报信息(如:高温报警)设置阈值范围,并对丢失或错误的信息进行检测(如:检测失效的传感器);

事件判断子单元523,用于对计算过程中出现的事件进行判断并相互联结(如:多分析流程相结合),并按条件检索数据库数据,分析后更新到数据库中;

序列判断子单元524,用于对所述事件的序列模式进行检测,据此跟踪所述数据的实时状态(如:物体在时间、空间中的状态),并判断所述数据的变化趋势,包括上升、转弯、下降、离群等复杂的趋势(如:算法交易、sla服务等级协议、负载均衡等);

学习预测子单元525,用于根据所述变化趋势创建学习模型(如:预见性维护),并对所述数据的变化趋势进行预测(预测下一个值)和纠正;

算法模型构建子单元526,用于将多个所述智能块进行连接和拼装,构建出所述算法模型。

通过上述部分,使实时流式计算单元52能够实现机械计数-数据判断-事件判断-事件序列判断的一系列逐步递进的计算分析过程,并最终创建学习模型,并据此实现对数据变化趋势的预测,以及提前部署应对纠正措施。

如图5所示,对数据进行计算处理时,首先根据数据加工流水线的个数对源数据进行分组,各组中可以存在共用的数据;分别将每组数据在相应的数据加工流水线上进行处理,得到一系列衍生数据作为中间数据;此时为了进一步将数据指标化,还需要设置多条指标加工流水线,将中间数据按照指标加工流水线的数量分组,每组中仍然可以存在共用的数据,将每组数据在相应的指标加工流水线上进行进一步处理,最终每条指标加工流水线分别输出一个指标化的数据,从而完成对实时数据的流式计算过程。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1