基于大数据技术的生产域数据质量准实时监控系统及方法与流程

文档序号:16209518发布日期:2018-12-08 07:33阅读:355来源:国知局

本发明涉及计算机软件设计技术领域,特别是一种生产域数据质量准实时监控系统及方法。

背景技术

目前大数据遍布安全生产的方方面面,在大数据的支撑下安全生产管理走向智慧化,通过整合各类数据信息对安全生产各领域的运行状况进行监测,实现安全生产管理工作的改进和优化。基于大数据的安全生产数据管理,具备高效率的捕捉、发现和分析能力,能够经济地从类型繁杂、数量庞大的数据中挖掘出有价值的信息,实现对数据信息的实时采集、数据存储、数据分析和综合查询等功能,为安全生产运行综合管理、综合调度、综合协调、综合指挥提供数据支撑。但是,由于生产运行过程中数据量庞大,每个数据对象有几十个字段数据,数据的处理与分析工作量大,靠人工监测无法实现,导致高质量数据的获取较为困难,特别是对于增量问题数据,无法进行快速的校验和反应,影响了数据问题发现的实时性。

大数据处理技术一般包括批处理大数据技术与流处理大数据技术,以hadoop开源社区技术为代表的批处理大数据系统需先将数据汇聚成批,经批量预处理后加载至分析型数据仓库中,以进行高性能实时查询。相较于这一类的非实时处理技术,以sparkstreaming、storm、flink等产品组件为代表的流处理大数据技术将实时数据通过流处理,逐条加载至高性能内存数据库中进行查询。此类系统可以对最新实时数据实现高效预设分析处理模型的查询,数据迟滞低,因此如果能够将大数据处理技术应用到生产数据管理系统中,必将能够提高企业生产数据管理的准实时性。



技术实现要素:

本发明需要解决的技术问题是提供一种能够对基于大数据技术的生产域数据质量准实时监控系统及方法,能够对增量问题数据进行快速校验反应,从根源上减少增量问题数据的产生,加快提升生产管理信息系统的数据质量水平。

为解决上述技术问题,本发明所采取的技术方案如下。

基于大数据技术的生产域数据质量准实时监控系统,包括:

数据接入层,用于接入各种类型的源数据;

数据存储处理层,对流数据进行分布式存储,并实时自动运行工作流向的离线批处理任务;

数据应用层,用于对数据质量进行实时分析,获取增量数据。

基于大数据技术的生产域数据质量准实时监控方法,具体包括以下步骤:

a.在裸的物理服务器上安装linux操作系统,部署基于容器的hadoop大数据平台;并在数据库中建立于数据的校验规则及质量特征相应的数据表;

b.使用基于数据库日志解释工具,监听数据库日志变化,实时解释增量日志,转化为数据库操作记录,写入到大数据平台;

c.源数据库数据变化的日志信息写入大数据平台后,根据实时性的要求,分为时间触发和事件触发来校验数据质量问题数据;

d.校验得到的问题数据,经过汇总后得到对象得分、系统得分、指标得分看板数据,供查询分析,还可通过内外网交换平台将得分数据同步到移动应用平台供手机客户端查询分析。

上述基于大数据技术的生产域数据质量准实时监控方法,步骤a中的操作系统采用centos或redhat操作系统。

上述基于大数据技术的生产域数据质量准实时监控方法,步骤a中的大数据平台包括docker容器组件和kubernetes容器编排组件的安装以及镜像仓库和镜像市场的部署。

上述基于大数据技术的生产域数据质量准实时监控方法,步骤a中所述数据的校验规则及质量特征包括校验规则信息、系统信息、对象信息、属性信息、组织机构、评价任务信息、调度日志、问题数据信息、指标属性分数、指标对象分数以及指标系统分数。

上述基于大数据技术的生产域数据质量准实时监控方法,步骤c中所述时间触发的方法为:源数据库中的日志文件通过数据采集中间件解析成目标数据平台可以使用的文件,并将数据更新到目标数据平台中,完成数据的准实时同步;然后通过工作流调度工具定时触发调用存储过程完成数据质量问题数据的校验。

上述基于大数据技术的生产域数据质量准实时监控方法,步骤c中所述事件触发的方法为:数据采集中间件捕获源数据库中的数据变更,并将变更日志送入到kafka消息队列中,通过目标数据平台的流处理引擎消费kafka消息队列中的数据,并使用特定的数据校验逻辑程序进行校验。

由于采用了以上技术方案,本发明所取得技术进步如下。

本发明能够对增量问题数据进行快速校验反应,从根源上减少增量问题数据的产生;同时通过将分布式计算体系应用到生产域数据质量校验中,实现了数据质量的准实时监控,缩短了存量问题数据的校验时间,达到了准实时数据问题发现的目的,可以使企业各类应用在大数据平台上使用高质量的数据以及进行灵活高效的数据分析,实现生产管理信息系统设备台帐和业务数据完整性、规范性、准确性、一致性、及时性,加快提升了生产管理信息系统的数据质量水平,能够支撑指标体系及资产管理辅助决策的高效运作,对于其所依赖的设备信息、运维信息等基本信息的准确性和完整性进行充分的保障。

具体实施方式

下面将结合具体实施例对本发明进行进一步详细说明。

一种基于大数据技术的生产域数据质量准实时监控系统,包括:数据接入层、数据存储处理层和数据引用层。其中,数据接入层,用于接入各种类型的源数据,例如4a系统、人资系统、财务系统、物资系统、营销系统以及生产系统等系统中传输的源数据。数据存储处理层,对流数据进行分布式存储,并实时自动运行工作流向的离线批处理任务。数据存储处理层设置有提供实时流数据的kafka消息队列,可解耦数据写入与数据读取,实时高可用性和高并发;还包括对流数据进行实时计算的流处理引擎;还包括数据采集和数据同步的中间件,支持从不同数据源获取数据,对数据的复杂转换操作,并最终将数据落地成不同格式;还包括提供数据的分布式存储和大数据量的离线计算功能的hadoop集群;还包括定时自动运行工作流上的离线批处理任务的工作流调度引擎。数据应用层,用于对数据质量进行实时分析,获取增量数据。包括包括数据质量分析平台和移动应用平台,可以从kafka消息队列实时获取增量数据或者从hadoop集群进行数据查询。

一种基于大数据技术的生产域数据质量准实时监控方法,具体包括以下步骤。

a.在裸的物理服务器上安装linux操作系统,部署基于容器的hadoop大数据平台;并在数据库中建立于数据的校验规则及质量特征相应的数据表。

本发明中操作系统采用centos或redhat等linux操作系统。大数据平台包括docker容器组件和kubernetes容器编排组件的安装以及镜像仓库和镜像市场的部署。

数据的校验规则及质量特征包括校验规则信息、系统信息、对象信息、属性信息、组织机构、评价任务信息、调度日志、问题数据信息、指标属性分数、指标对象分数以及指标系统分数等。

b.使用基于数据库日志解释工具,监听数据库日志变化,实时解释增量日志,转化为数据库操作记录,写入到大数据平台。

增量日志是指自从上一次的同步操作之后,对应源数据库进行的任何操作所产生的新增日志,也是下一次同步所需要对应的部分。

c.源数据库数据变化的日志信息写入大数据平台后,根据实时性的要求,分为时间触发和事件触发来校验数据质量问题数据。

时间触发的方法为:源数据库中的日志文件通过数据采集中间件解析成目标数据平台可以使用的文件,并将数据更新到目标数据平台中,完成数据的准实时同步;然后通过工作流调度工具定时触发调用存储过程完成数据质量问题数据的校验。

事件触发的方法为:数据采集中间件捕获源数据库中的数据变更,并将变更日志送入到kafka消息队列中,通过流处理引擎消费kafka消息队列中的数据,并使用特定的数据校验逻辑程序进行校验。

d.校验得到的问题数据,经过汇总后得到对象得分、系统得分、指标得分看板数据,供查询分析,还可通过内外网交换平台将得分数据同步到移动应用平台供手机客户端查询分析。

以上所述实施例仅是本发明的较佳实施例,并非对本发明作任何限制。凡是根据发明技术实质对以上实施例所作的任何简单修改、变更以及等效变化,均仍属于本发明技术方案的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1