一种工业大数据采集方法及系统与流程

文档序号:26102343发布日期:2021-07-30 18:13阅读:203来源:国知局
一种工业大数据采集方法及系统与流程

本发明涉及大数据领域,尤其涉及一种工业大数据采集方法及系统。



背景技术:

随着互联网技术的快速发展,无人化、智能化工厂将成为未来的发展趋势,通过对工业大数据的采集及分析,可以为工厂、企业提供可靠的生产指导,进而能够提高生产效率、降低成本。然而,当前的工业数据采集多是简单的将获取的原始数据发送到服务器进行存储,在面对大批量的工业数据时,采集数据的传输、存储对于服务器而言,无疑会大大增加服务器负载,严重时会大致服务器崩溃。



技术实现要素:

有鉴于此,本发明实施例提供了一种工业大数据采集方法及系统,以解决现有服务器负载过大的问题。

在本发明实施例的第一方面,提供了一种工业大数据采集方法,包括:

多进程并发采集工业数据,各采集节点对采集的工业数据自相关分析后,将工业数据发送至服务器;

基于nio服务器创建多线程工业数据处理任务,通过kafka生成多任务消息队列,对多任务消息队列中数据利用sparkstreaming进行处理,并将处理结果存储至hdfs文件系统。

在本发明实施例的第二方面,提供了一种工业大数据采集系统,包括:

采集模块,用于多进程并发采集工业数据,各采集节点对采集的工业数据自相关分析后,将工业数据发送至服务器;

数据处理模块,用于基于nio服务器创建多线程工业数据处理任务,通过kafka生成多任务消息队列,对多任务消息队列中数据利用sparkstreaming进行处理,并将处理结果存储至hdfs文件系统。

在本发明实施例的第三方面,提供了一种电子设备,至少包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例第一方面所述方法的步骤。

本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面提供的所述方法的步骤。

本发明实施例中,通过多进程并发采集工业数据,各采集节点对采集的工业数据自相关分析后,发送至服务器,基于nio服务器创建多线程工业数据处理任务,通过kafka生成多任务消息队列,对多任务消息队列中数据利用sparkstreaming进行处理,并将处理结果存储至hdfs文件系统。从而可以大大提升服务器负载能力,同时,能够提升服务器并行处理能力,提高工业数据的采集、传输、分析、存储过程的处理效率,保障工业数据的有序管理,方便后续数据利用,基于采集数据的自相关分析,可以有效减少传输数据量。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍,显而易见地,下面描述的附图仅仅是本发明的一些实施例,对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他附图。

图1为本发明的一个实施例提供的一种工业大数据采集方法的流程示意图;

图2为本发明的一个实施例提供的的一种工业大数据采集系统的结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明的说明书或权利要求书及上述附图中的术语“包括”以及其他相近意思表述,意指覆盖不排他的包含,如包含一系列步骤或单元的过程、方法或系统、设备没有限定于已列出的步骤或单元。此外,“第一”“第二”用于区分不同对象,并非用于描述特定顺序。

参见图1,图1为本发明实施例提供的一种工业大数据采集方法的流程示意图,包括:

s101、多进程并发采集工业数据,各采集节点对采集的工业数据自相关分析后,将工业数据发送至服务器;

根据服务器指令或采集节点处设定的采集指令,触发对工业数据的采集,通过多进程并发采集可以提高采集效率。

所述工业数据包括生成设备仪表数据、环境数据、生产状态监测数据等,具体可通过仪器仪表、工业传感器、视频监控等采集工业数据,并通过设备或传感器内部的通信模块进行数据。

对于采集的工业数据,在各采集节点进行自相关分析,以便自动丢弃去除冗余、重复或无效的数据。所述采集节点可以为设备或传感器,基于内部设定的数据发送逻辑,自动丢弃无效、冗余数据,也可以是局域网内,各生产线或作业区的数据管理系统,系统可以存储某一生产线、作业区或小型工厂的生产数据,并能转发至服务器进行存储、分析。

具体的,对同一采集节点不同时刻采集的同一类型工业数据,若数值变化在预设范围内,则对采集的对应类型的工业数据进行丢弃,若数据变化超过预设范围,则发送采集的对应类型的工业数据至服务器;

若预设时长内,服务器未接收到对应类型的工业数据,则控制采集节点发送对应的工业数据。

由于工厂或生产线在进行生产过程中,其生产参数很多保持不变,若直接将采集的生产数据上传,不仅对数据分析挖掘无用,同时,还会增加服务器或网络负担。对于一定时间内,变化细微的数据可以不用上传,一段时间后,再将所有采集的原始数据上传。

可选的,服务器对无效值或不符合一致性的数据进行清洗,对空值数据进行默认值填充。对于已上传至服务器数据,可能还存在大量无效、冗余或不具有一致性的数据,需要进行数据清洗,而对于空值数据,由于可能是自相关分析中丢弃的数据,可以采用默认值填充。

s102、基于nio服务器创建多线程工业数据处理任务,通过kafka生成多任务消息队列,对多任务消息队列中数据利用sparkstreaming进行处理,并将处理结果存储至hdfs文件系统。

nio(newio)服务器是一种非阻塞服务器,可以为传输数据提供缓存支持的数据容器,由服务集群nio根据数据请求创建多线程的数据处理任务,基于kafka消息订阅发布系统,方便数据的快速处理。

每个任务经sparkstreaming处理后,对应的处理结果可以存储至至hdfs文件系统。或者,根据处理结果访问hbase中存储的数据,所述hbase为基于hdfs(hadoopdistributedfilesystem)、分布式的非关系型数据库,基于hbase可以管理海量工业数据。

通过hbase数据库进行工业数据管理,并通过zookeeper进行master和regionserver的协调管理。基于zookeeper的协调管理可以实现服务器间的负载均衡,提高数据存储效率。

本实施例提供的方法,可以工业大数据的采集、传输、分析及存储效率,减轻服务器负担,方便工业数据管理。同时,减少数据传输量,筛选无用采集数据,提升数据的可靠性。

应理解,上述实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定,

图2为本发明实施例提供的一种工业大数据采集系统的结构示意图,该系统包括:

采集模块210,用于多进程并发采集工业数据,各采集节点对采集的工业数据自相关分析后,将工业数据发送至服务器;

其中,所述各采集节点对采集的工业数据自相关分析包括;

对同一采集节点不同时刻采集的同一类型工业数据,若数值变化在预设范围内,则对采集的对应类型的工业数据进行丢弃,若数据变化超过预设范围,则发送采集的对应类型的工业数据至服务器;

若预设时长内,服务器未接收到对应类型的工业数据,则控制采集节点发送对应的工业数据。

优选的,所述采集模块还包括:

清洗模块,用于服务器对无效值或不符合一致性的数据进行清洗,对空值数据进行默认值填充。

数据处理模块220,用于基于nio服务器创建多线程工业数据处理任务,通过kafka生成多任务消息队列,对多任务消息队列中数据利用sparkstreaming进行处理,并将处理结果存储至hdfs文件系统。

可选的,通过hbase数据库进行工业数据管理,并通过zookeeper进行master和regionserver的协调管理。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

可以理解的是,在一个实施例中,所述电子设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述计算机程序执行如实施例一中步骤s101~s102,处理器执行所述计算机程序时实现工业大数据的采集。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括步骤s101至s102,所述的存储介质包括如rom/ram等。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1