一种工业海量非结构化数据处理方法及系统与流程

文档序号:17926325发布日期:2019-06-15 00:26阅读:289来源:国知局
一种工业海量非结构化数据处理方法及系统与流程

本技术发明属于工业生产数据统计分析领域,具体涉及一种工业海量非结构化数据处理方法及系统。



背景技术:

随着工业的迅猛发展,在面向大型设备的企业信息化过程中,越来越多的数据采集被用到了工业生产中,进而捕获了大量的工业监测数据。由于绝大部分监测数据由传感器产生,多为时序数据为主,这些数据通常具有数据量大,易丢失、具有高度的领域相关性等特点,同时也以一种非结构化的形式存在。

近年,云计算技术的快速普及以及物联网、移动互联网应用程序的大规模爆发,人类已经全面进入到“大数据”时代,各个行业和领域都在致力于研究如何利用大数据分析来优化流程,监测发展趋势,从而更好地做出决策。借助于云计算的处理与应用模式,通过数据相关分析法,可以实现智慧预测和价值服务。大数据已经成为各行业的重要资产,数据分析能力正在成为核心竞争力。

现有技术中,为记录生产环境中的工作状态信息,设备上装置有传感部件,用于捕获生产中的环境信息,捕获到的信息多以log信息存储在设备中。生产中有数据采集设备,也可以捕获数据信息,但无法存储为结构化数据。这种方式存在当读取生产中的监控信息时,需要人工查看log文件,比较消耗人力和时间,且效率较低的问题。在此基础上,提出了在生产环境中,为捕获生产中的状态信息,采用较为先进的捕获设备,并为捕获设备配备专用的存储设备,用于存储捕获到的信息数据。并能将捕获的信息在显示设备上实时显示出来。这种方式在实际实施时需设置数据采集设备需要捕获的信息类型;设置数据采集设备捕获后的信息存放的地址信息;设置数据采集信息显示的设备类型及显示区域;用曲线将所有时间单元内的趋势点按照时间先后顺序连接形成趋势图。但简单的进行时间分段取极值,当数据量较大时,比如需要显示几个月甚至更长时间数据时,筛选出来的极值点较多,影响绘图速度,同时,绘制的曲线会丢失局部的特征值,该特征值即不是极大值,也不是极小值,但是会影响到曲线的走势,是不可以忽略的。

工业领域,企业生产的数据有多种来源,且分布于多个独立的系统,各数据源的数据彼此孤立。对于企业基于数据的决策分析者来说,难以利用企业拥有的全部数据资源实现企业的生产优化、经营管理的优化等。因此,为了监控系统的即时与历史运行状态,保存企业生产的海量数据,为企业制造及流程的优化提供信息支撑,所以急需寻求一种工业海量非结构化数据处理方法及系统,将海量的非结构化数据转化为结构化数据,数据存储,再用于生产的管理及运营中简化数据处理并将数据可视化成图像更方便生产管理及运维。



技术实现要素:

本发明针对现有技术中所存在的工业监控数据尤其是采集频率较高、周期较长的数据非结构化的问题,提供了一种将海量的非结构化数据转化为结构化数据的工业海量非结构化数据处理方法及系统。

本发明就上述技术问题而提出的技术方案如下:一种工业海量非结构化数据处理方法,包括:获取生产中产生的非结构化数据;将所述非结构化数据转化为结构化数据;提取所述结构化数据,构建生成器函数,按照生成器函数所建立的筛选条件,对所述结构化数据进行清洗,筛选出有效值,从筛选出的所有时间段和与该时间段对应有效值中分别提取时间和有效值,建立并展示筛选后的时间和有效值之间的关系曲线。

其中,所述将所述非结构化数据转化为结构化数据进一步包括:将获取到的非结构化数据通过sparksql读取为rdd,或将多个文本文件读取为一个pairrdd,形成带有键值对的文件,并将读取后的结构化数据文件转换为.csv文件;将所述.csv文件保存在存储设备上。

其中,所述生成器函数包括设定的单阈值筛选条件,累积阈值筛选条件,在某一时间段按照单阈值筛选条件,累积阈值筛选条件对结构化数据进行清洗,满足单阈值和/或累积阈值筛选条件的结构化数据进行保留,否则进行清洗。

其中,所述单阈值筛选条件为:当前值与最新筛选出的值之间的差值与单阈值进行比较,如果大于单阈值作为最新筛选出的有效值进行保留,否则进行清洗;所述累积阈值筛选条件为:当前值和与最新筛选出的值进行比较,如果当前值和最新筛选出来的数值差值的代数和大于累积阈值,则保留最新当前值,并将最新当前值作为最新筛选出的有效值进行保留,否则进行清洗。

其中,所述生成器函数还包括绝对阈值筛选条件,所述绝对阈值筛选条件为:当前值与筛选值的累积差值在某一时间段小于绝对阈值,该时间段为恒定段,保留该恒定段的起始点和终点数据值。

另一方面,本发明还提供了一种工业海量非结构化,包括:数据采集模块,用于获取生产中产生的非结构化数据;数据转换模块,连接所述数据采集模块,用于将所述非结构化数据转化为结构化数据;数据清洗和展示模块,连接所述数据转换模块,用于提取所述结构化数据,构建生成器函数,按照生成器函数所建立的筛选条件,对结构化数据进行清洗,筛选出有效值,从筛选出的所有时间段和与该时间段对应有效值中分别提取时间和有效值,建立并展示筛选后的时间和有效值之间的关系曲线。

其中,所述数据转换模块进一步包括:转换模块和存储模块,转换模块,连接所述数据采集模块,用于将获取到的非结构化数据通过sparksql读取为rdd,或将多个文本文件读取为一个pairrdd,形成带有键值对的文件,并将读取后的结构化数据文件转换为.csv文件;存储模块,连接所述转换模块,用于将所述.csv文件保存在存储设备上。

其中,所述数据清洗和展示模块进一步包括:数据清洗模块和展示模块,数据清洗模块,用于构建生成器函数,所述生成器函数包括设定的单阈值筛选条件,累积阈值筛选条件,在某一时间段按照单阈值筛选条件,累积阈值筛选条件对结构化数据进行清洗,满足单阈值和/或累积阈值筛选条件的结构化数据进行保留,否则进行清洗。

其中,所述数据清洗模块进一步包括:单阈值筛选模块和累积阈值筛选模块,所述单阈值筛选模块,用于将当前值与最新筛选出的值之间的差值与单阈值进行比较,如果大于单阈值作为最新筛选出的有效值进行保留,否则进行清洗;所述累积阈值筛选模块,用于将当前值和与最新筛选出的值进行比较,如果当前值和最新筛选出来的数值差值的代数和大于累积阈值,则保留最新当前值,并将最新当前值作为最新筛选出的有效值进行保留,否则进行清洗。

其中,所述数据清洗模块还包括:绝对阈值筛选模块,所述绝对阈值筛选模块,用于设定一绝对阈值筛选条件,当前值与筛选值的累积差值在某一时间段小于绝对阈值,该时间段为恒定段,保留该恒定段的起始点和终点数据值。

本发明提供的技术方案带来的有益效果是:本发明针对现有技术中所存在的工业监控数据尤其是采集频率较高、周期较长的数据非结构化的问题,提供了一种将海量的非结构化数据转化为结构化数据的工业海量非结构化数据处理方法及系统。本发明使用sparksql技术对海量的非结构化数据自动进行转换操作,转化为结构化数据,简化了数据处理;有专用的存储机制和设备可以保存转化后的结构化数据,供后期的生产及运维提数据支撑;通过数据清洗方式得到有效数据值,可在极短的时间内(秒级)一次性将百万条数据提取,并且快速进行趋势图绘制;通过绘图工具将数据可视化成图像更方便生产管理及运维。

附图说明

图1是本发明实施例一提供的工业海量非结构化数据处理方法流程图;

图2是本发明实施例一中步骤s200的流程图;

图3为本发明实施例一中步骤s300的流程图;

图4是本发明实施例一提供的工业海量非结构化数据处理方法数据清洗流程图;

图5为本发明实施例一提供的经数据清洗后的数据形成曲线与原数据形成曲线的对比图;

图6是本发明实施例二提供的工业海量非结构化数据处理系统结构示意图;

图7是本发明实施例二提供的工业海量非结构化数据处理系统数据转换模块结构示意图;

图8为本发明实施例二提供的工业海量非结构化数据处理系统数据清洗和展示模块结构示意图;

图9为本发明实施例二提供的工业海量非结构化数据处理系统数据清洗模块结构示意图。

具体实施方式

为了解决现有技术中所存在的工业监控数据尤其是采集频率较高、周期较长的数据非结构化的问题,本发明旨在提供一种工业海量非结构化数据处理方法及系统,实现非结构化数据结构化,提高数据处理的速度,其核心思想是:使用sparksql技术对非结构化数据自动进行转换操作,将获取到的海量的非结构化数据通过sparksql读取为rdd,或将多个文本文件读取为一个pairrdd,形成带有键值对的文件,并将读取后的结构化数据文件转换为.csv文件;同时,所述.csv文件保存在存储设备上,可以保存数年的历史数据,供后期的生产及运维提数据支撑;另外,通过构建生成器函数,按照生成器函数所建立的筛选条件,对结构化数据进行清洗,筛选出有效值,从筛选出的所有时间段和与该时间段对应有效值中分别提取时间和有效值、并建立时间和有效值之间的关系曲线并展示筛选后的关系曲线,可实现极短的时间内(秒级)一次性将百万条数据的趋势曲线进行绘制,并将数据可视化成图像更方便生产管理及运维。

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本发明实施提供了一种工业海量非结构化数据处理方法,参见图1,该方法包括:

s100、数据采集步骤:获取生产中产生的非结构化数据;利用信息采集设备,对生产中产生的数据进行采集,采集到的数据多以二进制文件形式存储超大文本、二进制文件、图形、图像、音频、视频等非结构化数据。

s200、数据转换步骤:将所述非结构化数据转化为结构化数据;

s300、数据清洗和展示步骤:提取所述结构化数据,构建生成器函数,按照生成器函数所建立的筛选条件,对所述结构化数据进行清洗,筛选出有效值,从筛选出的所有时间段和与该时间段对应有效值中分别提取时间和有效值,建立并展示筛选后的时间和有效值之间的关系曲线。

其中,参见附图2,步骤s200进一步包括:

s201、转换步骤:将获取到的非结构化数据通过sparksql读取为rdd,或将多个文本文件读取为一个pairrdd,形成带有键值对的文件,并将读取后的结构化数据文件转换为.csv文件;

s202、存储步骤:将所述.csv文件保存在存储设备上,所述存储设备可采用集群分布式存储,扩展存储能力及存储速度。

spark这种大规模数据处理技术的快速发展,能够处理抽像的数据结构,对数据进行rdd操作,再对rdd进行键值对的转换,保存为数据库可行读取的格式。

参见附图3,步骤s300进一步包括:

s301、单阈值筛选条件:当前值与最新筛选出的值之间的差值与单阈值进行比较,如果大于单阈值作为最新筛选出的有效值进行保留,否则进行清洗;

s302、累积阈值筛选条件:当前值和与最新筛选出的值进行比较,如果当前值和最新筛选出来的数值差值的代数和大于累积阈值,则保留最新当前值,并将最新当前值作为最新筛选出的有效值进行保留,否则进行清洗;

s303、绝对阈值筛选条件:当前值与筛选值的累积差值在某一时间段小于绝对阈值,该时间段为恒定段,保留该恒定段的起始点和终点数据值。

根据所述结构化数据特点和应用需求,对结构化数据依据上述筛选条件进行判断,所述筛选条件可以分开使用,也可以结合使用。

进一步地,结合附图4,工业海量非结构化数据处理方法数据清洗步骤具体流程为,利用将保存在.csv文件中的结构化数据通过python逐个读入numpy数组中,按时间顺序进行排序,构建生成器函数,每次接收一个值(now)进行处理,首先进行单阈值筛选:将当前值(now)与最新筛选出的值(last)之间的差值与单阈值进行比较,判断当此差值是否小于单阈值的绝对值,即大于负单阈值(-th_value)且小于正单阈值(th_value),若否,则保存数据,若是,则进行累计阈值判别,将累计变化值与累计阈值进行比较,判断累积变化值是否小于累计阈值的绝对值,即大于负累计阈值(-accu_th)且小于正累计阈值(accu_th),若否,则保存数据,若是,则清洗数据,对下一个结构化数据进行判断。

进一步地,图5为本发明实施例一提供的经数据清洗后的数据形成曲线与原数据形成曲线的对比图,参见附图5,图中以某电厂模拟压力容器一个月温度数据为分析对象,数据的采集频率为1s,通过sparksql将采集到的数据读取为rdd,以csv格式保存在存储设备上,再将保存在.csv文件中的数据通过python的numpy读入数组中,一共50多万条数据,按时间顺序进行排序;由于数据主要用于热疲劳分析计算,对于较小的温度波动可以忽略,因此,用户设置相应阈值,用于筛选出温度变化有效数据,比如设置单阈值为1.5,累积阈值为15,同时将累积值的绝对值小于0.005的时间段认为该时间段数据无变化,仅保留恒定段的起始点和终点数据;利用生成器函数,筛选有效值;从筛选出的所有时间-值数据中分别提取时间和值作为绘图的x轴和y轴;利用matplotlib对筛选后的数据进行绘图,结果如图5所示,深灰色为初始数据曲线,黑色为筛选后的数据曲线,从图中可以看出:经过数据清洗筛选后,绘制出的图形趋势没变,减少了很多无效数据,实现快速进行趋势图绘制。

上述方法针对工业监控数据尤其是采集频率较高、周期较长的数据进行数据处理,根据行业背景和数据特点,选择处理方法并设定合适阈值,为趋势曲线绘制和后端数据应用分析提供有效的数据,并且通过第三方绘图软件将所提供的有效数据进行趋势图的绘制,将数据可视化成图像更方便生产管理及运维。

在本发明实施例中,结构化数据是指具有固定的结构、规范、一致的基本属性的数据,通常称为关系型数据。非结构化数据是指指数据结构不规则或是不完整,没有预定的数据模型不方便使用数据库二维逻辑表来表现的数据。spark是一款apache基金会旗下的顶级项目,专为大规模数据处理理设计的快速通用计算引擎。rdd全称resilientdistributeddatasets,弹性分布式数据集,是分布内存的一个抽象概念,spark技术的核心。numpy是一个用python实现的科学计算包,scipy:一款包括统计、优化、整合、线性代数等模块,专为科学和工程设计的python工具包,matplotlib是一个以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的2d绘图库。需要说明的是,numpy可换成pandas库对数据进行处理;且经过清洗转换后的数据绘制成趋势图折工具不限于使用matplotlib。

实施例二

本发明实施例提供了一种工业海量非结构化数据处理系统,参见图6为本发明实施例二的系统结构图,该系统包括:数据采集模块100,用于获取生产中产生的非结构化数据,采集到的数据多以二进制文件形式存储超大文本、二进制文件、图形、图像、音频、视频等非结构化数据;数据转换模块200,连接所述数据采集模块100,用于将所述非结构化数据转化为结构化数据;数据清洗和展示模块300,连接所述数据转换模块200,用于提取所述结构化数据,构建生成器函数,按照生成器函数所建立的筛选条件,将结构化数据按照相对变化和累积变化进行筛选清洗,筛选出有效值,从筛选出的所有时间段和与该时间段对应有效值中分别提取时间和有效值,建立并展示筛选后的时间和有效值之间的关系曲线。

进一步地,图7是本发明实施例二提供的工业海量非结构化数据处理系统数据转换模块结构示意图,参见附图7,所述数据转换模块200进一步包括:转换模块210和存储模块220,转换模块210,连接所述数据采集模块100,用于将获取到的非结构化数据通过sparksql读取为rdd,或将多个文本文件读取为一个pairrdd,形成带有键值对的文件,并将读取后的结构化数据文件转换为.csv文件;存储模块220,连接所述转换模块210,用于将所述.csv文件保存在存储设备上。需要说明的是,对于非结构化数据的处理亦可使用hadoop技术,分布式节点上运行着附带数据存储的datanode和负责任务执行的tasktracker.数据存储过程中,namenode将一个文件分成一个或多个block,存储在datanode集合里。再由jobtracker提交map/reduce作业,进行数据块处理,将非结构化数据转化为结构化数据;同时,数据存储设备可采用集群分布式存储,扩展存储能力及存储速度。

图8为本发明实施例二提供的工业海量非结构化数据处理系统数据清洗和展示模块结构示意图,参见附图8,所述数据清洗和展示模块300进一步包括:数据清洗模块310和展示模块320,数据清洗模块310,用于构建生成器函数,所述生成器函数包括设定的单阈值筛选条件,累积阈值筛选条件,在某一时间段按照单阈值筛选条件,累积阈值筛选条件对结构化数据进行清洗,满足单阈值和/或累积阈值筛选条件的结构化数据进行保留,否则进行清洗。展示模块320,连接数据清洗模块310,利用python及第三方的数据处理插件(numpy)、数据分析插件(scipy)以及绘图插件(matplotlib),将分析清洗后的数据按照时间顺序一次性将大量的数据提取,并且快速进行趋势图绘制。

图9为本发明实施例二提供的工业海量非结构化数据处理系统数据清洗模块结构示意图,参见附图9,所述数据清洗模块310进一步包括:单阈值筛选模块311、累积阈值筛选模块312和绝对阈值筛选模块313,所述单阈值筛选模块311,用于将当前值与最新筛选出的值之间的差值与单阈值进行比较,如果大于单阈值作为最新筛选出的有效值进行保留,否则进行清洗;所述累积阈值筛选模块312,用于将当前值和与最新筛选出的值进行比较,如果当前值和最新筛选出来的数值差值的代数和大于累积阈值,则保留最新当前值,并将最新当前值作为最新筛选出的有效值进行保留,否则进行清洗;所述绝对阈值筛选模块313,用于设定一绝对阈值筛选条件,当前值与筛选值的累积差值在某一时间段小于绝对阈值,该时间段为恒定段,保留该恒定段的起始点和终点数据值。通过数据清洗模块,可对海量的结构化数据进行清洗,提取其中的有效值,用于生产的管理及运营中。

需要说明的是:上述实施例提供数据处理方法在数据处理系统实现时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的系统和方法实施例属于同一构思,其具体实现过程详见方法实施例的描述,这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中。上面所提到的控制或者实现的切换功能都是通过控制器实现,控制单元可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。上面所提到的存储器可以是终端内置的存储设备,例如硬盘或内存。本发明系统还包括了存储器,存储器也可以是系统的外部存储设备,插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。存储器还可以既包括系统的内部存储单元,也包括外部存储设备,用于存储计算机程序以及所需的其他程序和信息。存储器还可以用于暂时地存储已经输出或者将要输出的信息。

综上所述,本发明提供了一种工业海量非结构化数据处理方法及系统,技术关键点主要包括:将非结构化数据转换为结构化数据,使用sparksql技术对非结构化数据自动进行转换操作,将获取到的海量的非结构化数据通过sparksql读取为rdd,或将多个文本文件读取为一个pairrdd,形成带有键值对的文件,并将读取后的结构化数据文件转换为.csv文件;保存数据,所述.csv文件保存在存储设备上,可以保存数年的历史数据,供后期的生产及运维提数据支撑;数据清洗,通过构建生成器函数,按照生成器函数所建立的筛选条件,对结构化数据进行清洗,筛选出有效值,从筛选出的所有时间段和与该时间段对应有效值中分别提取时间和有效值、并建立时间和有效值之间的关系曲线并展示筛选后的关系曲线,可实现极短的时间内(秒级)一次性将百万条数据的趋势曲线进行绘制,数据展示,通过绘图软件将数据可视化成图像更方便生产管理及运维。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1