铝/铜板带材生产全流程大数据清洗与分析方法

文档序号:26050446发布日期:2021-07-27 15:25阅读:136来源:国知局
铝/铜板带材生产全流程大数据清洗与分析方法

本发明涉及大数据和数据挖掘领域,尤其涉及一种铝/铜板带材生产全流程大数据清洗与分析方法。



背景技术:

铝/铜板带材生产全流程工业大数据多源异构、数据不精确、查询困难,对生产全流程数据的数据清洗及分析提出了极高的要求。随着机器学习、大数据等理论的蓬勃发展,不少学者结合机器学习和大数据技术实现数据驱动技术对工业生产过程数据分析与优化进行了一系列研究,并取得了一定进展。利用工业过程数据对生产过程中的各个关键参数进行关系模型的构建,不仅加快了建模速度,还避免了传统机理建模复杂的问题。基于数据驱动的建模方法不需要对生产机理有过多的了解,他将生产过程转化为一些了机器学习模型,进而能够较大程度地减少建模时间。此外,由于数据驱动的建模与优化方法是以数据为出发点,因此,可以避免由于缺少专业知识而产生的建模错误的问题,也有可能为专业人员带来新的发现。技术数据驱动的工业过程建模与优化方法为工业过程分析提供了新方法。因此对铝/铜板带材生产全流程大数据的清洗与分析,有着重大和深远的意义。

在采集铝/铜板带材厂生产的大量数据时,数据导入和检索工作往往会占用技术人员的大量时间和精力,为相关技术人员带来巨大工作负担。同时由于生产、数据传输、人工处理等过程难免会收到噪声的干扰,因此,采集到的数据中往往参杂了大量的干扰甚至错误信息,产生了大量的“脏数据”,如错误数据、缺失数据和重复数据等;并且历史数据中包含大量的缺失值,异常值和重复值等,数据信息价值不高;针对铝/铜板带材全流程生产过程工艺建立传统机理建模十分复杂并且由于缺少专业知识而常常产生建模错误问题;铝/铜板带材厂的全流程生产专业性强,数据质量问题繁杂,缺乏专业定制的数据清洗与分析方法。



技术实现要素:

针对上述问题,本发明的目的在于提供一种铝/铜板带材生产全流程大数据清洗与分析方法,可有效解决数据不齐、存在多元异常等问题。

本发明采用的技术方案如下:

本发明所提出的铝/铜板带材生产全流程大数据清洗与分析方法,包括以下步骤:

s1:构建适用于铝/铜板带材全流程大数据的清洗系统,按照符合铝/铜板带材生产全流程数据的特点和工艺的背景进行数据清洗;

s2:完成建立面向铝/铜板带材全流程大数据的分布式计算分析算法工具库,构建生产过程中的关系模型,实现对工艺参数与合金成分的优化。

进一步的,所述步骤s1中的具体过程如下:

(1.1)分析铝/铜板带材的全流程大数据质量问题,针对铝/铜板带材生产全流程生产加工特点,分析总结出现数据质量问题的环节;

所述数据质量问题包括:设备性能限制导致的数据缺失或错误;人员操作失误导致的数据缺失或错误;

(1.2)分析数据质量问题并设计对应的处理方案,所述处理方案包括

单一值处理:针对单一值进行特定处理,若某列中的值全为单一值,则采用列删除的方式将该列删除,并将结果保存;若单一值列中缺少个别数据,则对其进行行删除操作,或采用单一值填充的方式对单一值列进行数据补全;

缺失值处理:数据缺失值处理包括行删除和数据补全;

异常值处理:异常值处理包括行删除和数据替换;

(1.3)确定铝/铜板带材的全流程大数据清洗系统具体步骤;结合铝/铜板带材大数据特点,针对铝/铜板带材的全流程大数据出现的数据质量问题按照以下步骤进行数据清洗:

数据源加载:读取分布式数据,读取方式利用hadoop中分布式存储进行分布式读取;

识别检测数据:在铝/铜板带材的全流程大数据清洗系统中进行数据的检测,对数据可能会出现的质量问题进行识别;

确定清洗规则:开始数据的清洗,并提前对待清洗的数据进行备份;针对铝/铜板带材的全流程大数据不同类型的数据质量问题设定对应的清洗规则和不同的清洗方法;

数据清洗:利用hadoop中的mapreduce框架,对加载的源数据,采用已经确定的清洗规则和清洗方法对源数据进行清洗处理;

清洗结果检查:依据数据清洗设定的规则和评价标准,对已经清洗的数据进行检查判断时候需返回上一步进行继续清洗。

3.根据权利要求2所述的铝/铜板带材生产全流程大数据清洗与分析方法,其特征在于:所述步骤s2的具体过程如下:

(2.1)实施铝/铜板带材生产全流程特征工程:针对铝/铜板带材生产全流程工业大数据多源异构、高维动态多时空尺度的特点,建立符合铝/铜板带材生产全流程大数据特点和工艺背景的特征构造和选择;

铝/铜板带材生产全流程大数据的特征构造:在特征构造阶段,对一些特征进行切分处理;对于标签型变量,建模之前将其转化为数值型变量进行运算,在数值上不区分大小;添加了一些原数据没有考虑的特征,如生产时的天气气候信息,和工人开工时的疲劳程度等。

铝/铜板带材生产全流程大数据的特征选择:在特征选择阶段,将原数据中与铸锭质量有关的工艺参数筛选出来,同时删除一部分单一值变量,通过查看特征间的相关性,将相关性较强的多个特征只保留具有代表性的一个即可,减少数据冗余;

(2.2)开发面向铝/铜板带材生产全流程大数据分析算法工具库;所述工具库包含以下几个功能:无监督学习功能、有监督学习功能和智能优化功能;

(2.3)具体实现分布式算法分析业务流程:对分析算法进行统一标准化,定制统一调用接口,具体业务流程如下:

加载数据源:经过适用于铝/铜板带材的分布式大数据清洗系统处理过的源数据存储以hadoop为核心分布式文件系统中,对数据进行分布式读取加载;

确认具体算法:面向铝/铜板带材生产全流程大数据分析方法工具库中的分析方法类型包括有监督、无监督等,可以选择不同的算法满足用户不同需求;

设置算法参数:面向铝/铜板带材生产全流程大数据分析方法工具库中的分析方法种类不一,可以选择不同的方法参数进行数据分析,也可以不设置即选定默认值;

结果分析:经过铝/铜板带材生产全流程大数据分析方法处理之后的数据会返回用户分析的结果,根据返回的结果构建铝/铜板带材生产中的关系模型。

本发明通过设计面向铝/铜板带材生产全流程大数据清洗与分析方法,为铝/铜板带材生产全流程大数据的挖掘利用提供了方向,可有效提高铝/铜板带材生产全流程大数据的利用率。

附图说明

图1为本发明数据清洗方法的使用说明示意图;

图2为本发明数据集异常检测算法结构图;

图3为本发明数据清洗的流程示意图;

图4为本发明算法工具的模块组成示意图;

图5为本发明数据分析的架构图;

图6为本发明数据分析的流程示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

本发明所提出的一种铝/铜板带材生产全流程大数据清洗与分析方法,具体实施步骤如下:

s1:如图1所示,构建适用于铝/铜板带材全流程大数据的质量问题检测方法和按照符合数据特点和工艺背景进行数据清洗;具体包括:

(1.1):分析铝/铜板带材的全流程大数据质量问题,针对铝/铜板带材生产全流程生产加工特点,分析总结了产生出现数据质量问题的环节,包括:

设备性能限制导致数据缺失或错误:在铝/铜板带材生产过程中,部分生产环节经常处于高速运行过程,设备的实时数据获取和上传经常由于性能所限产生数据丢失问题,导致数据不能及时上传到数据采集器。同时设备出现的故障或传感器失灵也会影响采集到的数据,导致数据出现错误和丢失。

人员操作失误导致数据缺失或错误:铝/铜板带材实际生产过程很多环节的数据和参数都依赖人员进行手动输入。手动输入数据会因操作工人为失误导致数据输入错误,进而使采集器上传到大数据平台的数据出现数据缺失和错误问题。

(1.2)结合铝/铜板带材生产全流程生产工艺背景对数据出现缺失和异常质量问题进行检测,包括:

缺失值检测:数据属性对应的样本数进行计数操作包括空值的个数,计算空值个数占总数的比例,对数据的样本进行计数为m,针对数据中每一个特征属性分别记录出现空值即缺失的个数为n0,n1,…,可以得到每一个特征属性的缺失比例即缺失程度n/m。如果某一特征属性的缺失比例大于设定的阈值一般设为80%,则对该特征属性进行删除操作;如果缺失比例小于10%,可对该特征属性进行填补,以该特征属性中众数为填充值;如果缺失比例在二者之间,对出现的特征属性可以结合工艺判断该特征属性是否与产品质量密切相关来决定对该特征属性是删除还是填补。

单变量异常值检测:对数据表进行排序以寻找单变量异常值;取样本数据并根据四分位数给出值范围,将数据分解为四分位数。显示基于五个数字汇总(“最小”、第一个四分位数(q1)、中位数、第三个四分位数(q3)和“最大值”)的数据分布。四分位距iqr=q3-q1,则异常值判断的策略是大于q3+1.5*iqr,小于q1-1.5*iqr。

多元变量异常值检测:综合基于密度、距离和聚类方法寻找多变量异常值的样本;基于密度:通过比较一个物体的局部密度与其相邻物体的局部密度,可以识别出密度相似的区域,以及密度显著低于其相邻物体的点;局部离群因子算法利用k近邻,在每个点的k近邻集合中,lof利用了局部可达密度(localreachabilitydensity,lrd),并将其与该knn集合中每个参与者的近邻进行比较;在一个给定的数据集中,每个对象的局部可达密度定义为:在式子中,|n(xi)|代表的含义是点xi邻域的个数;lrd(xi)代表的含义是点xi的局部可达密度;数据集中每个点进行局部离群因子分数的计算,数据集点中的分数计算以后进行局部离群因子分数的比较,如果某一个数据点的局部离群因子分数越大那么该数据点被判定为异常点的可能性就越大;基于距离:基于距离异常检测算法的基本假设是相似的观测结果彼此接近,而离群值通常是较为独立的观测结果,所以离群值距离较远,是通过测量不同特征值之间的距离进行分类,如果一个点距离相当于其k个邻居点距离相对较远可以判定为异常值;基于聚类:基于聚类的异常检测是对数据样本进行聚类,通过分析对象与簇之间的关系检测离群点,离群点是一个对象,它属于小的稀疏簇或者不属于任何簇;该对象是否属于某个簇,如果不属于,则被识别为离群点或者该对象与最近的簇之间的距离很远则被识别为离群点;最后对多元异常值确定以投票确认的方式进行最终的异常检测结果的确认,当认为是异常的检测器占据总数一半以上,认为是异常值。

(1.3)分析数据质量问题并设计对应处理方案,包括

单一值处理:在实际的数据采集过程中,发现每个设备下产品号格式不统一的,那么就需要在数据集构建的过程中,统一产品号的格式以便后续进行数据处理,例如在熔铸工艺环节统一的格式为大写字母加数字的格式如“ec6934”这样的格式。在数据量比较大、采集的设备比较多的情况下,相似的产品号比较将会是一个比较耗时耗力的工作,为了减少比较的次数,需要对产品号进行排序,产品号经过预处理不包括汉字等特殊字符,只包括英文和数字,所以可以按照字典序进行排序。

对原始数据进行快速排序以后,单一值记录会排序在相邻位置,确定了单一值记录接下来就要进行处理,大多数情况下处理方式有:一是删除单一值记录,在删除的情况下,进行选择保留的记录是保留信息较为全面完整的数据,对剩下其他的单一值记录进行删除;在实际的采集中会有时间字段,也可以按照时间的维度进行数据选择,可以进行保留在时间维度上最新的数据记录,对其它时间的数据进行删除。二是对单一值记录数据中每个样本的数据信息都进行利用,整合每条重复的记录数据,例如对重复值记录数据中如果支持累加取均值的操作,可以选择对取均值的操作这样可以利用全部的数据信息。

缺失值处理:针对某些字段的缺失程度超过80%以上,对于这些字段进行缺失值处理的策略就是直接删除丢弃。针对字段缺失程度小于10%,可以结合字段中的众数对其替换填充。针对某些字段缺失程度在10%于90%之间,可根据工艺背景情况进行删除或保留操作。

异常值处理:单变量异常值对应字段进行众数的统计,异常值替换为众数;多元异常值直接进行删除处理。

(1.4)如图3所示,确定铝/铜板带材的全流程大数据清洗系统具体步骤;结合铝/铜板带材大数据特点,针对铝/铜板带材的全流程大数据出现的数据质量问题按照以下步骤进行数据清洗:

数据源加载:读取分布式数据,读取方式利用hadoop中分布式存储进行分布式读取。

识别检测数据:在铝/铜板带材的全流程大数据清洗系统中进行数据的检测,对数据可能会出现的质量问题进行识别。

确定清洗规则:开始数据的清洗,并提前对待清洗的数据进行备份;对检测数据质量问题进行处理。单一值问题:某列中的值全为单一值,则采用列删除的方式将该列删除,并将结果保存,若单一值列中缺少个别数据,则对其进行行删除操作;缺失值问题:设置缺失阈值比例默认为80%,若缺失比例大于阈值进行删除操作;否则填补;异常值问题:结合工艺参数范围对单元异常值进行对应替换;对于多元异常值进行删除操作。

数据清洗:利用hadoop中的mapreduce框架,对加载的源数据,采用已经确定的清洗规则和清洗方法对源数据进行清洗处理。

清洗结果检查:依据数据清洗设定的规则和评价标准,对已经清洗的数据进行检查判断时候需要返回上一步进行继续清洗。

s2:构建适用于面向铝/铜板带材全流程大数据的分布式计算与分析方法工具库,具体包括以下步骤:

(2.1)铝/铜板带材全流程大数据深度优化算法工具库设计

如图4所示,优化算法工具库功能模块设计,模块设计包括文件管理模块、有监督分析模块、无监督分析模块和智能优化分析模块。

文件管理模块:该模块负责加载数据文件,获取文件信息,并存储预处理或优化的中间结果;

有监督分析模块:该模块主要用于读取进行分析的数据文件,该方案集成了多种不同的有监督算法,用户可以选择适合的有监督算法并设置算法运行的参数,也可以使用系统默认的有监督算法和参数设置进行一键处理,算法运行结束后显示模型的评价指标。

无监督分析模块:该模块主要用于读取进行分析的数据文件,该方案集成了多种不同的无监督算法,用户可以选择适合的无监督算法并设置算法运行的参数,也可以使用系统默认的无监督算法和参数设置进行一键处理,算法运行结束后显示模型的评价指标。

智能优化模块:该模块主要用于读取进行分析的数据文件,该方案集成了多种不同的智能优化算法,用户可以选择适合的智能优化算法并设置算法运行的参数,也可以使用系统默认的智能优化算法和参数设置进行一键处理,算法运行结束后显示模型的评价指标。

如图5所示,优化算法工具库结构设计包括数据显示层、人机交互层、中间数据存储层、算法分析层和铝/铜板带材源数据层;

铝/铜板带材数据层,其中包含所采集的铝铜板带材生产过程种的工业数据集;第二层为数据操作层,其中包括有监督学习模块、无监督学习模块、智能优化算法模块,该层的设计是本系统的核心架构;第三层为中间数据管理层,主要用来存储第二层各个模块处理后的过程数据;第四层为人机交互层,该层是基于前三层设计的基础上展开的,为方便用户执行第二层和第三层操作提供可交互的界面,界面设计的具体实现主要采用快捷键操作和点击按钮响应消息的机制;第五层是数据显示层,该层主要是将操作结果进行展示,为使用户更直观地查看处理结果,该层将分析后的评估指标和结果图进行自动展示。

(2.2)铝/铜板带材全流程大数据深度优化算法工具库开发

确认优化算法工具库开发的所需环境及相关技术;开发环境主要利用windows操作系统、linux操作系统下集成hadoop大数据生态开发环境下进行开发,springboot的开发框架进行开发,设计部分包含软件可视化界面设计、数据挖掘算法、模型评估可视化等;利用scikit-learn算法工具库对本发明涉及到的数据挖掘算法进行设计开发。

建立深度优化算法工具库开发平台;利用springboot框架结合scikit-learn算法工具库进行算法开发,数据存储层基于hadoop的hdfs格式进行平台开发。

(2.3)如图6所示,具体实现分布式算法分析业务流程:面向铝/铜板带材生产全流程大数据分析方法工具库中的分析方法繁多,需要对分析方法进行统一标准化,定制统一调用接口,具体业务流程如下:

加载数据源:经过适用于铝/铜板带材的分布式大数据清洗系统处理过的源数据存储以hadoop为核心分布式文件系统中,对数据进行分布式读取加载。

确认具体算法:面向铝/铜板带材生产全流程大数据分析方法工具库中的分析方法类型包括有监督、无监督等,可以选择不同的算法满足用户不同需求。

设置算法参数:面向铝/铜板带材生产全流程大数据分析方法工具库中的分析方法种类不一,可以选择不同的方法参数进行数据分析,也可以不设置即选定默认值。

结果分析:经过铝/铜板带材生产全流程大数据分析方法处理之后的数据会返回用户分析的结果,根据返回的结果构建铝/铜板带材生产中的关系模型。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1