一种航天产品多源制造数据预处理方法与流程

文档序号:31792156发布日期:2022-10-14 15:57阅读:74来源:国知局
一种航天产品多源制造数据预处理方法与流程

1.本发明涉及航天产品制造过程多感知设备数据预处理领域,具体是一种航天产品多源制造数据预处理方法。


背景技术:

2.航天产品的制造过程数据源涵盖铸造、机加、焊接、钣金、热处理、装配、试验、检验等主要工艺环节中关键工艺设备、单机系统、检测装置等对象所生成、汇总的多源异构数据。同时,在多感知设备数据采集系统中,每一种传感器所提供的信息都受环境状态和感知设备本身特性的制约,为了消除或减少制造过程数据采集对后端应用造成的不准确性,从而满足应用系统对数据质量日益增长的高要求,需要构建一种新型、柔性、高效的数据预处理方法。
3.从本质上来说,数据清洗方法是整个数据预处理的核心。目前,基于规则的数据清洗方法因其简洁且清洗效果显著而占据重要位置,然而,对比主流的几种方法发现,很少有方法支持多规则之间逻辑运算并且实现属性与规则的解耦,传统数据清洗方法通过硬编码方法来执行清洗逻辑,且面向多个数据源存在清洗规则可扩展性、动态柔性和继承重用性较差的问题,缺少一种高柔性的数据清洗引擎和预处理架构。


技术实现要素:

4.本发明解决的技术问题是:针对现有技术中存在的上述不足,提供了一种航天产品多源制造数据预处理方法,解决了面向多个数据源时存在的清洗规则可扩展性、动态柔性和继承重用性较差的问题。
5.本发明是通过以下技术方案实现的:
6.一种航天产品多源制造数据预处理方法,所述方法包括以下步骤:
7.利用适配器对航天制造产品过程产生的多源异构数据进行规则适配,形成待清洗数据集a1~an;
8.临时存储区根据业务需求抽取来自各个适配器的多个待清洗数据集a1~an,得到待清洗数据集合b,并存储;
9.柔性清洗引擎对待清洗数据集合b进行转换、匹配、识别与清洗,完成修复与纠错,存入有效存储区,形成数据集合c;
10.当顶层应用平台发送系统请求访问时,有效存储区根据请求内容将数据集合c中符合业务要求的数据提供给平台,平台最终将分析结果反馈给用户。
11.所述多源异构数据包括属性数据、设备状态数据、工艺过程数据、在线检测数据。
12.所述多源异构数据源存储在包括oracle、sqlserver、sybase、db2、mongodb数据库中的至少三个中。
13.所述适配器包含适配规则,包括连接、命令和数据读取器功能,适配器对已解析的原数据文件进行适配,并将数据源导入到临时存储区,形成待清洗数据集合b。
14.所述临时存储区指已经经过初步规则适配后的多个数据集的总和,并同步备份至历史存储区。
15.所述柔性清洗引擎包括清洗规则定义模块、清洗规则配置模块和清洗规则执行模块。
16.所述柔性清洗引擎对待清洗数据集合b进行转换、匹配、识别与清洗,完成修复与纠错,存入有效存储区,形成数据集合c包括:
17.由清洗规则定义模块从待清洗数据集合b中抽取、提炼、定义和存储规则;
18.清洗规则配置模块将规则实体与待清洗数据集合b中的属性、表以及领域进行匹配和整合,将待清洗数据转换成统一的便于进一步检测分析的数据格式;
19.清洗规则执行模块完成规则的解析、代码编译以及数据清洗过程,输出干净的有效数据集合c至有效存储区,同时对原始的多源异构数据进行逆向清洗,从而完成数据修正。
20.所述数据清洗过程具体包括数据检测评估和数据修复执行;
21.数据检测评估:用来检测待清洗数据是否符合清洗规则的过程,若符合,存入有效存储区,若不符合,执行数据修复命令;
22.数据修复执行:包括纠正错误、删除重复、统一规格、修正逻辑、转换构造、压缩数据、补足残缺。
23.所述逆向清洗过程包括:根据数据清理过程中产生的数据反向查找原始数据并修改原始数据中对应的错误,使原始数据达到一致和准确。
24.本发明的有益效果是:
25.(1)本发明利用适配器对航天制造过程产生的多源异构数据进行规则适配,大幅度减少由于采集传感器特性限制造成的数据不准确性,提高了待清洗原始数据的初始质量。
26.(2)本发明引入一种柔性清洗引擎作为核心子系统参与航天制造数据的清洗过程,包括清洗规则定义、清洗规则配置和清洗规则执行模块等3大模块,相比现有技术,是一种更加柔性、高效的数据清洗方式和预处理框架。
27.(3)本发明采用的清洗规则定义模块具备清洗规则动态定义能力,且支持多规则之间的逻辑运算,同时实现属性与规则的解耦,相比现有技术,具备更高的可扩展性和动态柔性。
28.(4)本发明采用的清洗规则执行模块通过代码自动编译完成对清洗逻辑的转换,相比现有硬编码方式来执行清洗逻辑,具备更高的效率。
29.(5)本发明引入一种数据逆向清洗过程,通过数据来源标记信息结合清洗后的有效数据集合反向查找原始数据并修改原始数据中对应的错误,相比现有技术,能提高航天产品多源制造原始数据的质量。
附图说明
30.图1是一种航天产品多源制造数据预处理方法功能原理图;
31.图2是一种航天产品多源制造数据预处理方法典型流程图;
32.图3是柔性清洗引擎模块构成图;
33.图4是数据逆向清洗示意图。
具体实施方式
34.下面对本专利的实施例作详细说明:本实施例在以本专利技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本专利的保护范围不限于下述的实施例。
35.如图1所示,本方法涉及的硬件和区域包括:适配器,临时存储区,历史存储区,柔性清洗引擎,有效存储区。
36.作为具体方案,如图2所示:
37.首先由适配器对航天制造过程产生的多源异构数据进行抽取与规则适配,抽取的多源制造数据包括属性数据、设备状态数据、工艺过程数据、在线检测数据等;数据源包括oracle、sqlserver、sybase、db2、mongodb等数据库中的至少三者;适配器包括连接、命令和数据读取器,其对内存中已解析的原数据文件进行适配,并保留符合适配规则的属性;
38.接着临时存储区根据业务需求抽取来自各个适配器的多个待清洗数据集,形成待清洗数据集合,并同步备份至历史存储区;临时存储区的数据集合需要数据适配器来填充数据,并支持对多个数据源的访问;
39.然后柔性清洗引擎根据业务规则对待清洗数据集合进行匹配、清洗、过滤等,用临时存储区中的待清洗数据表逐一匹配规则表中的规则,不完整、错误、冗余的数据经过规则的筛选清理后,获得高质量的有效数据集合,存入有效存储区;
40.最后当质量分析、计划调度、能耗优化、设备管理、物料跟踪、过程监测等应用平台发送系统请求访问时,有效存储区会根据请求内容以xml的形式将有效数据集合中符合业务要求的数据提供给平台,平台最终将数据分析结果反馈给目标用户;
41.数据逆向清洗过程,其用于对原始多源异构数据进行错误数据的修正,在确认原始数据修复的情况下更新原始数据。
42.作为一种优选方式,如图3所示,柔性清洗引擎主要包括清洗规则定义、清洗规则配置和清洗规则执行等3大核心模块;
43.由清洗规则定义模块从待清洗数据集合中抽取、提炼、定义和存储规则,并支持用户进行定义、阅读、修改以及复杂逻辑运算等动态配置行为;
44.通过清洗规则配置模块将规则实体与待清洗数据集合中的属性、表以及领域进行匹配和整合,将待清洗数据转换成统一的适合进一步检测分析的数据格式;
45.利用清洗规则执行模块完成规则的解析、代码编译以及具体的数据清洗过程,输出干净有效的数据集合至有效存储区,同时可对原始的多源异构数据进行逆向清洗,从而完成数据修正。
46.所述数据清洗过程具体包括数据检测评估和数据修复执行两个主要过程;
47.数据检测评估:用来检测待清洗数据是否符合清洗规则的过程,若符合,存入有效存储区,若不符合,执行数据修复命令;
48.数据修复执行:包括纠正错误、删除重复、统一规格、修正逻辑、转换构造、压缩数据、补足残缺等。
49.作为一种优选方式,如图4所示,数据逆向清洗过程是指根据清洗后的干净有效数
据集,对原数据中不准确、不完整、不可信的数据进行修正的过程,确保异构数据源集成过程中原始数据的协调一致;
50.数据逆向清洗过程包括数据来源标记和逆向查询与清洗两个主要环节;
51.数据来源标记:图4中例如表a是由表b、c组成的,表b由表d、e,表d由表f、g组成;可以建立形如a—》(b,c)—》[(d,e),c]—》[((f,g),e),c]的树状结构标记信息;
[0052]
逆向查询与清洗具体步骤如下:
[0053]
根据建立的标记信息,逆向快速找到原始数据表单,例如:a表的第1行记录是由f表第2行、g表第3行、e表第3行和c表第6行组成;
[0054]
校对有效数据集合和原始数据,如果不一致,那么可相应地修改这4个表中的数据,使原始表数据和有效数据集合中的表数据之间达到一致和准确。
[0055]
本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本技术的实施例和实施例中的特征可以任意相互组合。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1