一种烟草工业批次全过程数据质量评价和改进的方法和装置与流程

文档序号:18218184发布日期:2019-07-19 22:48阅读:422来源:国知局
一种烟草工业批次全过程数据质量评价和改进的方法和装置与流程

本发明属于烟草工业批次管理技术领域,具体属于一种烟草工业批次全过程数据质量评价和改进的方法和装置。



背景技术:

随着企业信息化、数字化、智能化的深入发展,数据已成为新的生产要素,并且在企业中体现出非常重要的作用。如何提高数据的可信度和可用度,发挥数据资产的价值,是实现传统行业数字化转型的关键问题。

所谓批次管理系统,既是针对于物料流转过程中批次的管理系统。对于批次,因为需求的不同,所以会有不同的定义,也产生了不同的管理方式。总体来说,批次管理系统是企业实现产品全生命周期追溯、多维度分析和精细化管理的重要系统,是物料的流转过程中不可或缺的系统。数据质量是批次管理的核心基础。

长期以来,由于企业合作生产跨度大、业务流程复杂、数据量大等因素,批次管理系统往往存在数据缺失不完整、数据不一致、数据反馈滞后不及时等问题。多数企业对自身与合作生产企业普遍采用基于数据不同特性的核查指标方式,从数据完整性、及时性、准确性、一致性等维度特性定义多个量化指标进行数据监控,但是数据监控体系不完善,众多指标难以宏观上反映整个数据的质量情况,难以对数据质量进行综合评估,无法提供辅助决策分析,且缺乏相应的诊断与改进机制。

申请公布号cn101894319a的专利申请公开了一种烟草企业数据质量管理系统及方法,其包括:信息采集模块,用于收集质量规则管理和数据质量诊断所需要的各种原始信息;质量规则管理模块,用于管理所有对象在准确性、一致性、完整性、及时性、可获取性这五大质量度量方面所应遵循的质量规则;数据质量诊断模块,用于根据信息采集模块传递的数据、质量规则管理模块的质量规则定义和具体的数据质量诊断任务、定时进行数据质量诊断并生成质量诊断结果;数据质量报告模块,用于将数据质量诊断的结果信息以不同用户使用的方式传递给所述用户;数据质量处理模块,用于根据所述数据质量报告模块所列的待处理质量问题清单,按照级别高低处理质量问题。该数据质量管理系统虽然公开了通过对采集数据进行统计分析,以判断数据的质量,但是对数据的统计分析的手段很多,统计的指标也不尽相同以及指标具体的表征方式不同,导致最终评价的数据质量也会千差万别,因此数据质量管理系统中不清楚是否能实现对数据质量的准确评价,换句话说,该数据质量管理系统并没有公开对准确评价数据质量的技术手段。



技术实现要素:

本发明的是提供一种烟草工业批次全过程数据质量评价和改进的方法和装置,该方法和装置能够综合烟草工业批次全过程数据的完整性、准确性、一致性、及时性、唯一性、有效性以及稳定性全面评估数据质量,并根据数据质量进行采集数据的修正。

为实现上述发明目的,本发明提供以下技术方案:

一方面,一种烟草工业批次全过程数据质量评价和改进的方法,包括以下过程:

数据采集阶段:采集生产环境数据、生产过程数据、生产设备工艺参数数据、生产过程质检数据;

数据质量评估阶段:针对每类数据,计算与每类数据对应的至少一个数据评价指标,其中数据评价指标包括数据的完整性、准确性、一致性、及时性、唯一性、有效性以及稳定性7类数据评价指标,并根据7类数据评价指标计算采集数据的综合指标;

数据质量诊断及改进阶段:当数据综合指标不满足健康条件时,则根据数据综合指标反向推测出问题的数据评价指标,并按照数据改进机制对出问题的那类数据评价指标对应的数据进行改进修正,其中,数据改进机制包括:缺失数据的补录和回传、重复数据的清洗与校核、无效数据的剔除、逻辑错误的修正、不一致数据的处理、数据不及时的警告、数据大范围波动的限制。

另一方面,一种烟草工业批次全过程数据质量评价和改进的装置,其特征在于,包括:

数据采集模块:用于采集生产环境数据、生产过程数据、生产设备工艺参数数据、生产过程质检数据;

数据质量评估模块:针对每类数据,计算与每类数据对应的至少一个数据评价指标,其中数据评价指标包括数据的完整性、准确性、一致性、及时性、唯一性、有效性以及稳定性7类数据评价指标,并根据7类数据评价指标计算采集数据的综合指标;

数据质量诊断及改进模块:用于当数据综合指标不满足健康条件时,则根据数据综合指标反向推测出问题的数据评价指标,并按照数据改进机制对出问题的那类数据评价指标对应的数据进行改进修正,其中,数据改进机制包括:缺失数据的补录和回传、重复数据的清洗与校核、无效数据的剔除、逻辑错误的修正、不一致数据的处理、数据不及时的警告、数据大范围波动的限制。

本发明实现对批次数据的采集、评估、诊断以及改进等过程实现了数据质量的管理,具体地,能够根据数据的7个评估指标以及数据的综合指标确定数据的质量,提升了计算数据质量的准确性,同时根据设定的健康条件对数据质量进行判断,对不健康的数据进行修正,保证了管理工业数据的质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。

图1是批次全过程数据质量评价和改进的方法和装置实现的过程图;

图2是批次管理数据质量评价体系示意图;

图3是批次管理数据质量改进模块示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。

本实施例提供了一种烟草工业批次全过程数据质量评价和改进的方法和装置,该方法和装置可以应用于烟草生产中。

如图1所示,本实施例提供的烟草工业批次全过程数据质量评价和改进的方法包括以下过程:

数据采集阶段,主要采集生产环境数据、生产过程数据、生产设备工艺参数数据、生产过程质检数据。

一般情况下,主要是过生产设备、扫码设备、质检设备、环境检测设备等采集生产过程中的各类数据。

在烟草生产过程中,涉及到:

物资供应环节,主要是通过物资出入库扫码设备、包芯温度传感器等设备获得物资供应阶段的数据,如物资出入库批次数据、片烟包芯温度、虫情等;

生产库存环节,主要是通过辅料配盘扫码设备、高架库固定扫码终端获得生产库中的库存数量、高架库出入批次数据;

制叶投料环节,主要是通过制叶生产线及固定扫码终端等设备获得制叶阶段的相关数据,如片烟投料批次数据、出入叶片柜批次数据、真空回潮水分、加料温度、加料筒转速、切前润叶流量等;

制丝生产环节,主要是通过制丝线及固定扫码终端获得制丝生产阶段的相关数据,如叶丝装箱、翻箱和烟丝装箱、翻箱等批次数据、出入叶丝、烟丝高架库批次数据、蒸汽压力、蒸汽体积流量、叶丝纯净度、热风温度等;

滤棒生产环节,主要是通过滤棒成型机台、滤棒发射机、滤棒rfid终端获得滤棒生产阶段的相关数据,如滤棒生产数量、重量、滤棒装格出入滤棒高架库批次数据、滤棒发射到卷烟机批次数据、辊速比、滤棒硬度、滤棒圆周等。

卷包投料环节,主要是通过卷包机台及手持扫码设备等获得卷包生产阶段的相关数据,如卷烟纸、水松纸、条盒、商标等最小包装单元的辅料的批次投料数据、缺嘴、漏气、轻端剔除、烙铁实际温度、主机速度、辅机速度、压花辊压力等;

成品调拨环节,主要是通过手持扫码设备、固定扫码设备及rfid终端获得成品的调拨数据,如件烟与托盘绑定数据,成品件烟整托盘出入成品高架库批次数据、出入成品仓库批次数据等;

此外,还设有一些温度传感器、湿度传感器等,用于采集生产环境数据,如各监测点的温度、湿度数据。通过气相色谱仪、吸烟机、qtm、顶空气质联用仪等质检设备采集生产过程质检数据,如卷烟成品圆周、重量、吸阻、硬度和总通风率等。香精香料相对密度、熔点和酸值等。材料苯含量、透气度和抗张强度等。原料尼古丁、总糖和厚度等。

数据质量评估阶段:针对每类数据,计算与每类数据对应的至少一个数据评价指标,其中数据评价指标包括数据的完整性、准确性、一致性、及时性、唯一性、有效性以及稳定性7类数据评价指标,并根据7类数据评价指标计算采集数据的综合指标。

根据实际的工业场景,每类数据的数据分布特性和属性不相同,导致评估数据指标也会不尽相同,因此,在计算数据评价指标时,根据数据的特性,选择相应的评价指标来评价该类数据。

经过大量的实际总结,完整性、准确性、一致性、及时性、唯一性、有效性以及稳定性7类数据评价指标可以全面地评价数据质量。具体地,

所述完整性是指物资、生产、成品三个方面的数据是否完整,单位维度是否完整;从业务角度来看,主要从批次管理的不同粒度方面进行衡量,包括生产记录内容完整,单位维度完整,投产数量完整等,因此定义了必有率作为衡量完整性的指标,必有率指标的公式如下:

具体地,完整性指标定义如下:

其中,w为完整性指标,n为物料的总数,mi为第i个物料的实际投放量,m0i为第i个物料的理论投放量,ωi为第i个物料为自适应权重,且

其中,自适应权重的计算过程为:

(a)初始化各牌号各物料的权值分布,每个物料最开始均被赋予相同的权值,即初始权值分布

(b)迭代j=1,...m,统计物料在单个牌号中不满足期望值的个数ej,

其中,e(mhr1i)为物料的期望必有率mhr;

(c)计算该牌号的计算结果系数αj,系数越大则mhr越高;

(d)更新权值分布dj+1;

物料不满足期望mhr时,

物料满足期望mhr时,

其中,zj为归一化常数

所述精确性是指数据在各个维度、频度方面的业务逻辑上是否准确,产品追溯的追溯链是否贯通,因此定义了追溯误差率作为衡量精确性的指标,具体地,精确性定义为:

其中,p为精确性指标。

所述一致性是指上传到批次管理系统的数据与erp系统(erp通过定期盘点保证数据准确)的数据是否一致,在卷烟生产中,特别是库存信息的一致性,因此定义了批次库存一致率作为衡量一致性的指标,具体地,一致性定义为:

其中,c为一致性指标。

一般,数据的价值都有一定的时间性,所述及时性是指数据在业务过程中是否满足业务对数据的时效性需求,以及相关数据是否按照规定的更新频率进行上报;具体地,及时性定义为:

其中,s为及时性,td为及时性约束规则定义的滞后时间,为平均上报周期,公式为:

其中,tin为数据录入时间,toccur为数据发生时间,nrecord为录入数据量,p为数据录入的次数,q为数据集的个数。

所述唯一性是指跨企业批次管理过程中,数据不能重复上传并被记录,需要保证上传数据的唯一,在卷烟生产中,批次号的唯一性非常重要,且投入物料的数量与产出数量应有一定的对应关系,因此定义数据重复率作为衡量唯一性的指标;具体地,批次投入产出数据重复率,也就是唯一性定义为:

其中,r1为唯一性,nall为所有的批次编号,nrepeat为重复的批次编号。

其中,pin为投入数量,pout为产出数量,η为生产工艺要求的投入产出理论比例系数。

所述有效性是指数据在阈值范围内是有效的,而超出阈值后的数据是无效的或者错误的;一般批次工艺数据有效性指标衡量,具体地,有效性定义为:

其中,v为有效性,x(i)为第i个的数据,s为数据的总量,x分别为数据范围的阈值下限和上限。

所述稳定性是指在企业的生产过程中,反映工艺数据在阈值范围内的波动情况,因此定义了批次工艺稳定度作为衡量稳定性的指标;具体地,稳定性定义为:

其中,x分别为数据范围的阈值下限和上限。

所述有效性是指数据在某个阈值范围内是有效的,而超出阈值后的数据是无效的或者错误的。因此定义数据有效率作为衡量有效性的指标。

综合评估方法,对合作生产企业批次管理数据质量进行综合评价,宏观上反映各个合作生产企业的批次管理系统数据质量的总体水平。在获得7类数据评价指标的基础上,计算数据的综合指标来综合评价数据的质量,具体地,所述综合指标的计算过程为:

(a)将完整性、准确性、一致性、及时性、唯一性、有效性以及稳定性7类数据评价指标进行正向化处理;

由于不同的指标分为极大型和极小型,如必有率、一致率等越大越好,而重复率、误差率则越小越好,因此需要对指标进行一致化处理。对于负向化指标,利用下式将其转化为正向型:

(b)利用专家打分的方法对数据评价指标的重要程度进行比较标度,构建一个判断矩阵a(aij)n×n,判断矩阵a(aij)n×n中,每个元素表示数据评价指标的重要程度值,且各元素关于对角线成倒数关系;

(c)判断判断矩阵a(aij)n×n的最大特征值λmax对应的特征向量,再对特征向量进行归一化处理,得到的向量即是各数据评价指标的主观权重向量w=(ω1,...,ωn);

由于判断矩阵a(aij)n×n的阶数一般较高,直接计算其特征值较为困难,因此本发明采用几何平均法计算权重,其表达式为:

判断矩阵的最大特征值可以由权重向量近似计算:

其中,a为判断矩阵,w为权重向量,ωi为第i个权重向量,n为评价指标的数量。

通过进行一致性检验确定指标相互重要性比较的逻辑一致性,是层次分析结论可靠与否的前提。根据得到的最大特征值可以计算出矩阵的不一致程度ci:

最后得到随机一致性比率cr

其中,ri是矩阵的随机一致性指标,其取值如下表1所示:

表2不同阶数对应的ri取值

当判断矩阵的随机一致性比率cr<0.10时,则说明矩阵具有一致率能够满足要求。

(d)计算每类数据评价指标的熵权向量,具体地,对于单个数据评价指标,其信息熵为:

其中,m为所有参与评价的数量,yij为第j个单位的第i个数据评价指标;

第i个指标的熵权权重εi:

(e)针对每个数据评价指标,将步骤(c)获得的主观权重和步骤(d)获得的熵权权重进行组合,获得每个数据评价指标的综合权重;

具体地,将层次分析法得到的主观权重ωi和熵权法得到的熵权权重εi进行综合可以得到各指标的综合权重值αi,由于αi的值应与主观权重ωi和熵权权重εi的值尽量相近,即满足下式:

利用lagrange乘子法求解以上极值问题可得:

(f)根据数据评价指标的综合权重计算数据的综合评价指标fj:

其中,yij为第j个单位的第i个数据评价指标,αi为第i个数据评价指标的综合权重。

数据质量诊断及改进阶段:当数据综合指标不满足健康条件时,则根据数据综合指标反向推测出问题的数据评价指标,并按照数据改进机制对出问题的那类数据评价指标对应的数据进行改进修正,其中,数据改进机制包括:缺失数据的补录和回传、重复数据的清洗与校核、无效数据的剔除、逻辑错误的修正、不一致数据的处理、数据不及时的警告、数据大范围波动的限制。

健康条件可以指设定的综合指标阈值,当满足时,即综合指标fj低于某个综合指标阈值时,即数据综合指标不满足健康条件,需要对数据进行改进,即反向推导有问题的数据评价指标,具体地,所述根据数据综合指标反向推测出问题的数据评价指标包括:

根据综合指标的计算过程反向搜索获得每类数据评价指标;

针对每类数据评价指标,利用该类数据评价指标的阈值评价该类数据评价指标是否出现问题。

在卷烟生产过程中,如图3所示,改进的过程为:数据质量改进由第一计算单元、业务系统单元、边缘计算单元、设备控制系统、批次应用服务器、批次数据库服务器、数据交换总线、第二计算单元等组成。第一计算单元针对不满足综合指标要求的业务数据触发纠错指令,逆向寻找7个指标维度上出现问题的单项指标,由于各单项指标权重不同,由大到小依次判断对应的单项指标是否出现问题;业务系统单元根据业务系统分类,找出数据出现问题的业务类型,包括但不限于:卷包投料、制叶投料、制丝生产、生产库存、成品调拨等;边缘计算单元通过业务类型对问题指标反映的设备进行追溯,找到问题来源,生成问题清单;根据问题清单触发相应措施,自动从批次数据库服务器的数据规则库中提取质量改进机制和方法,包括但不限于:

a)当完整性指标不满足要求时,通过逆向追溯定位,相应设备进行缺失数据的补录和回传

b)当准确性指标不满足要求时,进行逻辑错误的修正

c)当唯一性指标不满足要求时,进行重复数据的清洗与校核

d)当有效性指标不满足要求时,进行无效数据的剔除

e)当一致性指标不满足要求时,进行不一致数据的处理

f)当及时性指标不满足要求时,对设备发出数据不及时的警告

g)当稳定性指标不满足要求时,进行数据大范围波动的限制以及数据变化的预测等

经过数据质量指标的科学设定与指标权值的合理计算,本发明的批次全过程数据质量评价和改进方法能够较为准确客观地衡量不同合作生产企业间批次管理数据质量的总体水平。

经过诊断改进机制,本发明的批次全过程数据质量评价和改进装置能够自动地从数据规则库中提取改进机制和方法,改进和优化批次数据质量,提高企业精细化管理水平。

本实施例还提供了一种烟草工业批次全过程数据质量评价和改进的装置,包括:

数据采集模块:用于采集生产环境数据、生产过程数据、生产设备工艺参数数据、生产过程质检数据;

数据质量评估模块:针对每类数据,计算与每类数据对应的至少一个数据评价指标,其中数据评价指标包括数据的完整性、准确性、一致性、及时性、唯一性、有效性以及稳定性7类数据评价指标,并根据7类数据评价指标计算采集数据的综合指标;

数据质量诊断及改进模块:用于当数据综合指标不满足健康条件时,则根据数据综合指标反向推测出问题的数据评价指标,并按照数据改进机制对出问题的那类数据评价指标对应的数据进行改进修正,其中,数据改进机制包括:缺失数据的补录和回传、重复数据的清洗与校核、无效数据的剔除、逻辑错误的修正、不一致数据的处理、数据不及时的警告、数据大范围波动的限制。

烟草工业批次全过程数据质量评价和改进的装置与上述烟草工业批次全过程数据质量评价和改进的方法实现的功能和手段以及带来的技术效果相同,在此不再赘述。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1