一种厌氧数学建模过程缺失数据的预处理方法

文档序号：6631331阅读：1496来源：国知局

一种厌氧数学建模过程缺失数据的预处理方法
【专利摘要】本发明提供一种厌氧数学建模过程缺失数据的预处理方法，对缺失数据提出数据分组处理算法，并用拉格朗日插值法对缺失值进行插补。首先从原始数据集中确定因变量和自变量，然后取缺失值前后5个数据，剔除掉缺损值后的10个数据组成一组，将剩下的数据依次排序，并基于拉格朗日多项式插值法，建立插值模型，对全部缺失数据依次进行插补，通过Java编程实现大量数据的自动插补处理，直到缺失值不存在。
【专利说明】一种厌氧数学建模过程缺失数据的预处理方法

【技术领域】
[0001] 本发明涉及厌氧消化领域数学建模预测沼气产气速率和产气量，实现厌氧消化过程关键参数的软件传感，具体涉及一种厌氧数学建模过程缺失数据的预处理方法。

【背景技术】
[0002] 在厌氧沼气工程运行过程中，由于通讯中断、信号干扰、传感器故障或者人为误操作会造成一些监测数据的缺失。管理者和技术支持者希望通过对缺失数据的计算与分析，能够准确地评估系统运行效率，通过数学建模预测产气过程和关键指标的软件传感。如，在进行产气异常智能分析建模时，时间、进水量、产气量等指标的数据质量直接影响到模型的结果精度与评价标准，因此，对数据进行预处理就显得非常重要。
[0003] 缺失值是造成脏数据的主要因素之一，是对以数据挖掘为主要手段的数学处理方法应用的巨大威胁。数据缺失造成的影响主要有：系统丢失了大量的有用信息；系统中表现出的不确定性更加显著，系统中蕴含的确定性成分更难把握；包含空值的数据会使挖掘过程陷入混乱，导致不可靠的输出。因此，没有高质量的数据，就没有高质量的挖掘结果，也就没有高质量的决策。对缺失值进行插补是处理缺失数据、提高数据质量的方法之一。可能值插补缺失值的思想来源于以最可能的值来插补缺失值比全部删除不完全样本所产生的信息丢失要少。在数据挖掘中，面对的通常是大型的数据库，它的属性有几十个甚至几百个，因为一个属性值的缺失而放弃大量的其他属性值，这种删除是对信息的极大浪费，所以产生了以可能值对缺失值进行插补的思想和方法。对缺失数据的预处理，通常是采用基于加权平均值的方法进行数据补齐，即用某段时间内的数据加权平均得到缺损值，对于很多情况，补值效果并不理想，因而这种方法具有很大的局限性。
[0004] 基于以上所述，针对规模化沼气运行过程中的一些产气量无法正常采集，如果丢失这部分数据，将影响产气量的计算结果，最终导致产气率数据误差很大。为了达了较好的建模和分析效果，需要对厌氧消化过程指标数据进行预处理，即需通过合适算法对缺失数据进行补齐，之后再算出厌氧消化过程的产气率。
[0005] 本发明针对用户在厌氧消化建模过程的缺失数据进行分析，而挖掘目标是实现不完整数据到完整数据，有效地完备了数据，从而使模型构建得更精确，预测效果更好。

【发明内容】

[0006] 数据分组处理算法是一种自组织的数据挖掘算法，用到了自组织数据挖掘主要原理。本发明通过数据分组处理算法对缺失值前后5个共10个数据为一组的进水量和产气量数据进行插补，从而实现对酒精废水产气量缺失数据的预处理。
[0007] 方法包括以下步骤：首先将导入的原始数据分组，再确定因变量和自变量，剔除组里的缺失值并将剩下数据依次排序，然后基于拉格朗日插值算法确定插值模型，再将缺失数据依次进行插补。然后往下一组同理处理，直到所有组数据处理完。
[0008] 所述的厌氧消化建模过程缺失数据的预处理方法，其特征在于，所述的基于拉格朗日算法对缺失值逼近插值，在结点上给出结点基函数，然后做基函数的线性组合，组合系数为结点函数值，构造多项式逼近原函数，从而插值逼近缺失值，直到完备所有数据。且拉格朗日算法容易实现和操作，结果插值逼近地较精准。
[0009]基于拉格朗日算法，本技术用JAVA代码实现数据缺失值插补的全自动化处理，并将它完备为一个数据处理平台。（算法伪代码见附件1)

【权利要求】
1. 一种厌氧数学建模过程缺失数据的预处理方法，其特征在于，对厌氧消化过程建模前的原始数据提出数据分组处理算法，并用拉格朗日插值法对缺失值进行插补。
2. 根据权利要求1所述的厌氧建模过程中缺失数据的预处理方法，其特征在于，首先从原始数据集中确定因变量和自变量，然后取缺失值前后5个数据（若前后不满5个数据，则将仅有的数据组成一组），剔除掉缺损值后的10个数据组成一组，将剩下的数据依次排序，并建立拉格朗日多项式插值模型，对全部缺失数据依次进行插补，直到缺失值不存在。
3. 根据权利要求1所述的厌氧建模过程缺失数据的预处理方法，包括以下步骤： (1) 导入两组相关属性数据并确定自变量和因变量： Xn - {x〇，Xi，· · ·，Xi，......，xj Yn- {y〇，yp…，yp......，yJ 提取缺失值Ixi,yj前后5个数据组为一组： Xn-I- {Xi-5?Xi-4? Xi-3? Xi-2? Xi-1? Xi?Xi+1?Xi+2?Xi+3?Xi+4? Xi+5^ Yn-I- ^Ti-5,Yi-4, Yi-3, Yi-2, Yi-1，Yi，Yi+l，Yi+2,Yi+3,Yi+4, (2) 将缺失值Ixi,yj去掉，剩下数据为： Xn-I - (Xi-5, Xi-4, Xi-3, Xi-2, Xi-1，Xi+1，Xi+2?Xi+3，Xi+4?Xi+5^ Yn-I - ^Ti-5, Yi-4, Yi-3, Yi-2, Yi-1，Yi+l，Yi+2, Yi+3, Yi+4, 将上述两组数据重新依次排序： Xn-I - {x0, i-5，X1, i-4，···? X4, i-1? X5?i+1···? ^9,1+5} Yn-I- {y〇,i-5，Yl,i-4，…，又4,i-I，又5,i+Γ· ·，又9,i+5} 其中：i= 0，1，2，···，!！注：xa，b:a为重新排序后序号，b为排序如序号；同理对于缺失值{xk，yk}，{xk+1，yk+1}，…{xk+m，yk+m}，提取它们的前后5个数据组成一组，再重新依次排序为： ^-n-111-l - ?χ0, k-5? Xl, k-4? ···，X4, k-1，X5, k+m+1，*** ? X9, k+m+5^ ? Yn-m-1 -iy〇,k-5,Yl,k-4， ···，又4,k-1，又5,k+m+1， ···，又9,k+m+5}，其中：k，m= 0,1，2，···，n. 记重新排序后的自变量数据列和因变量数据列分别为：X%f⑶建立模型人(4=?^ (χ)兄 i=0 ⑷将缺失值f代入插值模型，则得到因变量插值#=人?1^?,· /=() 同理依次对各组数据进行插补直到所有组插补完成，然后导出完整数据。
4. 根据权利要求1所述的厌氧建模过程中缺失数据的预处理方法，其特征在于，通过 Java编程实现对原始数据进行自动分组、建模、插值补数、对缺失值依次插补直到所有组插补完成。利用该算法可以实现大量数据的全自动插补，进行缺失值的高效处理。
【文档编号】G06F19/00GK104318101SQ201410570879
【公开日】2015年1月28日申请日期:2014年10月23日优先权日:2014年10月23日
【发明者】李兵, 程言君, 郑晓伟, 肖佳旭, 廖晓霞, 吴镇佳申请人:轻工业环境保护研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李兵;程言君;郑晓伟;肖佳旭;廖晓霞;吴镇佳
技术所有人：轻工业环境保护研究所
我是此专利的发明人

上一篇：非接触式ic卡及其数据处理方法
上一篇：一种用于中子输运的基于MCAM-Geant4自动建模方法的转换简化方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。