一种基于逐步回归分析的大数据处理方法

文档序号:10687025阅读:349来源:国知局
一种基于逐步回归分析的大数据处理方法
【专利摘要】本发明涉及一种基于逐步回归分析的大数据处理方法,其按照以下步骤进行:先收集工厂操作参数的数据,并对收集的操作参数进行编号;然后,将上述收集的操作参数一部分作为因变量,其它的操作参数作为自变量,各参数之间成线性关系,列出方程式;再将上述方程式以及对应的数据逐个导入Matlab软件,进行逐步回归分析运算,计算出各个方程自变量前的系数及截距;最后进行结果分析得出对应操作参数的最优值。本发明的方法利用收集大量的数据,通过逐步回归分析及处理大数据,并结合运用Matlab软件,可通过定量判断工厂DCS各个操作参数之间的影响,定量判断改变某参数的大小对其它参数的影响,而确定工厂DCS操作参数的最优值。
【专利说明】
一种基于逐步回归分析的大数据处理方法
技术领域:
[0001] 本发明涉及工业生产中处理大数据的方法,具体涉及一种基于逐步回归分析的大 数据处理方法。
【背景技术】:
[0002] 回归分析是处理多变量间相关关系的一种数学方法。这种相关关系不同于函数关 系,后者反映变量间的严格依存性,而前者则表现出一定程度的波动性或随机性,对自变量 的每一取值,因变量可以有多个数值与之相对应。当自变量为非随机变量、因变量为随机变 量时,分析它们的关系称为回归分析;当两者都是随机变量时,称为相关分析。在统计上研 究相关关系可以运用回归分析和相关分析。具有相关关系的变量之间虽然具有某种不确定 性,但是,通过对现象的不断观察可以探索出它们之间的统计规律,这类统计规律称为回归 关系。在一个多元线性回归模型中,并不是所有的自变量都与因变量有显著关系,有时有些 自变量的作用可以忽略。这就产生了怎样从大量可能有关的自变量中挑选出对因变量有显 著影响的部分自变量的问题,在可能自变量的整个集合中元素很多,使用"最优"子集的算 法可能行不通。那么逐步产生回归模型要含有的X变量子集的自动搜索方法却可能是有效 的。这就是求适度好的自变量子集时,同所有可能回归的方法比较,为节省计算工作量而产 生的,这就是逐步回归。
[0003] 现代化工业生产的环节都是密切相关,有机联系的。其最重要的表征是自动化和 大数据。在化工行业,通过现代自动化技术,将生产工艺、设备、控制与管理连成为一个有 机的整体,会同时产生海量的数据。这些海量的数据从应用的观点上可分为三类:可调参 数、必控参数和参考参数。其中,可调参数是人为可调,无论是自动,半自动,或全手动,包括 阀门开度,电压,电流,电阻,频率等,其唯一目的是保证生产安全、稳定、和产品质量达标。 必控参数是在预先规定的工况条件下进行操作的工艺参数,即化工生产过程中,各类工艺 参数必须在预先规定的工况条件下进行操作才能保证生产安全、高效地进行,如储罐和容 器(包括油罐、水箱、锅炉汽包等)液位要求维持在规定的范围;生化过程中发酵罐的温度、 压力、pH等要符合工艺要求。参考参数是除了上述的两种参数以外的参数就是参考参数。因 为生产过程工艺流程线上的各个设备、各个环节都与前后的设备、环节紧密相连,涉及整个 流程、众多的被控变量和操纵变量。要切实考虑如何保证产品质量、提高产量、节能和稳定 操作,考虑和综合各个工序、设备、环节之间的联系和相互影响,从而合理安排各个系统,使 之互相配合、协调一致,行之有效,就需要用好这些参考参数。因此,为了①加快生产速度, 降低生产成本,提高产品的产量和质量;②减轻劳动强度,改善劳动条件;③能够保证生产 安全,防止事故发生或扩大,达到延长设备使用寿命,提高设备利用能力的目的;④生产过 程自动化的实现,能根本改变劳动方式,提高工人文化技术水平,为逐步地消灭体力劳动和 脑力劳动之间的差别创造条件,亟需提供一种处理这些大数据的方法,通过收集大量的数 据运用逐步回归分析,从而解决以上实际问题。

【发明内容】

[0004] 本发明提供一种基于逐步回归分析的大数据处理方法,能够有效对大量数据进行 分析处理,定量判断工厂DCS各个操作参数之间和判断改变某参数的大小对其它参数的影 响,从而确定工厂DCS操作参数的最优值。
[0005] 为解决上述技术问题,本发明采取以下技术方案:
[0006] 一种基于逐步回归分析的大数据处理方法,按照以下步骤进行:
[0007] S1:收集工厂操作参数的数据,并对收集的操作参数进行编号,分别记为1、2、 3、......、n;
[0008] S2:数据处理:将上述收集的操作参数一部分作为因变量,其它的操作参数作为自 变量,各参数之间成线性关系,列出如下方程式:
[0010]其中:x为自变量;y为因变量;a为自变量前的系数;b为截距;
[0011] S3:将上述方程式以及对应的数据逐个导入Matlab软件,进行逐步回归分析运算, 计算出各个方程自变量前的系数及截距;
[0012] S4:结果分析:
[0013] (1)当自变量前的系数为零时,说明该自变量对相应的因变量不产生影响,系数正 负反应影响的正反方向,系数的大小反应影响的大小,因此通过上述运算结果可以找出影 响因变量的最大操作参数及操作参数个数;
[0014] (2)将上述求得系数的方程组作如下变化:
[0016]将该方程组写成矩阵的形式,如下式:
[0018] 用Matlab软件解上式,计算中需加入参数取值范围作为约束条件,得到的解即为 对应操作参数的最优值。
[0019] 本发明的方法利用收集大量的数据,通过逐步回归分析及处理大数据,并结合运 用Matlab软件,可通过定量判断工厂DCS各个操作参数之间的影响,定量判断改变某参数的 大小对其它参数的影响,而确定工厂DCS操作参数的最优值。从而解决实际生产中出现的数 据量大分析难度大、劳动力耗费大、生产效率低、生产条件不佳和设备利用率低等问题,加 快生产速度,降低生产成本,提高产品的产量和质量;减轻劳动强度,改善劳动条件。同时, 推广应用该方法能够保证生产安全,防止事故发生或扩大,达到延长设备使用寿命,提高设 备利用能力的目的,可实现生产过程的自动化,改变劳动方式,提高工人文化技术水平。
【具体实施方式】:
[0020] 下面对本发明的技术方案进行详细说明。
[0021] 实施例1
[0022] 运用基于逐步回归分析的大数据处理方法,先收集某煤粉厂磨机数据,该磨机共 有19个参数,对各参数编号如下表1:
[0025]分别将表1中1 _ 19号参数当作因变量,剩余参数当作自变量,可得如下方程式:
[0027] 其中:111=18,11 = 19,7和1下角标表示参数的编号,13为截距。
[0028]将上述方程式以及对应的数据逐个导入Matlab软件,进行逐步回归分析运算,求 出自变量前的系数,若某自变量对因变量没有影响则该自变量前的系数为零,最后得如下 结果:
[0029] yi9 = 9.01+0.7459xi8
[0030] yi8 = -l 10 ? 699-0 ? lx2-0 ? 007x4-0 ? 013x6+0 ? 373x8+0 ? 527xi5-〇 ? 02xi6+4 ? 91xi7+ 0.25xi9
[0031] yi7= 19.427-0.0013x3-0.0007x4+0.1567x7+0.0195x8+0.0021x9+0.0179x14+ 0.0132x15+0.0009x16+0.0203x18
[0032] y16 = 5 ? 77+0 ? 0356x6+0 ? 8161xi4
[0033] y15 = 〇 ? 481+0 ? 0061x9+0 ? 7972xi2+0 ? 0659xi4+0 ? 1041xi8
[0034] y14 = 29 ? 407-0 ? 3469x7+0 ? 0097x9+0 ? 6419xi2+0 ? 1659xi5+l ? 8141xi7
[0035] yi3 = -l 185.61-34.212x7-25.249xs
[0036] y12 = 13?3586+0?0395x1-0?0047x3+0?0029x4+0?0046x6-0?28031x7+0?0052x9+ 0.2043xi4+0.5627xi5
[0037] yn = 1.8995-0.0303xi4
[0038] yi〇 = -35 ? 0614-0 ? 5407x3-0 ? 0570x6+2 ? 2395x7+0 ? 5132xi8
[0039] y9 = -522 ? 62+0 ? 1531x4+0 ? 0437x6-6 ? 7397x7+2 ? 5759x8+2 ? 0845xi6+19 ? 4179xi7+ 1 ? 8276xi2-〇 ? 005xi3-〇 ? 0655xi6
[0040] y8 = -16.355-0.0063x4-0.0009x5+0.0145x6+0.5751x7+0.0177xg-〇 . 0005xi3-0.0636xi5+l. 1788xi7+0.0819xi8
[0041 ] y7 = -44.0176+0.0992xi+0.0082x4+0.0003x5+0.0023x6+0.1533x8-〇 . 0133xg-0 ? 0761xi2+0 ? 0526xi4+2 ? 4382xi7+0 ? 0246xi8
[0042] y6 = -459.437-2.9828x1+0.0072x2+0.2244x3-0.1105x4+0.0278x5+7.155x7+ 13 ? 47x8+0 ? 26x9_0 ? 302xi〇+6 ? 302xi2+2 ? 771xi5_3 ? 235xi8
[0043] y5 = -429.54+1.1742x6+41.7394x7-35.5218x8
[0044] y4= 1244 ? 5-5 ? 695xi+5 ? 5625x3-0 ? 2278x6+46 ? 7195x7-8 ? 4274x8+1 ? 7503x9+ 3 ? 3865xi2-56 ? 1883xi7-4 ? 4394xi8
[0045] y3= 194 ? 78+2 ? 5697xi+0 ? 1021x4-1 ? 0547x10-2 ? 7895xi2+l ? 6788x15-12 ? 0286xi7
[0046] y2 = -0.596x4+1.0683x6
[0047] yi = -l .779+0.0273x3-0.0099x4-0 ? 0101x6+1.0875x7+0.1942x8+0 ? 2186x12-0.0872xi8
[0048] 上述各个方程式反应作为因变量的参数受自变量参数的影响,并且根据自变量前 系数判断影响的方向及大小。
[0049] 将上述方程组转化为如下形式:
[0051 ]将该方程组转化为矩阵:
[0053]用Matlab软件求解该矩阵,计算中需加入参数取值范围作为约束条件,得到的解 即为对应操作参数的最优值。
[0054] 结果分析:由上表1可知,通过该方法先收集该磨机的19个操作参数,通过逐步回 归分析运算,求出自变量前的系数,用Matlab软件求解矩阵,得到对应操作参数的最优值。 从而,在实际生产过程中解决出现的数据量大分析难度大、劳动力耗费大、生产效率低、生 产条件不佳和设备利用率低等问题。
[0055] 实施例2
[0056]运用基于逐步回归分析的大数据处理方法,收集某供热公司煤粉锅炉操作数据, 该煤粉锅炉共有65个参数,对各参数编号如下表2:
[0058]分别将上述1-65号参数当作因变量,剩余参数当作自变量,可得如下方程式:
[0060]其中:y和X下角标表示参数的编号,b为截距。
[0061]将上述方程式以及对应的数据逐个导入Matlab软件,进行逐步回归分析运算,求 出自变量前的系数,若某自变量对因变量没有影响则该自变量前的系数为零,最后得如下 结果:
[0063]上述各个方程式反应作为因变量的参数受自变量参数的影响,并且根据自变量前 系数判断影响的方向及大小。
[0064] 将上述方程组转化为如下形式:
[0066]将该方程组转化为矩阵:
[0068]用Matlab软件求解该矩阵,计算中需加入参数取值范围作为约束条件,得到的解 即为对应操作参数的最优值。
【主权项】
1. 一种基于逐步回归分析的大数据处理方法,其特征在于:按照以下步骤进行: S1:收集工厂操作参数的数据,并对收集的操作参数进行编号,分别记为1、2、3、……、 n; S2:数据处理:将上述收集的操作参数一部分作为因变量,其它的操作参数作为自变 量,各参数之间成线性关系,列出如下方程式:其中:x为自变量;y为因变量;a为自变量前的系数;b为截距; S3:将上述方程式以及对应的数据逐个导入Matlab软件,进行逐步回归分析运算,计算 出各个方程自变量前的系数及截距; S4:结果分析: (1) 当自变量前的系数为零时,说明该自变量对相应的因变量不产生影响,系数正负反 应影响的正反方向,系数的大小反应影响的大小,因此通过上述运算结果可以找出影响因 变量的最大操作参数及操作参数个数; (2) 将上述求得系数的方程组作如下变化:将该方程组写成矩阵的形式,如下式:用Matlab软件解上式,得到的解即为对应操作参数的最优值。
【文档编号】G06F17/18GK106055525SQ201610479051
【公开日】2016年10月26日
【申请日】2016年6月27日
【发明人】魏亚玲, 李 东, 张学梅, 苗泽凯, 程实, 马青华
【申请人】中国矿业大学银川学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1