基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法与流程

文档序号:26433416发布日期:2021-08-27 13:30阅读:423来源:国知局
基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法与流程
本发明涉及大数据异常值处理
技术领域
,尤其是基于arima预测和回归预测的传感器采集数据缺失值处理方法。
背景技术
:在进行桥梁传感器数据分析之前,数据预处理过程中,不可避免需要对原数据的缺失值进行处理。在面对庞大且复杂的数据时,现有技术主要对缺失值进行简单的处理,如:直接删除、极端值替代、均值替代、极大似然估计、多重插补、众数填补等。由于桥梁传感器的实际数据是庞大而复杂的,因此现有技术往往只能选择其中一种方法进行缺失值的处理。现有技术对于数据中的缺失值只是进行简单笼统的处理,这样的数据处理方式导致了处理后数据与真实数据有较大的偏差,不但忽略了数据之间所具有的关联性,还改变了数据本身所具有的一些规律和性质。同时在大数据背景下,桥梁传感器产生的的数据量是庞大的,种类是复杂的,现有技术单一的缺失值处理方式,已经无法满足国内桥梁传感器数据分析领域的发展需求,而且在面对种类复杂的数据时更加捉襟见肘。综上所述,现有的数据缺失值处理方法,不仅降低了后续的数据分析与研究的意义和参考价值,而且无法满足国内桥梁传感器数据分析领域的发展需要,在传感器采集的数据处理问题尤为突出,具体表现为:1、现有缺失值处理技术处理后的数据与真实数据有较大偏差,不能反应数据本身的周期性、趋势性与相关性。2、现有缺失值处理技术对于庞大且复杂的数据时较为单一笼统,不能根据不同的缺失形式采取更优的填补方法。技术实现要素:本发明提出基于arima预测和回归预测的传感器采集数据缺失值处理方法,能对桥梁传感器收集数据的缺失值进行预测,从而对缺失值(缺失值包括:空值、超出传感器量程和精度的数据)进行回填。本发明采用以下技术方案。基于arima预测和回归预测的传感器采集数据缺失值处理方法,用于对采集数据中的缺失部分进行估算,并以估算值回填,所述处理方法包括以下步骤;步骤s1、对传感器采集数据的缺失部分进行时间填补及空值替代,把缺失部分转换为空值区;步骤s2、对空值区连续缺失值部分进行数据拆分,同时识读缺失值对应的传感器数量,对拆分后的数据以arima算法或回归预测方法以对缺失值进行估算;步骤s3、对步骤s2中的估算值进行评估以判定其是否满足回填标准,以符合回填标准的估算值进行回填。在步骤s1中包括以下步骤;步骤a11、导入传感器采样的原始数据集,将传感器原始数据集按时间属性进行排序形成时间序列原始数据集;所述时间序列原始数据集至少包含以下属性:时间、传感器类型、传感器编号、规定时间间隔内传感器数据平均值;步骤a12、对时间序列原始数据集内符合预设时间间隔阈值范围内的时间缺失进行填补,将其所对应的缺失数据使用空值来进行替代,替代完成后根据时间属性进行重复值剔除,剔除重复的时间节点及其对应的数据,以保证时间节点对应的采样数据的唯一性;步骤a13、对完成时间填补及空值替代的传感器采样数据集进行筛选,筛选出不在量程范围、精度误差范围内的数值并剔除,剔除完成后在对应位置使用空值进行替代。所述步骤s2包括以下步骤;步骤b11、对采样数据集进行空值识别来识别其缺失值,并判断缺失值是否连续;方法为:设第一个缺失值之前纳入识别模型的数据量为m,连续缺失数据的个数为m,设定一个判别标准g,g的取值根据数据特性设定,具体选取算法如下:第一步:设s为当前使用场景的时间序列真实采样数据,且为步骤a13的缺失值处理后的数据集;从s中截取一段连续且无缺失值的数据m;在m数据集中随机m个时间节点对应数据进行空值替代,使用arima算法和回归算法对这m个空值进行预测并使用预测结果填补空值;第二步:设m数据集中使用空值替代的m个数据所对应的时间节点分别为t1,t2,…tm;该时间节点对应真实采样数据为f(t)={f(t1),f(t2),…,f(tm)};则使用arima算法预测结果为d(t)={d(t1),d(t2),…,d(tm)},使用回归算法预测结果为k(t)={k(t1),k(t2),…,k(tm)}。第三步:设第一个缺失值之前的数据量为h,连续缺失的数据个数为h,第一次取h=1时,使用arima算法与回归算法预测,得到预测的估算值d(th)与k(th),计算arima算法预测残差平方和回归预测残差平方和当sses≤ssex,则h=h+1,重复进行两种方法对缺失值进行估算,重复以上步骤直到sses>ssex,定义当前的第四步:以公式进行校验;为消除一次训练带来的偶然性,重复第二步,取一段新的连续不缺失数据,或者在第二步数据中在不同位置挖空,再重复第三步,得到g2;如此循环往复,得到了g1,g2,…,gn,将它们的平均值定义为g,即当时,判定该段缺失数据为非连续缺失;步骤b12、把采样数据拆分成一个时间点对应一个传感器的数值格式;步骤b13、针对每个传感器进行arima算法建模,具体方法为:对传感器采样数据进行从表头开始检索,若第一个为缺失值则跳过该值,继续检索,直到检索到非缺失值;检索到非缺失值后,由该值起往后提取连续非缺失的时间及其对应传感器数据,直到遇到缺失值为止,设该过程提取了n个连续非缺失的数据,则将其当作一个新的时间序列数据,进行arima算法建模,从而预测该时间序列数据后m个缺失数据,预测完成后根据arima算法或回归预测生成对缺失数据的估算值;步骤b13、将估算值填补到对应时间点传感器缺失数据的数据集对应部位,然后判断采样数据集是否还存在空值数据,若还存在则从步骤b11再次执行。在步骤b13中,若采样数据包括多个传感器数据,则对各个传感器的数据进行相关性分析,计算各个传感器数据之间的皮尔逊系数,生成相关系数矩阵,以公式表述为其中,cov(x,y)为x与y的协方差,var[x]为x的方差,var[y]为y的方差;所述相关系数矩阵用于评估各个传感器数据之间的线性关系,即一个传感器的数据变化趋势是否与另一个传感器的数据变化趋势相类似;当两传感器数据间的相关系数值满足预设相关系数(0.8)时,则表示采样数据集中,这两个传感器的采样数据存在较强的线性关系,其缺失值通过建立回归预测模型进行预测估算以减小估算偏差;所述回归预测模型的自变量、因变量由上述的相关性分析结果和缺失值预测目标来确定。所述传感器为桥梁传感器。当桥梁传感器的采样数据源于新的采样项目时,所述步骤s3中采用均方误差对估算值的拟合度进行精度评估。在步骤s3中,以均值填补数据与步骤s2中的估算值进行比对以输出拟合度评估结果。根据步骤b11中的判别标准g来判定桥梁传感器缺失数据部分为短缺失数据还是连续缺失数据,当所述桥梁传感器缺失数据部分为短缺失数据时,采用基于arima算法预测的时间序列对缺失数据进行预测估算并回填数据,当所述桥梁传感器缺失数据部分为连续缺失数据时,采用线性回归预测对缺失数据进行预测估算并回填数据。所述arima算法为arima(p,d,q)模型,其公式为式中,φ(b)=1-φ1b-…-φpbp,,为平稳可逆arma(p,q)模型的自回归系数多项式;θ(b)=1-θ1b-…-θqbq平稳可逆arma(p,q)模型的移动平滑系数多项式;为自回归移动平均模型即d阶差分后的数据序列。本发明使用ariam算法与回归算法根据拥有的桥梁传感器真实数据进行预测,从而使用预测值进行缺失值的回填,且本发明基于时间序列预测回填方法与线性回归预测回填方法,根据桥梁传感器的实际数据情况,对两者的预测精度进行了判别,最终决定短缺失数据使用时间序列预测回填方式,连续缺失数据使用线性回归预测回填,此处连续缺失的判别标准g的设置根据时间序列预测回填与线性回归预测回填的精确度对比而来,本发明的优点在于:1、本方法跳出了传统的缺失值处理方式,采取了更能体现桥梁传感器数据本身周期性及趋势性的时间序列预测方法以及能体现不同数据之间相关性的回归方法进行缺失值填补,根据数据自身缺失值的性质,判定选取时间序列预测回填或回归预测回填,使得回填后的缺失值更为准确,且能反应桥梁传感器原始数据的周期性、趋势性或相关性;2、本方法基于时间序列预测回填与线性回归预测回填,在实际运用中创造了判定值g,得到了结合两种算法的最优回填效果;3.、本提案使用ariam算法与回归算法就所具有的桥梁传感器真实数据进行预测,从而使用预测值进行缺失值的回填。这样的缺失值处理方式,使处理后的数据与真实数据产生较小的偏差,从而最大限度的保留了数据之间所具有的关联性和数据本身所具有的一些规律和性质。本发明采用arima模型,既考虑了时间序列上的依存性,又考虑了随机波动的干扰性,因此对于短期的预测较为准确,而在本发明中将建模及预测过程全程自动化并与传感器监测数据系统进行集成,及时将新的数据加入时间序列参与预测,实现实时动态建模和预测,可为今后开展桥梁或其他工程监测提供便捷可靠的手段。附图说明下面结合附图和具体实施方式对本发明进一步详细的说明:附图1是本发明的流程示意图;附图2是ariam算法的流程示意图;附图3、附图4为均方误差随连续空值个数的示意图。具体实施方式如图所示,基于arima预测和回归预测的传感器采集数据缺失值处理方法,用于对采集数据中的缺失部分进行估算,并以估算值回填,所述处理方法包括以下步骤;步骤s1、对传感器采集数据的缺失部分进行时间填补及空值替代,把缺失部分转换为空值区;步骤s2、对空值区连续缺失值部分进行数据拆分,同时识读缺失值对应的传感器数量,对拆分后的数据以arima算法或回归预测方法以对缺失值进行估算;步骤s3、对步骤s2中的估算值进行评估以判定其是否满足回填标准,以符合回填标准的估算值进行回填。在步骤s1中包括以下步骤;步骤a11、导入传感器采样的原始数据集,将传感器原始数据集按时间属性进行排序形成时间序列原始数据集;所述时间序列原始数据集至少包含以下属性:时间、传感器类型、传感器编号、规定时间间隔内传感器数据平均值;步骤a12、对时间序列原始数据集内符合预设时间间隔阈值范围内的时间缺失进行填补,将其所对应的缺失数据使用空值来进行替代,替代完成后根据时间属性进行重复值剔除,剔除重复的时间节点及其对应的数据,以保证时间节点对应的采样数据的唯一性;步骤a13、对完成时间填补及空值替代的传感器采样数据集进行筛选,筛选出不在量程范围、精度误差范围内的数值并剔除,剔除完成后在对应位置使用空值进行替代。所述步骤s2包括以下步骤;步骤b11、对采样数据集进行空值识别来识别其缺失值,并判断缺失值是否连续;方法为:设第一个缺失值之前纳入识别模型的数据量为m,连续缺失数据的个数为m,设定一个判别标准g,g的取值根据数据特性设定,具体选取算法如下:第一步:设s为当前使用场景的时间序列真实采样数据,且为步骤a13的缺失值处理后的数据集;从s中截取一段连续且无缺失值的数据m;在m数据集中随机m个时间节点对应数据进行空值替代,使用arima算法和回归算法对这m个空值进行预测并使用预测结果填补空值;第二步:设m数据集中使用空值替代的m个数据所对应的时间节点分别为t1,t2,…tm;该时间节点对应真实采样数据为f(t)={f(t1),f(t2),…,f(tm)};则使用arima算法预测结果为d(t)={d(t1),d(t2),…,d(tm)},使用回归算法预测结果为k(t)={k(t1),k(t2),…,k(tm)}。第三步:设第一个缺失值之前的数据量为h,连续缺失的数据个数为h,第一次取h=1时,使用arima算法与回归算法预测,得到预测的估算值d(th)与k(th),计算arima算法预测残差平方和回归预测残差平方和当sses≤ssex,则h=h+1,重复进行两种方法对缺失值进行估算,重复以上步骤直到sses>ssex,定义当前的第四步:以公式进行校验;为消除一次训练带来的偶然性,重复第二步,取一段新的连续不缺失数据,或者在第二步数据中在不同位置挖空,再重复第三步,得到g2;如此循环往复,得到了g1,g2,…,gn,将它们的平均值定义为g,即当时,判定该段缺失数据为非连续缺失;步骤b12、把采样数据拆分成一个时间点对应一个传感器的数值格式;步骤b13、针对每个传感器进行arima算法建模,具体方法为:对传感器采样数据进行从表头开始检索,若第一个为缺失值则跳过该值,继续检索,直到检索到非缺失值;检索到非缺失值后,由该值起往后提取连续非缺失的时间及其对应传感器数据,直到遇到缺失值为止,设该过程提取了n个连续非缺失的数据,则将其当作一个新的时间序列数据,进行arima算法建模,从而预测该时间序列数据后m个缺失数据,预测完成后根据arima算法或回归预测生成对缺失数据的估算值;步骤b13、将估算值填补到对应时间点传感器缺失数据的数据集对应部位,然后判断采样数据集是否还存在空值数据,若还存在则从步骤b11再次执行。在步骤b13中,若采样数据包括多个传感器数据,则对各个传感器的数据进行相关性分析,计算各个传感器数据之间的皮尔逊系数,生成相关系数矩阵,以公式表述为其中,cov(x,y)为x与y的协方差,var[x]为x的方差,var[y]为y的方差;所述相关系数矩阵用于评估各个传感器数据之间的线性关系,即一个传感器的数据变化趋势是否与另一个传感器的数据变化趋势相类似;当两传感器数据间的相关系数值满足预设相关系数(0.8)时,则表示采样数据集中,这两个传感器的采样数据存在较强的线性关系,其缺失值通过建立回归预测模型进行预测估算以减小估算偏差;所述回归预测模型的自变量、因变量由上述的相关性分析结果和缺失值预测目标来确定。所述传感器为桥梁传感器。当桥梁传感器的采样数据源于新的采样项目时,所述步骤s3中采用均方误差对估算值的拟合度进行精度评估。在步骤s3中,以均值填补数据与步骤s2中的估算值进行比对以输出拟合度评估结果。根据步骤b11中的判别标准g来判定桥梁传感器缺失数据部分为短缺失数据还是连续缺失数据,当所述桥梁传感器缺失数据部分为短缺失数据时,采用基于arima算法预测的时间序列对缺失数据进行预测估算并回填数据,当所述桥梁传感器缺失数据部分为连续缺失数据时,采用线性回归预测对缺失数据进行预测估算并回填数据。所述arima算法为arima(p,d,q)模型,其公式为式中,φ(b)=1-φ1b-…-φpbp,,为平稳可逆arma(p,q)模型的自回归系数多项式;θ(b)=1-θ1b-…-θqbq平稳可逆arma(p,q)模型的移动平滑系数多项式;为自回归移动平均模型即d阶差分后的数据序列。实施例:步骤b11中的判别标准g的设置示例如下从桥梁传感器的采样数据中,取一段具有100个连续空值、且第一个空值前的数据能满足arima算法的合理建模条件的数据的时间序列数据对其分别进行arima算法预测回填和回归预测回填,采样数据中使用的部分数据如下:timeavg_value_温度2021-01-1212:00:008.962021-01-1213:00:0010.182021-01-1214:00:0011.352021-01-1215:00:0011.92021-01-1216:00:0011.912021-01-1217:00:0011.42021-01-1218:00:0010.772021-01-1219:00:009.962021-01-1220:00:009.322021-01-1221:00:008.83根据预测出的估算值而回填的部分数据如下:在上述过程中,分别得到均方误差随连续空值个数的图像如附图3、附图4所示。其中mse为均方误差,即各数据偏离真实值差值的平方和的平均数,该值越小说明拟合的值越接近真实值。从上图中可以直观看出,随着空值个数的增加,arima算法预测的值越来越偏离真实值,即准确率越来越低,而回归预测算法的准确度却随着空值个数的增加而逐渐增大,两者的临界点大约为空值为40。40除以第一个空值前的数据的个数,即为一个g值。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1