一种基于MapReduce框架的时间序列桥梁监测数据分析方法与流程

文档序号:14135969阅读:860来源:国知局
一种基于MapReduce框架的时间序列桥梁监测数据分析方法与流程

本发明属于数据挖掘技术领域,特别涉及一种基于mapreduce框架的时间序列桥梁监测数据分析方法。



背景技术:

桥梁工程作为国家基础设施建设中的关键部分之一,成为极其重要的交通水力枢纽。尤其是近些年来中国高速铁路和跨海大桥的建成数量日益增多。由于受到当地气候、氧化、环境腐蚀等不利因素对各种设施的影响,桥梁结构长期在静载或者活载作用下会不可避免地产生自然的老化,损伤不断地积累。结构的性能会逐步地劣化,道路桥梁的安全性就会不断地受到威胁。它的安全性直接关系到国家财产和人们的生命安全。因此,在经济和技术条件允许的情况下运用现代传感与通信技术,实时监测桥梁结构状态、各运营阶段在各种环境条件下的结构响应与行为,以获取反应结构状况和环境因素的各种信息,通过运用大数据技术分析桥梁结构的健康状况、可靠性评估,为养护需求及措施决策提供科学依据,仍是桥梁健康状态研究必行之路。

目前对桥梁健康状态监测数据的研究未能发挥出其真实的作用,尚未能充分利用监测数据在各种时间尺度上蕴含的信息,实现从海量数据中高效挖掘数据演变规律和不同类型传感器采集的数据间的相互关系的长效监测机制。而且,还不能对目标监测物的下一阶段状态提出预测,也还没有将健康状态监测上升为对桥梁建筑整个生命过程的跟踪式监测,进而实现科学指导养护管理的目的。



技术实现要素:

本发明的目的是提出一种基于mapreduce框架的时间序列桥梁监测数据分析方法,能够在大数据环境下对桥梁建筑安全状态进行监测,以获取反应结构状况和环境因素的各种信息,并由此预测桥梁下一阶段的健康状况。

本发明提供的技术方案为:

一种基于mapreduce框架的时间序列桥梁监测数据分析方法,包括以下步骤:

步骤1:对关于桥梁健康指标的时间序列原始数据进行预处理,得到有效数据;

步骤2:并行化改进arima时间序列分析方法,并对预处理后的有效数据集进行arima模型构建;

步骤3:根据所述arima模型进行时间序列拟合,对未来值进行预测

其中,x(t)为时间序列,b为延迟算子,(1-b)为差分算子,d为差分次数,εt为白噪声序列,是模型的自回归系数,θ(b)为模型的移动平均系数;

步骤4:对分析结果进行展示,形成桥梁健康评价。

优选的是,所述步骤1中,对原始数据进行预处理的方法包括无效数据清洗及插值法补齐缺失值。

优选的是,所述无效数据清洗方法为对于原始数据中的单变量时间序列,采用聚类方法对其中孤立点进行替换。

优选的是,基于聚类方法的孤立点替换方法包括以下步骤:

步骤1.1:建立单变量时间序列数据集x={xi|i=1,2,3,…n},其全局标准差为

步骤1.2:建立一个空数据集,从所述单变量时间序列选择任意一段数据,从数据段中第1个数据点xi开始,将xi加入所述空数据集中,得到新建数据集,并计算出此时所述新建数据集的标准差σ';

步骤1.3:比较σ'与全局标准差σ的大小关系,若σ'<σ,说明xi相对所述单变量时间序列数据集并非孤立点,则对所述数据段继续向后进行遍历,检测xi+1是否为孤立点;若σ'≥σ,说明xi相对所述单变量时间序列数据集为孤立点,将xi从所述数据段中剔除,并将xi保存至孤立点数据集,对所述数据段继续向后进行遍历,检测xi+1是否为孤立点,直到将所述数据段中的所有孤立点剔除;

步骤4:对所述数据段在步骤1.3中剔除的孤立点数据做左右数据均值替换处理。

优选的是,所述插值法补齐缺失值的方法为对原始数据集中的缺失数据和无效数据利用拉格朗日插值法进行插补其中,y=f(x),ln(x)为缺失值的插值结果。

优选的是,所述步骤2中并行化改进arima时间序列分析方法,包括以下步骤:

步骤2.1:获取被观测系统时间序列数据;

步骤2.2:对步骤2.1中的时间序列数据绘图,观测是否为平稳序列;对非平稳时间序列进行多次差分运算,直到化为平稳时间序列,其中差分运算的次数为d;

步骤2.3:对得到的平稳时间序列分别求得其自相关系数acf和偏自相关系数pacf,通过对自相关图和偏自相关图分析,得到最佳的阶层p和阶数q;

步骤2.4:将由上述步骤所得到的d、q、p构建arima模型。

本发明至少具备以下有益效果:

(1)本发明所提供的基于mapreduce框架的时间序列桥梁监测数据分析方法,能够在大数据环境下对桥梁建筑安全状态进行监测,实现对各种环境条件下目标运营阶段的结构响应与行为的及时监测,以获取反应结构状况和环境因素的各种信息,并由此分析结构的健康状况、评估结构的可靠性。

(2)本发明所提供的基于mapreduce框架的时间序列桥梁监测数据分析方法,能够对采集数据进行数据预处理,并利用监测数据在各种时间尺度上蕴含的信息,从中挖掘数据演变规律的长效机制,使得所积累的大量数据发挥出真实的作用,对目标监测物的下一阶段状态提出预测,将健康状态监测上升为对结构整个生命过程的跟踪式监测,进而实现指导养护管理的目的。

附图说明

图1为本发明所述时间序列桥梁监测数据分析方法总体流程示意图。

图2为本发明所述arima建模流程示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。

如图1-2所示,本发明提供一种基于mapreduce框架的时间序列桥梁监测数据分析方法,包括以下步骤:

步骤1:由历史数据及每天实时数据采集组成关于桥梁健康指标的时间序列原始数据,对所述原始数据采用无效数据清洗及插值法补齐缺失值的方法进行预处理;所述无效数据清洗的方法为:对于原始数据中的单变量时间序列,采用聚类方法对其中孤立点进行检测,即利用单变量时间序列的标准差变化情况对任意一段数据进行聚类分析。具体包括以下步骤:

步骤1.1:建立单变量时间序列数据集x={xi|i=1,2,3,…n},其全局标准差为

步骤1.2:建立一个空数据集;从所述单变量时间序列选择任意一段数据,从数据段中第1个数据点xi开始,将xi加入所述空数据集中,并计算出此时数据集的标准差σ';

步骤1.3:比较σ'与全局标准差σ的大小关系,若σ'<σ,则表明xi未使所述单变量时间序列数据集内的数据波动出现较大变化,xi相对所述单变量时间序列数据集来说并非孤立点,则对所述数据段继续向后进行遍历,检测xi+1是否为孤立点;若σ'≥σ,将xi从所述数据段中剔除,并将xi保存至孤立点数据集,对数据段继续向后进行遍历,检测xi+1是否为孤立点,直到将所述数据段中的所有孤立点剔除,所述被踢除的数据均保存至孤立点数据集;

步骤1.4:若在步骤1.3所述数据段中未检测到孤立点,即得到的孤立点数据集为空数据集,则执行步骤1.2,继续进行下一数据段的检测;若对步骤1.3得到的孤立点数据集为非空数据集,则对所述数据段中剔除的孤立点数据做左右数据均值替换处理,之后继续执行步骤1.2,进行下一数据段的检测及处理。

进一步的,步骤1中所述的插值法补齐缺失值的方法为,对原始数据集中的缺失数据和无效数据,利用拉格朗日插值法对缺失数据进行插补其中,y=f(x),ln(x)为缺失值的插值结果。

步骤2:并行化改进arima时间序列分析方法,对arima模型中的d、q、p进行求解,以训练出最佳模型,具体包括以下步骤:

步骤2.1:获取被观测系统时间序列数据。

步骤2.2:对步骤2.1中的时间序列数据数据绘图,观测所述时间序列是否为平稳时间序列;若所述时间序列为非平稳时间序列,则对所述时间序列进行多次差分运算,化为平稳时间序列,其中差分运算的次数为d。

步骤2.3:对步骤2.2:中的平稳时间序列分别求得其自相关系数acf和偏自相关系数pacf,对自相关图和偏自相关图进行分析:若acf呈指数级衰减,仅偶有超出区间数据,一定阶数后,所有滞后序列其相关性系数均处于一定区间范围内,如[-0.01,0.01];且偏自相关系数pacf逐步趋于0,并与阶数无关;其中阶数为q;若时间序列的一阶自相关系数仅在开始时有超过置信界限,其余各阶自相关均在区间范围内,设置p值为1的自回归系数,而且初步判断是阶数q=1的移动平均系数;从而得到最佳的阶层p和阶数q。

步骤2.4:由arima(d,p,q)模型的一般表达式:可知构建模型前有参数d对时间序列分析是经过了几阶差分达到了平稳,时间序列平稳后方可进行模型构建;参数q为自回归阶数,当参数全q=1,p=1时,构建arima模型:其中,xt为当前数据,xt-1为前一个数据,εt为白噪声,其检验过程可采用画样本acf图,看序列是否自相关;

步骤3:根据步骤2中的arima模型对未来值进行预测:

其中,x(t)为时间序列,b为延迟算子,(1-b)为差分算子,d为差分次数,εt为白噪声序列,是模型的自回归系数,θ(b)为模型的移动平均系数;

θ(b)=1-θ1b-θ2b2-…-θpbp,(p,q)为模型阶数,是模型的自回归系数;θ1,θ2,……,θq是模型的移动平均系数。

步骤4:将分析结果采用网页页面图形报表方式进行展示(趋势图、历史时间序列图等),形成桥梁健康评价,为养护提供科学依据。

尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1