一种大坝变形监测连续性缺失数据补全方法与流程

文档序号:16430635发布日期:2018-12-28 20:07阅读:324来源:国知局
一种大坝变形监测连续性缺失数据补全方法与流程

本发明涉及一种面向连续性数据缺失补全方法,具体是一种基于多视图深度融合的大坝变形监测缺失数据补全方法,通过深度神经网络捕获复杂非线性时空关系,完成大坝变形监测连续性缺失数据补全,属于数据挖掘技术领域。

背景技术

大量传感器部署混凝土大坝中,它们相互合作持续地监测大坝变形的实时状态。传感器产生的数据是具有时空特征,但是由于其自身硬件、通信错误和严重无线干扰等影响因素,造成原始传感器数据产生大量缺失,在极端情况下,产生连续性数据缺失。这些数据缺失不但影响实时监测,而且不利于进一步研究分析和决策。因此,针对连续性缺失数据进行补全十分重要。

有关数据缺失补全的研究通过单视图进行补全已经有所进展,例如基于k最近邻的局部空间插值、克里金(kriging)插值法和基于主成分分析的多通道奇异谱分析。但是,这些方法不能很好地捕获数据当中时空关系,插值补全质量并不高。随着稀疏表示的快速发展,矩阵补全技术被广泛应用在因不稳定无线传输造成的随机数据缺失中。不同于上述方法,矩阵补全利用了数据当中低秩特征,很好地通过时空关系完成随机数据缺失补全。

但是,对于整行或者整列的连续性数据缺失,利用现有的方法进行补全非常困难,其中最主要的原因是无法为其找到历史相关数据,缺少稳定连续的输入数据。当出现连续性数据缺失,现有的矩阵补全技术不起作用。现有方法针对无稳定的历史输入,通过全局初始化解决这一困难。例如基于多视图非负矩阵分解、基于协同过滤的数据补全和基于多视图融合的缺失数据补全,这些研究工作从单视图转向多视图融合学习。但是由于采用线性融合完成缺失数据补全,效果并不明显。

解决连续性缺失补全的另一挑战是捕获数据源中复杂非线性时空关系。针对现有工作中多视图中线性融合将引起信息冗余,以及无法很好捕获数据中复杂非线性时空关系,本发明公开利用深度神经网络技术,同时融合时空和语义等视图,解决大坝变形监测连续性缺失数据补全问题,完成了大坝变形监测连续性缺失数据补全,获得更好准确性以及普适性。



技术实现要素:

发明目的:针对大坝变形监测连续性缺失数据缺失稳定的历史输入和其蕴含的复杂非线性时空关系,本发明公开一种大坝变形监测连续性缺失补全方法,该方法通过跨时空视图以及语义视图中的互补异构信息,利用深度神经网络实现非线性融合,完成大坝变形监测连续性缺失数据补全。

技术方案:一种大坝变形监测连续性缺失数据补全方法,首先对本发明的技术名称进行如下定义:

定义1测点集合:部署的每一个传感器作为一个测点,所有的变形监测测点的集合构成测点集合,s={s1,…,si,…,sm}。

定义2时间戳集合:每一时刻各变形监测测点将产生数据,将所有记录的时刻组成的集合构成时间戳集合,t={t1,…,ti,…,tn}。

定义3监测矩阵:由大坝变形监测测点集合和时间戳集合共同组成一个变形监测数据矩阵(monitoringmatrix),形式化定义mms×t,其每一个实体元素mmi,t代表测点i在时间戳t的变形监测数据,本发明中测点同大坝变形监测测点为同一含义。

定义4连续性缺失:大坝变形监测中连续性缺失分为时间连续性缺失和空间连续性缺失。其中时间连续性缺失是指变形监测测点在特定的滑动窗口下,单个测点在这个窗口全部丢失。空间连续性缺失是指在同一个时间戳,所有的大坝变形监测测点发生数据丢失。

所述方法通过神经网络实现非线性融合,减少冗余信息,完成大坝变形监测连续性缺失数据补全,具体包括以下七个步骤:

(1)利用反转距离加权插值(inversedistanceweighted,idw)和双向简单指数平滑插值(simpleexponentialsmoothing,ses)对大坝变形监测数据连续性缺失预处理;

(2)从全局空间角度,利用反转距离加权插值方法,计算变形监测测点间空间相似性,对缺失数据进行全局空间插值,得到变形监测缺失数据补全初步结果mm_gs;

(3)从全局时间角度,利用双向简单指数平滑插值方法,计算变形监测测点间的时间相似性,对缺失数据进行全局时间插值,得到变形监测缺失数据补全初步结果mm_gt;

(4)从局部空间角度,利用用户协同过滤(usercollaborativefiltering,ucf)方法,计算变形监测测点间局部空间相似性,对缺失数据进行局部空间插值,得到变形监测缺失数据补全初步结果mm_ls;

(5)从局部时间角度,利用基于测点-时间二部图的能量扩散协同过滤(massdiffusioncollaborativefiltering,md-cf)方法,对变形监测缺失数据进行局部时间插值,得到变形监测缺失数据补全初步结果mm_lt;

(6)从语义角度,利用文本特征结构嵌套(structuralembedding,se)方法,计算变形监测测点间功能相似性,对缺失数据进行语义插值,得到变形监测缺失数据补全初步结果mm_sem;

(7)构造人工神经网络模型,将步骤(2)-(6)的缺失数据补全初步结果作为输入,利用深度神经网络进行训练,实现非线性融合,完成大坝变形监测连续性缺失数据补全。

所述步骤(1)大坝变形监测数据连续性缺失预处理中,针对连续性缺失带来稀疏性问题,进行对原始大坝变形监测连续性缺失数据预估计,具体主要分为三个流程,分别是idw插值补全连续性缺失数据、ses插值补全连续性缺失数据和线性融合产生补全初始化值。具体如下:

(1.1)全局空间视图插值补全连续性缺失数据:采用方法为反转距离加权插值。计算变形监测缺失数据所在测点与所有的大坝候选监测测点的距离,赋予各自相邻候选监测测点权值,利用公式补全连续性缺失数据。其中,mmi,t为测点i在时间戳t的监测数据,di是各候选测点距离目标测点的空间距离,α为衰减因子,di为赋予测点i的权值,mmgs作为全局空间补全初步结果,mmgs代表连续性缺失中每一个补全的变形监测数据。

(1.2)全局时间视图补全连续性缺失数据:采用方法为双向简单指数平滑插值。本发明中,不仅考虑目标时间戳的历史数据,同时考虑目标时间戳的未来数据,从双向进行指数平滑加权,完成目标时间戳缺失的数据补全。给定一个目标时间戳t,针对mmi,t该监测数据,对测点i的候选时间戳tx处的监测数据分配各自的权值为进行指数加权,利用公式得到补全结果,其中,在公式中|tx-t|是候选时间戳tx和目标时间戳t的时间间隔,β为平滑因子,tx,1≤x≤n代表所有时间戳,mmgt作为全局时间补全初步结果,代表连续性缺失中每一个补全的变形监测数据。

(1.3)线性融合全局时空视图补全结果:将全局空间视图补全结果和全局时间视图补全结果采用线性融合,取两者的均值作为变形监测每一个连续性缺失初始值。

所述步骤(2)利用全局空间相关性进行对大坝变形监测连续性缺失预处理后的数据全局空间视图补全,具体步骤如下:

(2.1)计算各候选变形监测测点i距离目标测点的空间距离di,利用距离赋予各自候选变形监测测点相应的权值di

(2.2)通过赋予的权值进行估计缺失值,得到的结果作为全局空间视图的补全初步结果,其计算方式为mmgs作为进行全局时空融合预处理后的大坝变形监测数据中每一个连续性缺失补全的全局空间估计结果。

所述步骤(3)利用全局时间相关性进行对大坝变形监测连续性缺失预处理后的数据在全局时间视图补全,具体步骤如下:

(3.1)依据双向简单指数平滑赋予大坝变形监测测点i各自候选时间戳相应的权值,候选时间戳的权值为其中|tx-t|为候选数据与目标数据mmi,t的时间间隔。

(3.2)通过赋予的权值进行估计缺失值,得到的结果作为全局时间视图的预估计值,计算方式为其中,mmgt作为进行全局时空融合预处理后的大坝变形监测数据中每一个连续性缺失补全的全局时间补全估计结果,β为平滑因子,tx,1≤x≤n代表所有时间戳。

所述步骤(4)利用局部空间相关性进行对大坝变形监测连续性缺失预处理后的数据在局部空间视图补全。通过推荐系统中的基于数据驱动的用户协同过滤进行建模。将每一个大坝变形监测测点作为一个用户,将时间戳作为项目。其具体实施步骤如下:

(4.1)通过测点在不同时间戳的数据,计算不同时间戳中相似性。考虑各个测点衡量尺度问题,采用滑动窗口ω,通过测点u的监测数据和测点v的监测数据计算两个测点数据修正的余弦相似性,其中表示时间戳,表示测点u在产生的数据。余弦相似性计算方式为其中,sim(su,sv)为测点u和测点v的相似性,表示两个测点数据的平均值,iu和iv分别表示测点u和测点v未缺失时间戳集合,iuv是测点u和测点v在同一个时间戳都有数据的时间戳集合。mmu,t,mmv,t为监测矩阵mm中的实体数据,代表u测点和v测点在t时间戳的监测数据。

(4.2)将用户相似性大小按照降序进行排序,选择前k个测点构成目标测点的最近邻集合v,其中v={v1,v2,…,vk},使得

(4.3)利用依据相似性进行权值分配,得到缺失数据补全初步结果mmls。mmls作为进行全局时空融合预处理后的大坝变形监测数据中每一个连续性缺失补全的局部空间补全估计结果。

所述步骤(5)利用局部时间相关性进行对大坝变形监测连续性缺失预处理后的数据在局部时间视图补全。本发明将物理学中的物质扩散方法应用于数据缺失补全,在基于图模型的物质扩散算法中,借助二部图用来表示用户和项目之间的关系。测点作为用户,每一个时间戳是一个项目。当某个测点在某时间没有发生缺失,则有一条边相连,同一类节点之间不相连。每次物质扩散的步骤可以用来寻找网络结构中两个节点之间的关联程度。

变形监测测点集合s={s1,…,si,…,sm},时间戳集合t={t1,…,ti,…,tn},若时间戳tj在测点si有数据,二者之间存在一条边aij=1,否则aij=0。通过测点-时间二部图可以得到不同时间戳是否被同一个测点产生数据,从而直接判断时间戳之间是否存在相似性。其具体计算步骤如下:

(5.1)设时间戳ti的初始能量为e0,其中e0的计算公式表示为:其中,表示测点u在ti的监测数据,表示测点u的平均监测数据,测点u在ti时刻存在数据,则在测点-时间二部图中边否则为0,m为测点的数量。

(5.2)能量首次从时间节点扩散到测点节点。测点u将自己的能量平均分配给在ti有数据的测点,在ti处有监测数据的测点u的能量记为计算公式表示为:其中k(ti)是测点-时间二部图中时间ti的度,即在ti处有监测数据的测点数量,测点u在时间ti未缺失数据,则在测点-时间二部图中边否则为0。

(5.3)能量按照与第一次相反的方向沿着二部图中的边由测点节点扩散到时间节点,即测点节点把当前拥有的能量再次按照测点自身的度数分配给ti处有监测数据的时间节点,时间tj节点的最终能量是与它相连的所有测点节点扩散过来的能量累加之和。经过两次扩散后,最终时间节点具有的能量代表时间tj从ti获得的能量比重,体现了两个时间节点之间的相似度大小,记为的计算公式为其中,k(u)是测点-时间二部图中测点u的度。测点u在时间tj未缺失数据,则否则为0。测点u在时间ti未缺失数据则否则为0。

(5.4)根据相似性计算公式,进行相似度大小排序得到目标时间戳ti的最近邻居集nt。

(5.5)利用传统的协同过滤算法,根据相似度进行权值分配,得到变形监测缺失数据补全初步结果mmlt,其计算公式表示为:其中表示测点u在ti时间戳的监测数据。mmlt作为进行全局时空融合预处理后的大坝变形监测数据中每一个连续性缺失补全的局部时间补全估计结果。

所述步骤(6)利用语义相似性进行对大坝变形监测连续性缺失预处理后的数据在语义视图补全。挖掘测点本身的文本特征,完成大坝变形监测缺失数据补全。其具体实施步骤如下:

(6.1)构造一个图,用来表示大坝变形监测区域测点之间功能相似性,其中图中每一个顶点代表一个测点,每一条边连接两个顶点代表两个测点为邻居。定义监测数据的语义图为g=(v,e,d),测点集合s,其中的每一个测点代表一个顶点,即v=s,e为边的集合,d作为各条边之间的相似性。

(6.2)利用动态时间归整(dynamictimewarping,dtw)进行衡量测点si和sj之间的相似性相似性计算公式为其中α控制着随距离的权值衰减程度,dtw(si,sj)是测点si和sj之间的动态时间归整距离。这个图中的任意两个顶点之间都可以到达,具有互通性。

(6.3)在图中利用图形嵌入方法,将每个测点编码到一个可计算的低维向量并且保持结构信息。对于每一个测点si,使用图形嵌入方法输出嵌入特征向量mmi。为了融合学习嵌入特征向量,将特征向量放入全连接层,得到大坝变形监测缺失数据补全初步结果mmi。其计算方法为:mmi=f(wfemmi+bfe)。其中wfe和bfe为学习参数,f为线性激活函数。本发明所采用的图形嵌入方法为线性嵌入。mmi作为进行全局时空融合预处理后的大坝变形监测数据中单个测点连续性缺失补全的语义估计结果。

所述步骤(7)通过基于神经网络的多视图深度融合学习框架得到最终补全结果,实现更好的准确性。其具体步骤如下:

(7.1)将步骤(2)-(6)的大坝变形监测缺失数据补全初步结果作为输入,进入有6层隐藏层的神经网络中训练。6层隐藏层的神经元分别为64、128、256、256、64、32。每一层的处理采用归一化操作后,使用修正线性函数(rectifiedlinearunit,relu)进行激活。

(7.2)采用五折交叉验证选取最优超参数,获得更加可靠和稳定的模型。在输出层采用一个线性激活函数得到最终缺失补全结果mmcomp,完成大坝变形监测连续性缺失数据补全。

有益效果:与现有技术水平相比,本发明提出的大坝变形监测连续性缺失数据补全方法,其特征主要在于解决连续性缺失带来的稀疏性问题,通过深度神经网络深度融合,减少信息冗余,完成大坝变形监测连续性缺失补全。

附图说明

图1为本发明实施例的多视图融合学习方法的总体框架图;

图2为本发明实施例变形监测连续性缺失预处理工作流程图;

图3为本发明实施例的idw补全连续性缺失流程工作图;

图4为本发明实施例的双向简单指数平滑补全连续性缺失流程工作图;

图5为本发明实施例的ucf补全连续性缺失流程工作图;

图6为本发明实施例的测点-时间二部图;

图7为本发明实施例的md-cf补全连续性缺失流程工作图;

图8为本发明实施例的深度融合图。

具体实施方式

下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

图1提供了大坝变形监测连续性缺失数据补全方法的总体框架图,该方法分为两大部分,分别是大坝变形监测连续性缺失数据预估计和大坝变形监测连续性缺失数据融合补全。分别通过idw、ses、ucf、md-cf和se得到各自对缺失数据的补全结果,通过神经网络非线性融合,完成大坝变形监测连续性缺失数据补全。

本发明实施过程具体如下描述:

(1)利用反转距离加权插值和双向简单指数平滑插值对大坝变形监测连续性缺失数据中两类连续性缺失进行预处理,完成大坝变形监测连续性缺失预估计;

(2)从全局空间角度,利用反转距离加权插值方法,计算变形监测测点间空间相似性,对缺失数据进行全局空间插值,得到大坝变形监测缺失数据补全初步结果1;

(3)从全局时间角度,利用双向简单指数平滑插值方法,计算变形监测测点间时间相似性,对缺失数据进行全局时间插值,得到大坝变形监测缺失数据补全初步结果2;

(4)从局部空间角度,利用用户协同过滤方法,计算变形监测测点间局部空间相似性,对缺失数据进行局部空间插值,得到大坝变形监测缺失数据补全初步结果3;

(5)从局部时间角度,利用基于测点-时间二部图的能量扩散协同过滤方法,对缺失数据进行局部时间插值,得到大坝变形监测缺失数据补全初步结果4;

(6)从语义角度,利用文本特征结构嵌套方法,计算测点间功能相似性,对缺失数据进行语义插值,得到大坝变形监测缺失数据补全初步结果5;

(7)构造人工神经网络模型,将步骤(2)-(6)的缺失数据补全初步结果作为输入,利用深度神经网络进行训练,实现非线性融合,完成大坝变形监测连续性缺失数据补全。

图2是连续性缺失预处理工作流程图,可以看出大坝变形监测连续性缺失预处理的具体步骤为:

(1.1)全局空间视图补全连续性缺失数据:采用反转距离加权插值。计算缺失数据所在测点与所有的大坝候选监测测点i的距离di,赋予各自大坝候选监测测点权值为di,利用公式计算全局空间补全结果。其中,mmi,t是测点i在时间戳t的监测数据,mmgs作为大坝变形监测连续性缺失数据全局空间补全初步结果。

(1.2)全局时间视图补全大坝变形监测连续性缺失数据:采用方法为双向简单指数平滑插值。本发明中,不仅考虑目标时间戳的历史数据,同时考虑目标时间戳的未来数据,从双向进行指数平滑加权,完成目标时间戳缺失的数据补全。给定一个目标时间戳t,针对mmi,t该监测数据,对测点i的候选时间戳tx处的监测数据分配各自候选时间戳tx的权值为进行指数加权,利用公式得到补全结果,其中,在公式中|tx-t|是候选时间戳tx和目标时间戳t的时间间隔,β为平滑因子,tx,1≤x≤n代表所有时间戳,mmgt作为大坝变形监测连续性缺失数据全局时间补全初步结果。

(1.3)线性融合全局时空视图补全结果:将全局空间视图补全结果和全局时间视图补全结果采用线性融合,取两者的均值作为大坝变形监测每一个连续性缺失初始值。

其中所述内容(2)和所述内容(3)处理操作同所述步骤(1.1)和所述步骤(1.2),具体如图3,图4所示。

所述内容(4)利用用户协同过滤挖掘局部测点空间相似性,进行连续性缺失数据补全。将测点作为用户,时间戳作为项目,挖掘局部测点的空间相似性作为补全连续性缺失的依据。图5展示了ucf进行连续性缺失补全的流程图,从中可以看出其具体步骤如下:

(4.1)通过测点在不同时间戳的数据,计算不同时间戳中相似性。考虑各个测点衡量尺度问题,采用滑动窗口ω,通过测点u的监测数据和测点v的监测数据计算两个测点数据修正的余弦相似性,其中表示时间戳,表示测点u在产生的数据。余弦相似性计算方式为其中,sim(su,sv)为测点u和测点v的相似性,表示两个测点数据的平均值,iu和iv分别表示测点u和测点v未缺失时间戳集合,iuv是测点u和测点v在同一个时间戳都有数据的时间戳集合。mmu,t,mmv,t为监测矩阵mm中的实体数据,代表u测点和v测点在t时间戳的监测数据。

(4.2)将用户相似性大小按照降序进行排序,选择前k个测点构成目标测点的最近邻集合v,其中v={v1,v2,…,vk},使得

(4.3)利用依据相似性进行权值分配,得到大坝变形监测缺失数据补全初步结果mmls,mmls代表进行全局时空融合预处理后的大坝变形监测数据中每一个连续性缺失数据补全的局部空间估计结果。

所述内容(5)利用局部时间相关性进行对大坝变形监测连续性缺失数据从局部时间视图上补全。针对连续性缺失带来稀疏性,本发明将物理学中的物质扩散方法结合二部图应用于数据缺失补全。测点-时间二部图如图6所示,图7为md-cf补全大坝变形监测连续性缺失的流程图,可以看出其具体计算步骤如下:

(5.1)设时间戳ti的初始能量为e0,其中e0的计算公式表示为:其中,表示测点u在ti的监测数据,表示测点u的平均监测数据,测点u在ti时刻存在数据,则在测点-时间二部图中边否则为0,m为测点的数量。

(5.2)能量首次从时间节点扩散到测点节点。测点u将自己的能量平均分配给在ti有数据的测点,在ti处有监测数据的测点u的能量记为计算公式表示为:其中k(ti)是测点-时间二部图中时间ti的度,即在ti处有监测数据的测点数量,测点u在时间ti未缺失数据,则在测点-时间二部图中边否则为0。

(5.3)能量按照与第一次相反的方向沿着二部图中的边由测点节点扩散到时间节点,即测点节点把当前拥有的能量再次按照测点自身的度数分配给ti处有监测数据的时间节点,时间tj节点的最终能量是与它相连的所有测点节点扩散过来的能量累加之和。经过两次扩散后,最终时间节点具有的能量代表时间tj从ti获得的能量比重,体现了两个时间节点之间的相似度大小,记为的计算公式为其中,k(u)是测点-时间二部图中测点u的度。测点u在时间tj未缺失数据,则否则为0。测点u在时间ti未缺失数据则否则为0。

(5.4)根据相似性计算公式,进行相似度大小排序得到目标时间戳ti的最近邻居集nt。

(5.5)利用传统的协同过滤算法,根据相似度进行权值分配,得到缺失数据补全初步结果mmlt,其计算公式表示为:其中表示测点u在ti时间戳的监测数据,mmlt代表进行全局时空融合预处理后的大坝变形监测数据中每一个连续性缺失数据补全的局部时间估计结果。

所述内容(6)利用语义相似性进行对大坝变形监测连续性缺失数据补全。挖掘测点本身的文本特征,完成大坝变形监测连续性缺失的数据补全。其具体实施步骤如下:

(6.1)构造一个图,用来表示大坝变形监测区域测点之间功能相似性,其中图中每一个顶点代表一个测点,每一条边连接两个顶点代表两个测点为邻居。定义监测数据的语义图为g=(v,e,d),测点集合s,其中的每一个测点代表一个顶点,即v=s,e为边的集合,d作为各条边之间的相似性。

(6.2)利用动态时间归整(dynamictimewarping,dtw)进行衡量测点si和sj之间的相似性相似性计算公式为其中α控制着随距离的权值衰减程度,dtw(si,sj)是测点si和sj之间的动态时间归整距离。这个图中的任意两个顶点之间都可以到达,具有互通性。

(6.3)在图中利用图形嵌入方法,将每个测点编码到一个可计算的低维向量并且保持结构信息。对于每一个测点si,使用图形嵌入方法输出嵌入特征向量mmi。为了融合学习嵌入特征向量,将特征向量放入全连接层,得到缺失数据补全初步结果mmi。其计算方法为:mmi=f(wfemmi+bfe)。其中wfe和bfe为学习参数,f为线性激活函数。本发明所采用的图形嵌入方法为线性嵌入。mmi代表进行全局时空融合预处理后的大坝变形监测数据单个测点连续性缺失数据补全的语义估计结果。

所述内容(7)通过基于神经网络的多视图深度融合学习框架得到大坝变形监测连续性缺失最终补全结果。从图8是深度融合图,可以看出该方法其具体步骤如下:

(7.1)将步骤(2)-(6)的大坝变形监测缺失数据补全初步结果作为输入,进入有6层隐藏层的神经网络中训练。6层隐藏层的神经元分别为64、128、256、256、64、32。每一层的处理采用归一化操作后,使用修正线性函数(rectifiedlinearunit,relu)进行激活。

(7.2)采用五折交叉验证选取最优超参数,获得更加可靠和稳定的模型。在输出层采用一个线性激活函数得到最终缺失补全结果mmcomp,完成大坝变形监测连续性缺失数据补全。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1