面向时空解析模型的传感器信息异常检测方法与流程

文档序号:26264323发布日期:2021-08-13 19:16阅读:143来源:国知局
面向时空解析模型的传感器信息异常检测方法与流程

本发明涉及数据检测领域,尤其涉及一种面向时空解析模型的传感器信息异常检测方法。



背景技术:

随着我国经济高速发展、工业化进程加快,城市规模不断扩大,水污染已经成为阻碍我国可持续发展战略实施的主要原因之一,因此,对水污染的污染范围、深度及扩散情况进行检测,成为城市发展的必经之路。

由于我国地域辽阔,需要对广阔地域范围的水污染情况进行检测分析是一个费时费力的工作,通常需要人们进行实地取样检测,人力成本增加。

水污染如果不能得到及时治理,将会对人类社会造成难以逆转的巨大损失,但是由于每个地方的水污染程度不一,污染情况不同,无法随时监测管理,致使水污染越来越严重。



技术实现要素:

为此,本发明提供一种面向时空解析模型的传感器信息异常检测方法,可以解决检测到用以检测水污染程度的传感器异常数据是否进行保留的问题。

为实现上述目的,本发明提供一种面向时空解析模型的传感器信息异常检测方法,包括:

获取传感器数据集,所述传感器数据集包括传感器所在站点信息、传感器所在的经纬度信息、产生传感器数据值的时间信息和传感器数据值;

根据传感器数据集中的时间信息和传感器数据值构建传感器数据的时间分布特性,确定时间分布特征中的第一异常信息;

根据传感器数据集中的经纬度信息和传感器数据值构建传感器数据的空间分布特征,确定空间分布特征中的第二异常信息;

对所述第一异常信息对应的站点信息和第二异常信息对应的站点信息进行筛选,确定异常站点;

所述确定时间分布特征中的第一异常信息包括:

根据传感器数据集构建时空立方体,所述时空立方体包括多个站点的时间、空间的传感器数据值;

将时间信息进行划分为第一时间、第二时间、第三时间和第四时间;

中控单元内设置有第一标准数据值、第二标准数据值、第三标准数据值和第四标准数据值;

若第一时间内的平均数据值>第一标准数据值,则第一异常信息位于第一时间内进行工作的传感器中;

若第二时间内的平均数据值>第二标准数据值,则第一异常信息位于第二时间内进行工作的传感器中;

若第三时间内的平均数据值>第三标准数据值,则第一异常信息位于第三时间内进行工作的传感器中;

若第四时间内的平均数据值>第四标准数据值,则第一异常信息位于第四时间内进行工作的传感器中;

对所述第一异常信息对应的站点信息和第二异常信息对应的站点信息进行筛选,确定异常站点包括:

对于每个站点均设置有异常值a,异常值a=k1×a1+k2×a2,其中a1为第一异常值,a2为第二异常值,k1为第一系数,k2为第二系数,中控单元内设置有预警值a0;若站点数据值的异常值a≥预警值a0,则表示该站点的传感器采集的数据值为异常值,进行预警,需要对该站点的传感器数据进行修正;

若站点数据值的异常值a<预警值a0,则表示该站点的传感器采集的数据值为正常的,符合当前经纬度,当前时间的正常传感器数据值。

进一步地,当确定第一异常信息位于第一时间内时,则对第一时间进行切割,分为n1个时间段,n1为偶数,然后从n1个时间段内任意选择一个时间节点,比较n1个时间节点的数据值与第一标准数据值的差值,若在n1个时间节点中,有至少有n1/2个时间节点的数据值与第一标准数据值的差值高于预设的标准差值,则将n1个节点对应的传感器数据值确定为第一异常信息。

进一步地,当确定第一异常信息位于第二时间内时,则对第二时间进行切割,分为n2个时间段,n2为偶数,然后从n2个时间段内任意选择一个时间节点,比较n2个时间节点的数据值与第二标准数据值的差值,若在n2个时间节点中,有至少有n2/2个时间节点的数据值与第二标准数据值的差值高于预设的标准差值,则将n2个节点对应的传感器数据值确定为第一异常信息。

进一步地,当确定第一异常信息位于第三时间内时,则对第三时间进行切割,分为n3个时间段,n3为偶数,然后从n3个时间段内任意选择一个时间节点,比较n3个时间节点的数据值与第三标准数据值的差值,若在n3个时间节点中,有至少有n3/2个时间节点的数据值与第三标准数据值的差值高于预设的标准差值,则将n3个节点对应的传感器数据值确定为第一异常信息。

进一步地,当确定第一异常信息位于第四时间内时,则对第四时间进行切割,分为n4个时间段,n4为偶数,然后从n4个时间段内任意选择一个时间节点,比较n4个时间节点的数据值与第四标准数据值的差值,若在n4个时间节点中,有至少有n4/2个时间节点的数据值与第四标准数据值的差值高于预设的标准差值,则将n4个节点对应的传感器数据值确定为第一异常信息。

进一步地,所述确定空间分布特征中的第二异常信息包括:

根据传感器数据集构建时空立方体,所述时空立方体包括多个站点的时间、空间的传感器数据值;

根据地域信息对空间信息进行划分,划分后的空间内包括至少一个站点信息;

选择任意空间内的任意站点,构建该站点的泰森多边形,在构建泰森多边形时,构建至少三个泰森多边形,分别为第一泰森多边形、第二泰森多边形和第三泰森多边形;

确定泰森多边形中的所有站点的传感器数据值,利用格拉布斯计算该站点的g值,并与格拉布斯表中给出的临界值比较,若第一泰森多边形、第二泰森多边形和第三泰森多边形中的g值均大于临界值,则表示该站点的传感器数据值为第二异常信息。

进一步地,还可以包括确定该站点的传感器的异常数据是否需要进行修正;

若该异常数据是由于传感器信息的使用时间引起的异常则对其进行修正,当对其进行修正时,根据时间、海拔、地势、地形和季风对传感器数据值进行修正;

若该异常数据不属于传感器信息的异常引起的,则无需对该异常数据进行修正。

进一步地,根据时间、海拔、地势、地形和季风对传感器数据值进行修正包括:

中控单元内设置有修正值矩阵c(t,h,f,g,s),其中t表示时间因子,h表示海拔因子,f表示地势因子,g表示地形因子,s表示季风因子,若传感器数据值确定为传感器信息的异常引起的,则确定该站点的传感器数据产生的时间、站点的海拔、站点的地势、站点的地形以及站点的季风,选择修正矩阵中的对应的参数对传感器数据值进行修正。

进一步地,若传感器数据值与该站点的传感器数据值产生的时间不符,则使用修正值矩阵c(t,h,f,g,s)中的时间因子t对传感器数据进行修正;

若传感器数据值与该站点海拔不符,则使用修正值矩阵c(t,h,f,g,s)中的海拔因子h对传感器数据进行修正;

若传感器数据值与该站点的地势不符,则使用修正值矩阵c(t,h,f,g,s)中的地势因子f对传感器数据进行修正;

若传感器数据值与该站点的地形不符,则使用修正值矩阵c(t,h,f,g,s)中的地形因子g对传感器数据进行修正;

若传感器数据值与该站点的季风不符,则使用修正值矩阵c(t,h,f,g,s)中的季风因子s对传感器数据进行修正。

进一步地,在对传感器数据进行修正时,修正值矩阵c(t,h,f,g,s)中的时间因子、海拔因子、地势因子、地形因子以及季风因子对传感器数据值进行叠加。

与现有技术相比,本发明的有益效果在于,通过传感器数据传感器数据集中的时间分布特征中的第一异常信息和空间分布中的第二异常信息,并且对第一异常信息对应的站点和第二异常信息对应的站点进行筛选,进而确定传感器数据信息异常的站点,本发明实施例通过对传感器数据值进行时间和空间的划分,使得对于传感器数据值异常的站点的确定更为精准,提高传感器数据值异常判断的准确度,提高对异常数据的检出效率。

尤其,通过对时间进行划分,可以进一步降低传感器异常数据的检出范围,提高传感器异常数据的检出速度,以快速定位对应的传感器站点,提高对异常数据检测的检测效率。

尤其,通过对各时间进行切割,将传感器异常数据进行更为精细的划分,使得对于异常数据的确定更为精准,以对异常数据进行传感器异常数据对应的站点定位,进一步提高对异常传感器数据对应的站点的检出效率,提高检出速度。

尤其,通过构建站点信息的泰森多边形,并根据泰森多边形内的该站点的g值,g值为格拉布斯值,利用格拉布斯计算该站点的g值,并与格拉布斯表中给出的临界值比较,快速确定该站点的传感器数据值是否为第二异常信息,进一步提高异常信息的检出效率,提高异常数据的检出速度。

尤其,通过对站点传感器的异常度进行评估,若高于预警值则进行预警,使得在对站点数据进行检测时,更为直观确定站点的传感器数据值,提高对传感器异常信息站点的确认效率,提高检出速度。

附图说明

图1为本发明实施例提供的面向时空解析模型的传感器信息异常检测方法的流程图图。

具体实施方式

为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。

请参阅图1所示,本发明实施例提供的面向时空解析模型的传感器信息异常检测方法包括:

步骤s100:获取传感器数据集,所述传感器数据集包括传感器所在站点信息、传感器所在的经纬度信息、产生传感器数据值的时间信息和传感器数据值;

步骤s200:根据传感器数据集中的时间信息和传感器数据值构建传感器数据的时间分布特性,确定时间分布特征中的第一异常信息;

步骤s300:根据传感器数据集中的经纬度信息和传感器数据值构建传感器数据的空间分布特征,确定空间分布特征中的第二异常信息;

步骤s400:对所述第一异常信息对应的站点信息和第二异常信息对应的站点信息进行筛选,确定异常站点。

具体而言,本发明实施例中的执行主体是中控单元,本发明实施例中的面向时空解析模型的传感器信息异常检测方法的应用场景为某个国家的水污染的检测,该国家地域范围内设置多个传感器,用以检测水污染的程度,不同的传感器组成了传感器信息网络,用以对各个地区的水污染程度进行实时监测,而在检测过程中,传感器信息获取到的水污染信息均可以传输至中控单元,然后中控单元对获取到的数据进行模拟处理,进而获取到数据信息中的异常信息,该异常信息可以推测突发事件发生的时间或预测突发事件,以使人们根据预测的信息进行提前的防护,以减少突发事件给社会带来的人身和财产的损失。

具体而言,本发明实施例提供的面向时空解析模型的传感器信息异常检测方法,通过传感器数据集中的时间分布特征中的第一异常信息和空间分布中的第二异常信息,并且对第一异常信息对应的站点和第二异常信息对应的站点进行筛选,进而确定传感器数据信息异常的站点,本发明实施例通过对传感器数据值进行时间和空间的划分,使得对于传感器数据值异常的站点的确定更为精准,提高传感器数据值异常判断的准确度,提高对异常数据的检出效率。

具体而言,所述确定时间分布特征中的第一异常信息包括:

根据传感器数据集构建时空立方体,所述时空立方体包括多个站点的时间、空间的传感器数据值;

将时间信息进行划分为第一时间、第二时间、第三时间和第四时间;

中控单元内设置有第一标准数据值、第二标准数据值、第三标准数据值和第四标准数据值;

若第一时间内的平均数据值>第一标准数据值,则第一异常信息位于第一时间内进行工作的传感器中;

若第二时间内的平均数据值>第二标准数据值,则第一异常信息位于第二时间内进行工作的传感器中;

若第三时间内的平均数据值>第三标准数据值,则第一异常信息位于第三时间内进行工作的传感器中;

若第四时间内的平均数据值>第四标准数据值,则第一异常信息位于第四时间内进行工作的传感器中。

具体而言,本发明实施例通过对时间进行切割,具体可以是一年中的春夏秋冬,还可以是其他划分方法,在此不一一列举。本发明实施例通过对时间信息进行划分,且划分后的各个时间均具有一致性,在第一时间、第二时间、第三时间和第四时间均设置有不同的标准污染程度,若在任意时间内的污染量高于其对应的时间内的标准污染量,则在该时间内存在第一异常信息,本发明实施例通过对时间进行划分,可以进一步水污染异常数据的检出范围,提高传感器数据值异常数据的检出速度,以快速定位对应的传感器站点,提高对异常检测的检测效率。

具体而言,当确定第一异常信息位于第一时间内时,则对第一时间进行切割,分为n1个时间段,n1为偶数,然后从n1个时间段内任意选择一个时间节点,比较n1个时间节点的数据值与第一标准数据值的差值,若在n1个时间节点中,有至少有n1/2个时间节点的数据值与第一标准数据值的差值高于预设的标准差值,则将n1个节点对应的传感器数据值确定为第一异常信息。

当确定第一异常信息位于第二时间内时,则对第二时间进行切割,分为n2个时间段,n2为偶数,然后从n2个时间段内任意选择一个时间节点,比较n2个时间节点的数据值与第二标准数据值的差值,若在n2个时间节点中,有至少有n2/2个时间节点的数据值与第二标准数据值的差值高于预设的标准差值,则将n2个节点对应的传感器数据值确定为第一异常信息。

当确定第一异常信息位于第三时间内时,则对第三时间进行切割,分为n3个时间段,n3为偶数,然后从n3个时间段内任意选择一个时间节点,比较n3个时间节点的数据值与第三标准数据值的差值,若在n3个时间节点中,有至少有n3/2个时间节点的数据值与第三标准数据值的差值高于预设的标准差值,则将n3个节点对应的传感器数据值确定为第一异常信息。

当确定第一异常信息位于第四时间内时,则对第四时间进行切割,分为n4个时间段,n4为偶数,然后从n4个时间段内任意选择一个时间节点,比较n4个时间节点的数据值与第四标准数据值的差值,若在n4个时间节点中,有至少有n4/2个时间节点的数据值与第四标准数据值的差值高于预设的标准差值,则将n4个节点对应的传感器数据值确定为第一异常信息。

具体而言,本发明实施例中通过对各时间进行切割,将数据值异常的数据进行更为精细的划分,使得对于异常数据的确定更为精准,以对异常数据进行数据值异常数据对应的站点定位,进一步提高对异常数据对应的站点的检出效率,提高检出速度。

具体而言,所述确定空间分布特征中的第二异常信息包括:

根据传感器数据集构建时空立方体,所述时空立方体包括多个站点的时间、空间的传感器数据值;

根据地域信息对空间信息进行划分,划分后的空间内包括至少一个站点信息;

选择任意空间内的任意站点,构建该站点的泰森多边形,在构建泰森多边形时,构建至少三个泰森多边形,分别为第一泰森多边形、第二泰森多边形和第三泰森多边形;

确定泰森多边形中的所有站点的数据值,利用格拉布斯计算该站点的g值,并与格拉布斯表中给出的临界值比较,若第一泰森多边形、第二泰森多边形和第三泰森多边形中的g值均大于临界值,则表示该站点的传感器数据值为第二异常信息。

具体而言,本发明实施例提供的第二异常信息通过构建站点信息的泰森多边形,并根据泰森多边形内的该站点的g值,g值为格拉布斯值,利用格拉布斯计算该站点的g值,并与格拉布斯表中给出的临界值比较,快速确定该站点的传感器数据值是否为第二异常信息,进一步提高异常信息的检出效率,提高异常数据的检出速度。

具体而言,对所述第一异常信息对应的站点信息和第二异常信息对应的站点信息进行筛选,确定异常站点包括:

对于每个站点均设置有异常值a,异常值a=k1×a1+k2×a2,其中a1为第一异常值,a2为第二异常值,k1为第一系数,k2为第二系数。中控单元内设置有预警值a0;若站点数据的异常值a≥预警值a0,则表示该站点的传感器数据为异常值,进行预警,需要对该站点的传感器数据进行修正;

若站点传感器的异常值a<预警值a0,则表示该站点的传感器数据为正常的,符合当前经纬度,无需修正。

具体而言,本发明实施例中通过对站点内的传感器数据的异常度进行评估,若高于预警值则进行预警,使得在对站点数据进行检测时,更为直观确定站点的传感器数据值,提高对传感器的异常信息站点的确认效率,提高检出速度。

本发明实施例利用小波分析理论,检测时间维度上的异常样点,通过先验知识,确定样点的分区图谱;采用voronoi确定研究对象的空间领域,并用grubbs统计检验法判断异常值,实现对研究区域内的水污染程度监测站网中的异常站点进行定位。本发明实施例避免时空数据异常检测中的人为参数输入,降低用户经验对检测结果的影响,保证了局部和全局异常数据的正确无误检测,提高了对不同类型异常数据检测水平。

具体而言,在步骤s400之后,还可以包括确定该站点的传感器数据的异常数据是否需要进行修正;

若该异常数据是由于传感器信息的使用时间引起的异常则对其进行修正,当对其进行修正时,根据时间、海拔、地势、地形和季风对水污染程度数据进行修正;

若该异常数据不属于传感器信息的异常引起的,则无需对该异常数据进行修正,该异常数据用以对未来可能产生的极端污染进行预测,便于人们根据预测结果提前进行防护,减少人身或财产的损失。

具体而言,本发明实施例通过对传感器数据异常的因素进行确定,若该数据异常是由于传感器信息所引起的,则需要对其进行修正,以将获取的传感器数据进行修正,提高传感器数据的准确性。

具体而言,根据时间、海拔、地势、地形和季风对传感器数据进行修正包括:

中控单元内设置有修正值矩阵c(t,h,f,g,s),其中t表示时间因子,h表示海拔因子,f表示地势因子,g表示地形因子,s表示季风因子,若传感器数据确定为传感器自身的异常引起的,则确定该站点的传感器数据产生的时间、站点的海拔、站点的地势、站点的地形以及站点的季风也正选择修正矩阵中的对应的参数对传感器数据进行修正;

若传感器数据与该站点的传感器数据产生的时间不符,则使用修正值矩阵c(t,h,f,g,s)中的时间因子t对传感器数据进行修正;

若传感器数据与该站点海拔不符,则使用修正值矩阵c(t,h,f,g,s)中的海拔因子h对传感器数据进行修正;

若传感器数据与该站点的地势不符,则使用修正值矩阵c(t,h,f,g,s)中的地势因子f对传感器数据进行修正;

若传感器数据与该站点的地形不符,则使用修正值矩阵c(t,h,f,g,s)中的地形因子g对传感器数据进行修正;

若传感器数据与该站点的季风不符,则使用修正值矩阵c(t,h,f,g,s)中的季风因子s对传感器数据进行修正。

具体而言,传感器信息进行检测得到的水污染程度值时,该传感器数据值是会受时间、海拔、地势、地形和季风所影响,该影响可以是同时发生,还可以是不同时发生,通过设置修正值矩阵c(t,h,f,g,s),对传感器数据值的修正更为精准,提高传感器数据的准确性。

具体而言,在对传感器数据进行修正时,修正值矩阵c(t,h,f,g,s)中的时间因子、海拔因子、地势因子、地形因子以及季风因子对传感器数据值进行叠加,以确定修正后的传感器数据的准确性更高,更贴近真实的传感器数据值。

本发明实施例中的传感器信息就是通过传感器采集到的水污染情况的信息,可以是污染程度、可以是某个代表水污染环境内的金属含量值或是水污染信息的表征量,在此不做赘述。

具体而言,本发明提出的面向时空解析模型的传感器信息异常检测方法包括下列步骤:

获取研究区域长时间序列(近十年的水污染程度日数据)的全站网(北京市水污染监测站网,市级、区级,共计233个站点)传感器信息数据集,存储为hadoop的mapfile分布式格式(共85万余条数据,为便于后期存取计算,将其存储在hadoop中。传统的txt、excel、mysql等形式,与hadoop相比,效率和运算成本较高);

所述文件包含传感器的编码id(用于区分不同站点)、空间变量(包括经度坐标x、纬度坐标y)、时间变量值d(包括年、月、日,如2000-01-01)和属性变量值z(水污染程度,如a河流2019-09-13水污染程度为中级,赋值为3),所述文件为hadoop的mapfile分布式格式。

构建水污染程度数据的时空立方体,提取其时空特征(将研究区十年污染程度的时空分布规律,一次性、直观呈现,进而通过对污染程度时空数据的聚合处理,压缩污染程度时空数据集的存储空间,为其时空分布的可视化表达提供数据支撑);

根据水文分区特征,选取污染的影响因素,并对研究区域进行分区(分区的目的在于,层内样点差异最小,层间差异最大。考虑到污染分布特征,选取跟影响污染分布的主要变量分区情况作为依据,同一区的样点污染规律相似,具有可比性。举例说明:通过时空立方体,找出研究区污染分布特征,如跟地形分布相似,则选取地形分布图作为分区依据,将同一区的样点进行比较,不同区的不做比较运算);

构建水污染数据的时空立方体,挖掘研究区水污染的时空分布规律;

选取特定时间点或者重点关注的样点信息,绘制切片。

时间异常检测。采用小波分析理论对研究区内的站点长时间序列的水污染数据进行分析,可以根据需要,设定待检测站点或者区域。

针对水污染周期性和非平稳性等复杂的水文特征,利用小波分析理论,检测时间维度上的异常样点;建立一个横轴为时间,竖轴为水污染量的原始时间序列信号,并将它交由matlab的wavelet工具,采用db4小波对日水污染量进行分析,通过低频信息获取水污染的周期性规律,并通过高频信息获得水污染的异常信号。

空间异常检测。采用voronoi确定研究对象(某个样点)的空间领域,并根据关注传感器日、月及年的异常数据,不同时间维度的水污染量分别进行计算。

选择各区数据集中的任意一个样点为实验样点,绘制其voronoi,并形成对应关系表(依据样点数据集经纬度坐标,将采样点数据集文件转换为具有工业标准的shape文件格式的采样点空间数据集,并将经纬度坐标的数据集投影转换为高斯克吕格投影坐标数据集;依据shape文件空间数据集中的高斯克吕格投影坐标,建立采样点数据集相对应的thiessen多边形数据集,并建立采样点与其相应的thiessen的对应关系表;输入第一采样点(i=1),查找其thiessen多边形共边的m多边形,反向查找相应的采样点作为m个邻域样点);

用grubbs统计检验法判断异常值,实现对研究区域内的水污染监测站网中的离群站点进行定位.

选取任意一个样点为待测样点,将采样点数据集中除所述待测采样点之外的所有邻域采样点在对应时间维度上的水污染数据,利用grubbs计算所述待测样点的g值,并与格拉布斯表中给出的临界值比较,选取出现三次及以上(即在三个及以上的邻域内均被认定为异常)的样本点,进而判定其异常情况。

综合考量时间和空间两个维度,对研究区内任一时间段的异常进行检测。

选取任意一个样点为待测样点,将采样点数据集中除所述待测采样点之外的所有邻域采样点在对应时间维度上的水污染数据,利用grubbs计算所述待测样点的g值,并与格拉布斯表中给出的临界值比较,选取的样本点,进而判定其异常情况。

至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1