一种物联网监测点相邻关系的判定方法与流程

文档序号:17429039发布日期:2019-04-17 03:14阅读:420来源:国知局
一种物联网监测点相邻关系的判定方法与流程

本发明涉及一种基于聚类的物联网监测点相邻关系的分析与判定方法,属于数据挖掘和物联网监测技术领域。



背景技术:

在目前的各类物联网监测系统中,由于受到感知设备和传输网络故障、甚至人为故意等因素的影响,普遍存在着大量的无效或异常数据。比如在大气质量实时监测系统中,大约存在0.95%~3.18%的各类异常数据。这些异常数据影响整体数据的可用性,需要进行数据有效性审核。在判定数据异常以及对异常数据进行修正时,通常需要参照邻居监测点的同类监测值。例如,在发现异常数据时,使用邻居监测点的监测数据平均值(一般性处理)或最大值(惩罚性处理)对异常值进行修正。因此,判定物联网监测点的相邻关系,是物联网监测异常数据处理中一个必须解决的基本问题。

现有的物联网监测数据处理系统一般是根据监测点所属的行政区域或所在地理位置作为相邻关系的判定依据。这种判定方法含义直观且实现简单,但由于很多行政区域的形状很不规则,部分监测点与同一相邻区域内的其它节点地理距离过远,其监测值在异常数据判定和异常值修正时的参照价值不大,加之监测对象复杂多变,致使现有的方法并不能很好地满足实际需要,因此有必要探索更加科学合理的判定方法。



技术实现要素:

本发明的目的在于针对现有技术之弊端,提供一种物联网监测点相邻关系的判定方法,为物联网监测数据的有效性审核提供更加科学合理的依据。

本发明所述问题是以下述技术方案实现的:

一种物联网监测点相邻关系的判定方法,所述方法首先读取设定时间窗口内各个监测点的历史监测数据,得到监测数据序列集,然后采用多种聚类算法对监测数据序列集中的监测数据序列进行聚类,且每种聚类算法均通过改变簇数量得到多个聚类结果,之后计算每种聚类结果的轮廓系数,并将轮廓系数最大的聚类结果作为最优结果,最后根据最优结果来判断物联网监测点的相邻关系。

上述物联网监测点相邻关系的判定方法,所述方法包括以下步骤:

a.提取监测数据

首先设定时间窗口,然后读取设定时间窗口内各个监测点的历史监测数据,假设有k个监测点,用di表示从第i个监测点读取的监测数据序列,得到监测数据序列集d={d1,d2,……dk};

b.确定簇数量

设定聚类结果簇数范围为n1~n2,n1和n2均为自然数,且n1<n2;

c.进行聚类分析

①指定聚类算法集合;

②将簇数量设为n1

③对监测数据序列集中的监测数据序列依次采用指定聚类算法集合中的各种聚类算法进行聚类;

④将簇数量的数值加1,重复步骤③的操作,直至簇数量为n2;

⑤计算各个聚类结果的轮廓系数;

d.判定相邻关系

选取轮廓系数最大的聚类结果作为最优结果,则最优结果中归入同一簇的监测点互为相邻监测点。

上述物联网监测点相邻关系的判定方法,对监测数据序列集中的监测数据序列进行聚类时,各监测数据序列之间的距离的计算方法如下:

对于监测数据序列集d={d1,d2,……dk}中的监测数据序列di和dj,定义两者之间的距离为:

其中n为监测数据序列长度,dim为监测数据序列di中的第m维数据,djm为监测数据序列dj中的第m维数据。

上述物联网监测点相邻关系的判定方法,聚类结果的轮廓系数的计算方法如下:

数据集中第i个对象的轮廓系数为:

其中,ai是第i个对象到它所在的簇中其它对象的平均距离,bi是第i个对象到其它簇的平均距离中的最小值;

计算数据集中所有对象的轮廓系数的平均值,得到聚类结果的轮廓系数。

上述物联网监测点相邻关系的判定方法,设定聚类结果的簇数范围时,n1和n2的平均值为最接近的数,其中k是监测点的个数。

本发明基于历史监测数据,使用聚类算法,根据各监测点数据之间的内在相似性来确定其逻辑相邻关系,实验结果显示,该方法所判定的监测点相邻关系稳定并且具有良好的可解释性,相比传统方法更加符合客观实际,能够为物联网监测数据有效性审核及其它数据处理提供更加科学合理的依据。

附图说明

下面结合附图对本发明作进一步详述。

图1是本发明的流程图;

图2是监测点分布图。

具体实施方式

物联网监测点的相邻关系的有关知识

定义1.监测点的相邻关系:在物联网监测点集合a上定义的等价关系r,满足自反性、对称性和传递性,称作监测点的一个相邻关系。

定义2.监测点的相邻区域:物联网监测点a在监测点集合a上形成的r等价类[a]r,称作监测点a的相邻区域。

定义3.监测点的邻居节点:物联网监测点集合a中,与监测点a同属一个相邻区域的其它监测点,称作监测点a的邻居节点。

定义4.监测点的相邻分区:物联网监测点集合a的一个划分,称作监测点的一种相邻分区。

关于物联网监测点的相邻关系,有以下定理。

定理1:物联网监测点集合a关于相邻关系r的商集a/r,是监测点集合a的一种相邻分区。

证明:商集a/r是相邻关系r的等价类集合,即,a/r={[x]r|x∈a}其中等价类[x]r={y∈a|(x,y)∈r}。

而a的划分是其非空子集的集合{ai},且满足以下条件:aiiaj=φ,i≠j;yai=a。

下面证明商集a/r是监测点集合a的一个划分。

首先,有[x]r非空;

其次,若[x]r≠[y]r,则有[x]ri[y]r=φ;

最后,又有所以

由上可知,商集a/r是监测点集合a的一个划分.

根据定义4,物联网监测点集合a关于相邻关系r的商集a/r,是监测点集合a的一种相邻分区。

性质1:监测点的相邻分区是一个相邻区域集合。

根据定理1,商集a/r是监测点集合a的一个相邻分区。因为商集a/r是相邻关系r的等价类集合,所以相邻分区是一个r等价类集合。

又根据定义2,相邻区域是r等价类。所以监测点的相邻分区是一个相邻区域集合。

性质2:一个相邻关系对应一种相邻分区;一种相邻分区对应一个相邻关系。

根据定义1,相邻关系是监测点集合a上的一个等价关系。

根据定义4,相邻分区是监测点集合a的一个划分。

由等价关系和划分之间的一一对应关系,可知一个相邻关系对应一种相邻分区;一种相邻分区对应一个相邻关系。

由前述定理和性质可知,对于物联网监测点集合,只要给定一个相邻关系,就可以确定一种相邻分区,进而确定各个监测点所在的相邻区域及其邻居节点。

定义5.监测点的行政邻居节点:把监测点相邻关系定义为属于同一行政区域,与监测点a具有该相邻关系的监测点称作监测点a的行政邻居节点。

例如,将同一市级行政区域内的监测点划分为一个相邻区域。这种相邻关系判定方法的好处是与各监测点行政管辖体制保持一致,便于管理。但是很多行政区域的形状很不规则,这会导致部分监测点与同一相邻区域内的其它节点地理距离过远,其监测值在异常数据判定和异常值修正时的参照价值不大。

定义6.监测点的地理邻居节点:在监测范围内选定若干地理中心点,把监测点相邻关系定义为与地理中心点距离小于指定值。与监测点a具有该相邻关系的监测点称作监测点a的地理邻居节点。

这种相邻关系判定方法能够避免行政区域形状不规则所导致的问题。但是通过分析实际监测数据可以发现,地理距离相近的监测点,其监测数据的差别也可能很大;地理距离较远的监测点,也存在数据相近的现象。例如在大气质量监测中,由于其影响因素众多,且影响机制复杂。部分地理位置距离很近的监测点,其周边的大气质量却相差很大,也不适合相互参照。

定义7.监测点的物理邻居节点:使用物联网监测点在现实世界中已经存在的某种关系作为相邻关系,把据此确定的邻居节点,称作监测点的物理邻居节点。前述的行政邻居节点和地理邻居节点都属于物理邻居节点。

物理邻居节点的相邻关系是基于现有的某种规则来判定,实现比较容易。但由于部分邻居监测点的参照价值不大,所以基于这种相邻关系进行监测数据处理,其实际效果往往并不合理。这是因为所使用的相邻关系与监测对象的内在关联性可能并不一致,所以不能准确反映监测数据的本质特征。

基于聚类的相邻关系判定

根据性质2可知,如果能够提供一种更加合理的相邻分区,就可以确定一个更好的相邻关系。为了克服物理邻居节点在数据有效性分析方面存在的不足,考虑基于历史监测数据,根据数据自身的特征来实现相邻关系的判定。

定义8.监测点的逻辑邻居节点:采用聚类分析方法,基于历史监测数据自身的特征将监测点集合划分为一组相邻区域,再根据所得到的相邻分区来判定监测点的相邻关系。把具有该相邻关系的邻居节点称作监测点的逻辑邻居节点。1.物联网监测数据的聚类分析

物联网监测的基本形式是在特定范围内部署一组监测点,在每个监测点安装一组传感器来采集监测数据。所得到的监测数据通常是以时间序列形式保存的一组监测值,一般的数据格式见表1。这里假定每个监测点安装了n种传感器,以小时为数据采集间隔。那么,各监测点每隔一个小时会产生一组监测数据。

表1某物联网监测点的监测数据格式

聚类分析是根据样本相似度进行分簇的一种方法,其目标是实现簇内样本相似度最大、簇间样本相似度最小。可以采用聚类分析的方法来判定监测点关于某一参数t的相邻关系。取出所有监测点的参数t监测值序列,该监测值序列能够描述监测点关于参数t的数据特征。通过对所有的监测值序列进行聚类分析,能够把所有监测点归入不同的簇中,用所得到的聚类结果作为监测点相邻关系的判定依据。

2监测点逻辑相邻关系判定算法

利用聚类分析实现物联网监测点相邻关系判定的算法如图1所示。

具体处理过程如下:

(1)提取监测数据;监测数据的基本格式如表1所示。这里以大气质量监测数据为例,说明提取过程。监测对象是8类主要大气污染物,数据形式为小时均值。某监测点的大气质量监测数据形式如表2所示。以各监测点关于pm2.5的相邻关系判定为例,每个监测点每天产生24个监测值,如果使用n天的历史数据,则用24×n个监测值来描述该监测点关于pm2.5的数据特征。这些监测值构成一个数据序列。

表2某大气质量监测点监测数据

对所有的监测点数据进行相同处理,可以得到一组描述各监测点的数据序列。

(2)确定簇数量;在聚类分析中,确定簇数量是一个关键问题。通常根据业务需求或分析动机来确定簇数,或者采用经验值k是待分析的对象总数。也可在使用不同的簇数进行聚类分析后,根据分析结果计算评估指标或分析指标变化趋势,再据此确定合适的簇数。

(3)进行聚类分析;选择合适的聚类算法也是影响分析结果的一个重要因素。在实际应用中,需要结合数据类型、聚类目的等具体情况来进行选择。

(4)判定相邻关系;

整理聚类分析结果,归入同一簇中的监测点互为邻居节点,构成一个相邻区域。据此即可判定各监测点之间的相邻关系。

3.样本距离的定义

样本距离用于实现样本相似性的度量,并作为聚类分析的依据。传统的距离定义包括欧氏距离、曼哈顿距离等。为了得到更好的分析效果,有学者分别研究了分数范数、dtw(dynamictimewarping,动态时间归整)距离、实补偿编辑距离等在样本相似性度量方面的应用。事实上,距离定义的方式与聚类分析的对象特征及分析目标直接相关,很难找到一种适合所有聚类分析的相似性度量方式。

本发明对监测数据进行聚类分析的目的是为了发现不同监测点的监测数据之间数值的相近程度。为此,定义样本距离如下:

定义9.监测数据序列的距离:对于监测数据序列di和dj,定义两者之间的距离为:

其中n为监测数据序列长度,dim为监测数据序列di中的第m维数据,djm为监测数据序列dj中的第m维数据

这个距离定义是把两个数据序列的所有对应维度的数据差值做求和,最后取绝对值。

4.基于轮廓系数的算法和簇数量选择

轮廓系数是在没有基准条件的情况下,利用数据集中对象的相似性度量来考察聚类结果中簇内紧凑性和簇间分离性,对聚类结果进行评估。

定义10.轮廓系数:数据集中第i个对象的轮廓系数为:

其中,ai是第i个对象到它所在的簇中其它对象的平均距离,bi是第i个对象到其它簇的平均距离中的最小值。

s(i)的取值在-1到1之间,越接近1说明第i个对象所在的簇紧凑性越好,且与其它簇越远离。如果取值接近0,表示簇间区分不明显,如果接近-1,则表示分簇错误。可以用数据集中所有对象的轮廓系数平均值作为聚类质量的评估指标。

在监测点相邻关系判定算法中,需要确定聚类结果的簇数,并选择适当的聚类算法。由于物联网监测点的相邻情况是未知的,所以本发明采用轮廓系数作为确定簇数和选择算法的依据。具体做法是:使用多种聚类算法和不同的簇数进行多次聚类分析,分别求出其轮廓系数,取轮廓系数最大者作为最终结果。

实验结果及分析

应用本发明的监测点相邻关系判定算法,使用r语言提供的层次聚类算法对监测点进行关于pm2.5的相邻关系判定分析。

1.实验数据

实验数据使用北京周边的28个监测点30天的pm2.5监测数据,图2是这些监测点的位置分布图。这些监测点大致均匀地环绕在北京周围,所处的地理环境既有平原和山区,也涵盖了工业发达地区和农业生产地区。对这些监测点进行随机编号,分别用1~28来代表,在图2中作相应的标注。从原始监测数据中提取出28个监测点某月份30天的pm2.5监测数据,作为实验数据集。

2.实验结果

使用层次聚类算法,分别取簇间距离度量方法为complete、average、simple、ward、median、mcquitty等,簇数量使用3~6对实验数据集进行聚类分析。表3是各个聚类结果的轮廓系数。

表3聚类分析轮廓系数表

可以看到,采用平均距离(average),簇数k取5时的聚类效果最好。表4至表7分别给出了簇数k为3~6时的最优聚类结果。

表4k=3,method=complete聚类结果

表5k=4,method=complete聚类结果

表6k=5,method=average聚类结果

表7k=6,method=ward聚类结果

3.对比方法分析结果

作为对比,表8和表9分别给出了行政相邻关系和地理相邻关系的判定结果。

行政相邻关系判定中,把28个监测点按照所属的行政区域分为北部、东部和中部三个区域。

表8行政相邻关系分析结果

地理邻居节点的判定按照均匀分布原则,在整个覆盖区域内指定5个地理中心点,然后根据地理距离将所有监测点划分为5个不同的相邻区域。

表9地理相邻关系分析结果

4.实验结果分析

实验结果显示,采用聚类分析判定相邻关系,在各种算法所得到的结果中,轮廓系数都大于0.5,说明其簇内紧凑度和簇间分离度都比较合理。

当簇数为3时,三个分簇a、b、c中的监测点数分别为11、9、8,簇的大小比较均衡;簇数为4时,表4中的簇a被分化为两个簇,监测点13、14单独成簇,另外两个簇保持不变;簇数为5时,监测点9、26被分出单独成簇,其它簇基本保持不变;簇数为6时,表6中的簇b和簇c被分化为三个簇,其它簇保持不变。这里的簇名称a~f只是用来区分聚类结果的标记,不包含好坏判断。可以看到,聚类分析的结果中各簇数量比较均衡,随着簇数的增加,簇间区分越来越细,各簇的构成保持逻辑上的一致。

将聚类分析结果与物理相邻关系结果相比较,逻辑相邻3类中的a类与行政相邻中的北部区域重合较大,逻辑相邻5类中的a类与地理相邻中的a类也有较大重合。这是因为行政相邻中的北部区域和地理相邻中的a类所包含的监测点均地处坝上草原和太行山区,工业化程度普遍较低,所以这些监测点的大气质量都比较好。因此,这些监测点也存在逻辑上的相邻关系,所以出现重合较多的现象。

对于其它各相邻区域的划分结果,实验结果与物理相邻关系分析结果差别较大。两种物理相邻关系判定结果的轮廓系数都在0.1左右,说明其分簇并不合理,这与之前的分析结论是一致的。

聚类分析能够根据数据内在的特征,基于相似度将未标记的样本划分为若干簇,客观反映了数据本身所隐含的规律。本发明通过提取特定参数的监测数据序列,使用层次聚类算法对部分大气质量监测点进行聚类分析。实验结果显示,根据聚类分析结果所判定的监测点相邻关系稳定,并且能够结合现实情况做出合理解读,具有良好的可解释性,相比传统的根据行政区域或地理位置确定相邻关系的做法,更加符合客观实际,能够为物联网监测数据有效性审核及其它数据处理提供更加科学合理的处理依据。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1