一种面向普适计算感知数据流的协同进化聚类方法

文档序号:6466779阅读:161来源:国知局
专利名称:一种面向普适计算感知数据流的协同进化聚类方法
技术领域
本发明是一种用于普适计算应用领域,基于通信消息机制的协作数据处理技术,实现对感知网络大规模数据流的有效、隐含且具有使用价值的信息挖掘。本技术属于网络信息分布式计算应用领域。

背景技术
以“无处不有的网络,无所不在的计算”为特征的普适计算,其实现目标是建立一个充满计算和通信能力的环境,同时使这个环境与人们逐渐地融合在一起。为实现这样的目标,普适计算环境需要传感器代替用户去感觉物理世界;需要各种传感器定位用户位置、感知用户意图。无线传感器网络(WSNs)是一种由大量集成传感器、数据处理单元和短距离无线通信模块的微小节点组成的以数据为中心的无线自组织网络。传感器网络具有广阔的应用前景,随着传感器网络研究的深入和相关技术的不断发展和完善,各种各样的传感器网络将遍布我们的生活环境,从而真正实现“无处不在的计算”。因此传感器网络技术已成为普适计算思想体系中的一个典型应用。
面向普适环境的传感器网络拓扑由一定数量的传感器节点和基站/汇聚节点组成。位于监测区域的传感器节点负责数据信息的采集、聚合与转发,汇聚节点则负责数据收集任务的发布以及将收集的数据转发到外部网络。传感器网络的数据以分布式的流数据方式存在。现有与传感器网络数据管理相关的研究中,学者已提出将分布式数据库技术应用于感知数据处理,从而实现传感器网络环境下具有特征属性数据的连续查询与聚集处理。但在面向普适计算的应用领域中,对感知流数据的查询则更关注于数据中潜在的知识以及未来的数据。
流数据挖掘技术的研究主要集中数据流的在线分析、聚类、分类、频繁项集挖掘以及续查询等方面。数据流聚类是传统聚类方法在数据流环境下的延伸,依据在数据中发现的描述对象及其关系的信息,将其聚集成类,使类间相似性尽量大,类内相似性尽量小。
进化计算是模拟生物进化过程与机制来求解问题的自适应人工智能技术,协同进化算法是在协同进化论基础上提出的一类新的进化算法,其主要考虑了种群与环境之间、种群与种群之间在进化过程中的协调。在面向普适计算的感知数据流挖掘中引入协同进化算法,采用多种群协同进化的机制,实现流数据分类,进一步提高数据信息挖掘的有效性与精确性。


发明内容
技术问题本发明的目的是提供一种面向普适计算感知数据流的协同进化聚类方法,利用进化协同的策略完成信息处理,解决普适环境下感知数据流的聚类问题。与目前已研究出来的数据聚类相关算法不同,本方法基于协同策略演化,通过使用本发明提出的方法可以在一定程度上针对空间流数据分布不均匀情况,提高整体数据的聚类性能。
技术方案本发明的方法是一种启发策略性的方法,采用定向传输模式下的消息通信机制。汇聚节点以数据包形式发布收集数据的请求消息以及数据聚类任务。各数据源节点完成本地数据聚类,携带所需的信息通过响应消息来应答请求。数据聚类的策略基于节点间通信协作。汇聚节点负责聚类任务的决策、分解、派发,各传感器节点则协同完成感知数据流聚类操作。
一、体系结构 结合无线传感器网络数据的分布式特点以及数据聚类任务的分派方式,通信消息机制模型如图1所示。当汇聚节点需要从传感器区域收集数据时,它以数据包形式发布一个请求消息,该消息包括以下内容 (1)所需收集的数据类型,一般为特定属性值,如温度、压力、湿度、光照等; (2)与消息所匹配的信息传送时间间隔; (3)消息的生存期; (4)消息发布的区域; (5)数据聚类任务策略; 源节点携带所需的信息通过响应消息来应答请求。响应消息数据包中除了通信应用层数据外,还包括用于协同聚类的服务数据。
基于普适环境下的感知数据的特点,如下分别给出流数据、流数据聚类的形式化结构定义 设定在一个分布N个传感器节点的普适环境区域内,感知流数据由一系列按照时间顺序连续到达的数据点构成,表示为X={X1,X2,…,Xi}i∈N,综合无线传感器网络中数据的实时性、分布性、流动性、多元性的特征,每个数据点的数据结构可以表示为<id,a,d,t>,其中,id表示传感器标识,a表示属性向量<a1,a2,…,an>,d表示a对应的数据值向量<d1,d2,…,dn>,t表示传感器节点获得数据的时间。
流数据聚类,即将数据流中的某个特定的子对象集合{X1,X2,…,Xi}i∈N划分成k个聚类区间,聚类中心点集P={p1,p2,…,pk}且P∈X。
二、方法流程 普适环境下传感器网络中的汇聚节点根据传感器节点的感知数据以及网络状态信息,生成聚类策略,同时预制聚类任务执行的派发路径。传感器节点完成本地初始数据预处理,根据汇聚节点派发的任务,并依据一定的准则(能耗、聚合时延),在工作空间选择一套最优(或次优)的数据聚合方案。感知数据流的聚类算法采用遗传进化算法思想,即从一组随机产生的初始解,称为“种群(population)”开始搜索过程。同时,本算法基于自下而上的分类方法,采用了多种群协同进化的机制,每个种群由属于同一类的组织构成。
主要工作流程如图2所示 (1)各传感器节点获得感知区域数据信息,完成本地数据流的特征离散化,数据预处理算法2.1,流程如图3所示,具体说明如下 设数据流每个样本Xi i∈N由n个属性和一个类别描述,记为(A1,A2,…An,Class),大规模感知流数据离散化,考虑的属性值与类别均相同的样本,因此需将其合并,记为(A1,A2,…An,Class,Count),其中Count表示(A1,A2,…An,Class)出现的次数。
设|Ai|为Ai可取值的个数,Am1,Am2为取值个数最多的两个属性。将数据分成m份,属性Am1,Am2共有|Am1|×|Am2|种取值组合,Examplei,j,k表示第i部分数据中Class=j且Am1,Am2为第k种取值组合的样本集合。
采用进化协同与通信消息机制的结合来控制优化数据的聚类,具体如下 步骤1).处于某监测区域的传感器节点监测到目标,获得感知数据,进行流数据的离散化, 步骤2).汇聚节点周期性发布兴趣消息,生成以汇聚节点为根节点的数据聚合路径生成树, 步骤3).若传感器节点为数据源节点,则将数据样本类取值以响应消息形式沿聚合路径生成树传输至汇聚节点,否则等待, 步骤4).汇聚节点依据采集的数据类,组织选择机制,随机产生初始种群,聚类策略发布至数据源节点, 步骤5).数据源节点依据属性实现聚类,计算个体适应度,并判断是否满足终止条件,若满足,输出最佳个体其代表的最优聚类属性至汇聚节点,转步骤7),否则转向步骤6), 步骤6).依据适应度选择再生个体,适应度高的个体被选中概率高,适应度低的个体可能淘汰,由迁移、交换产生新一代种群,返回步骤5), 步骤7).汇聚节点根据选定的种群排列结果,对应与感知节点的ID,这些节点作为数据聚类节点,并将聚类中心ID及数据类以消息形式发布到聚类节点, 步骤8).聚类节点收到来自汇聚节点聚类消息后,采用属性聚类算法2.1和遗传算子进化算法2.2进行聚类任务的决策,包括协同控制驻留聚类节点的数据聚合时隙,聚类数据, 步骤9).聚类节点协同完成数据聚类任务后,携带部分数据结果和状态信息通过消息返回汇聚节点, 步骤10).聚类节点收集数据聚类过程中,依据来自传感器网络目标节点的事件消息,更新系统信息,若满足给定的聚类结束的阈值条件,则结束,否则,转步骤4)。
属性聚类算法2.1 步骤211计算出取值个数最多的两个属性Am1,Am2,令i←1, 步骤212对i部分中每条数据,若Class=j且Am1,Am2为第k种取值组合,则将其与Examplei,j,k中的样本进行合并, 步骤213若i<m,则令i←i+1,转步骤212,否则令j←1,k←1,转步骤214, 步骤214对Examplei,j,k,i=1,2,…m,m个集合的样本进行两两合并,直到合并成一个集合为止, 步骤215若k<|Am1|×|Am2|,令k←k+1,转步骤214,否则若j<|Class|,令j←j+1,k←1,转步骤214,否则停止; 其中|Ai|为Ai可取值的个数,Am1,Am2为取值个数最多的两个属性。将数据分成m份,属性Am1,Am2共有|Am1|×|Am2|种取值组合,Examplei,j,k表示第i部分数据中Class=j且Am1,Am2为第k种取值组合的样本集合。
(2)汇聚节点发布兴趣消息,消息包括需要收集的信息类型。消息到达目标节点后,根据驻留该节点的信息聚类状态信息,以及汇聚节点后发的聚类策略信息,进行聚合任务的决策。
(3)汇聚节点根据由数据聚类事件生成的事件消息,定义类别Class取值相同的样本相同的样本集合为组织org,通过组织选择机制,实现信息进化更新,并分发执行任务,并将策略信息通知各处理节点。
组织表示成以下结构 Org=Record 成员列表记录属于该组织的样本的编号; 属性类别记录对于该组织来说每个属性的类别; 组织类别该组织的类别; 样本类别成员所对应样本所属的类别; 适应度该组织的适应度; End. 组织的进化是通过对其成员进行操作而实现的,因此设计了三个组织进化算子和一种组织选择机制。
①迁移算子首先从同一种群中随机选出两个父代组织orgp1和orgp2,然后从orgp1中随机选择N个成员移入orgp2,得到两个子代组织orgc1和orgc2,其中N≥1。
②交换算子首先从同一种群中随机选出两个父代组织orgp1和orgp2,然后从两个组织中随机各选出N个成员进行交换,得到两个子代组织orgc1和orgc2,其中1≤N<{|orgp1|,|orgp2|},|org|表示org中成员的个数,执行该算子的条件是|orgp1|>1或|orgp2|>1。
③组织选择机制当一个算子产生了一对子代组织后,这对组织将与其父代组织进行竞争,包含最高适应度的那对组织将进入下一代,另一对则被删除。
(4)需进行聚类的传感器节点计算适应度函数,采用协同进化聚类算法2.2,流程如图3所示,完成数据聚类任务后,以消息形式携带部分数据结果和状态代码返回汇聚节点。
遗传算子进化算法2.2 设T表示进化代数,M是预先给定的参数,org是当前正在计算适应度的组织,且

为属性A在第t代的重要度,Count表示该样本中数据出现的次数;Count表示该类数据的个数;Class表示org的样本类别;All表示所有数据的个数; 适应度函数定义为 其中Memberi为org的第i个成员,Aj为Uorg中的第j个属性; 步骤221根据算法2.1属性聚类算法对流数据样本进行预处理, 步骤222将每个样本e以平凡组织的形式加入到种群

中,令t←0,i←1, 步骤223如果i>|Class|,转步骤228, 步骤224如果

中的组织数大于1,转步骤225;否则,转步骤227, 步骤225先从

中随机选出两个父代组织orgp1和orgp2,然后随机选择一个组织进化算子作用在orgp1和orgp2上产生子代组织orgc1和orgc2,计算orgc1和orgc2的适应度, 步骤226将组织选择机制作用在orgp1,orgp2和orgc1,orgc2上,并将orgp1,orgp2从

中删除,转步骤224, 步骤227将

中剩余的组织移入

令i←i+1,转步骤223, 步骤228如果终止条件满足,则停止,否则令t←t+1,i←1,转步骤223。
有益效果本发明方法提出了利用通信消息机制,采用协同方法实现普适环境感知数据流的挖掘。通过进化算法的优化控制,在一定程度上提高了聚类节点选择的合理性与全局性,可以精确有效实现网络流数据聚类的目标。
与目前已研究出来的数据聚类相关算法不同,本方法基于协同策略演化,通过使用本发明提出的方法可以在一定程度上针对空间流数据分布不均匀情况,提高整体数据的聚类性能。



图1是消息通信机制示意图。图中包括汇聚节点Sink,感知信息的传感器源节点,协同聚类任务的传感器处理节点S0,…Sn-1,节点之间的请求/响应消息路径。
图2是算法2.1的流程示意图。表示本发明数据流预处理算法的流程示意。
图3是算法2.2的流程示意图。表示本发明数据流协同进化聚类算法的流程示意。
图4是本发明方法的流程示意。

具体实施例方式 面向普适计算的传感器网络流数据聚类方法具体如下 步骤1).处于某监测区域的传感器节点监测到目标,获得感知数据,进行流数据的离散化, 步骤2).汇聚节点周期性发布兴趣消息,生成以汇聚节点为根节点的数据聚合路径生成树, 步骤3).若传感器节点为数据源节点,则将数据样本类取值以响应消息形式沿聚合路径生成树传输至汇聚节点,否则等待, 步骤4).汇聚节点依据采集的数据类,组织选择机制,随机产生初始种群,聚类策略发布至数据源节点, 步骤5).数据源节点依据属性实现聚类,计算个体适应度,并判断是否满足终止条件,若满足,输出最佳个体其代表的最优聚类属性至汇聚节点,转步骤7),否则转向步骤6), 步骤6).依据适应度选择再生个体,适应度高的个体被选中概率高,适应度低的个体可能淘汰,由迁移、交换产生新一代种群,返回步骤5), 步骤7).汇聚节点根据选定的种群排列结果,对应与感知节点的ID,这些节点作为数据聚类节点,并将聚类中心ID及数据类以消息形式发布到聚类节点, 步骤8).聚类节点收到来自汇聚节点聚类消息后,采用属性聚类算法2.1和遗传算子进化算法2.2进行聚类任务的决策,包括协同控制驻留聚类节点的数据聚合时隙,聚类数据, 步骤9).聚类节点协同完成数据聚类任务后,携带部分数据结果和状态信息通过消息返回汇聚节点, 步骤10).聚类节点收集数据聚类过程中,依据来自传感器网络目标节点的事件消息,更新系统信息,若满足给定的聚类结束的阈值条件,则结束,否则,转步骤4)。
所述的属性聚类算法2.1为 步骤211计算出取值个数最多的两个属性Am1,Am2,令i←1, 步骤212对i部分中每条数据,若Class=j且Am1,Am2为第k种取值组合,则将其与Examplei,j,k中的样本进行合并, 步骤213若i<m,则令i←i+1,转步骤212,否则令j←1,k←1,转步骤214, 步骤214对Examplei,j,k,i=1,2,…m,m个集合的样本进行两两合并,直到合并成一个集合为止, 步骤215若k<|Am1|×|Am2|,令k←k+1,转步骤214,否则若j<|Class|,令j←j+1,k←1,转步骤214,否则停止; 其中|Ai|为Ai可取值的个数,Am1,Am2为取值个数最多的两个属性。将数据分成m份,属性Am1,Am2共有|Am1|×|Am2|种取值组合,Examplei,j,k表示第i部分数据中Class=j且Am1,Am2为第k种取值组合的样本集合。
所述的遗传算子进化算法2.2为 设T表示进化代数,M是预先给定的参数,org是当前正在计算适应度的组织,且

为属性A在第t代的重要度,Count表示该样本中数据出现的次数;Count表示该类数据的个数;Class表示org的样本类别;All表示所有数据的个数; 适应度函数定义为 其中Memberi为org的第i个成员,Aj为Uorg中的第j个属性; 步骤221根据算法2.1属性聚类算法对流数据样本进行预处理, 步骤222将每个样本e以平凡组织的形式加入到种群

中,令t←0,i←1, 步骤223如果i>|Class|,转步骤228, 步骤224如果

中的组织数大于1,转步骤225;否则,转步骤227, 步骤225先从

中随机选出两个父代组织orgp1和orgp2,然后随机选择一个组织进化算子作用在orgp1和orgp2上产生子代组织orgc1和orgc2,计算orgc1和orgc2的适应度, 步骤226将组织选择机制作用在orgp1,orgp2和orgc1,orgc2上,并将orgp1,orgp2从

中删除,转步骤224, 步骤227将

中剩余的组织移入

令i←i+1,转步骤223, 步骤228如果终止条件满足,则停止,否则令t←t+1,i←1,转步骤223。
为了方便描述,我们假定有如下应用实例 一、感知数据流聚类预处理 感知数据流聚类预处理规划流程如下 1.处于某监测区域的传感器节点监测到目标,获得感知流数据,通过预处理,存储离散化属性值。
2.汇聚节点周期性向邻居节点广播兴趣消息,与汇聚节点相邻的节点收到该消息后,将汇聚节点作为其父节点,并将数据样本Class取值以响应消息形式送至汇聚节点,该过程一直扩展到整个网络,从而形成以汇聚节点为根的树型结构。
3.汇聚节点组织选择机制,随机初始种群Vk,个体Si数目为所有已知的感知数据属性数,其中K=1。
4.计算个体适应度,并判断是否符合优化准则。若符合,则输出最佳个体及其代表的最优聚类属性,并结束计算。否则转5。
5.依据适应度选择再生个体,适应度高的个体被选中概率高,适应度低的个体可能淘汰。
6.按照迁移概率=0.6,个体直接复制到下一代。
7.按照交换概率=0.4,采用单点交叉方法,生成新个体。
8.由迁移、交换产生新一代种群,返回4。
二、生成和分派聚类任务 1.汇聚节点根据选定的种群排列结果,对应与感知节点的ID。这些节点作为数据聚类节点。
2.汇聚节点将聚类中心ID及数据类以消息形式发布到聚类节点。
三、目标节点协同完成数据聚类 1.聚类节点收到来自汇聚节点聚类消息后,采用协同进化聚类算法,进行聚类任务的决策,包括协同控制驻留聚类节点的数据聚合时隙,聚类数据等。
2.聚类节点协同完成数据聚类任务后,携带部分数据结果和状态信息通过消息返回汇聚节点。
四、汇聚节点继续聚类中心的选择 1.聚类节点收集数据聚类过程中,依据来自传感器网络目标节点的事件消息,更新系统信息。
2.汇聚节点按照上述初始聚类相同的方法,重新计算完成聚类中心选择优化后,将聚类策略以消息形式通知各目标节点。
权利要求
1.一种面向普适计算的传感器网络流数据聚类方法,其特征在于采用进化协同与通信消息机制的结合来控制优化数据的聚类,具体如下
步骤1).处于某监测区域的传感器节点监测到目标,获得感知数据,进行流数据的离散化,
步骤2).汇聚节点周期性发布兴趣消息,生成以汇聚节点为根节点的数据聚合路径生成树,
步骤3).若传感器节点为数据源节点,则将数据样本类取值以响应消息形式沿聚合路径生成树传输至汇聚节点,否则等待,
步骤4).汇聚节点依据采集的数据类,组织选择机制,随机产生初始种群,聚类策略发布至数据源节点,
步骤5).数据源节点依据属性实现聚类,计算个体适应度,并判断是否满足终止条件,若满足,输出最佳个体其代表的最优聚类属性至汇聚节点,转步骤7),否则转向步骤6),
步骤6).依据适应度选择再生个体,适应度高的个体被选中概率高,适应度低的个体可能淘汰,由迁移、交换产生新一代种群,返回步骤5),
步骤7).汇聚节点根据选定的种群排列结果,对应与感知节点的ID,这些节点作为数据聚类节点,并将聚类中心ID及数据类以消息形式发布到聚类节点,
步骤8).聚类节点收到来自汇聚节点聚类消息后,采用属性聚类算法2.1和遗传算子进化算法2.2进行聚类任务的决策,包括协同控制驻留聚类节点的数据聚合时隙,聚类数据,
步骤9).聚类节点协同完成数据聚类任务后,携带部分数据结果和状态信息通过消息返回汇聚节点,
步骤10).聚类节点收集数据聚类过程中,依据来自传感器网络目标节点的事件消息,更新系统信息,若满足给定的聚类结束的阈值条件,则结束,否则,转步骤4)。
2.根据权利要求1所述的面向普适计算的传感器网络流数据聚类方法,其特征在于所述的属性聚类算法2.1为
步骤211计算出取值个数最多的两个属性Am1,Am2,令i←1,
步骤212对i部分中每条数据,若Class=j且Am1,Am2为第k种取值组合,则将其与Examplei,j,k中的样本进行合并,
步骤213若i<m,则令i←i+1,转步骤212,否则令j←1,k←1,转步骤214,
步骤214对Examplei,j,k,i=1,2,…m,m个集合的样本进行两两合并,直到合并成一个集合为止,
步骤215若k<|Am1|×|Am2|,令k←k+1,转步骤214,否则若j<|Class|,令j←j+1,k←1,转步骤214,否则停止;
其中|Ai|为Ai可取值的个数,Am1,Am2为取值个数最多的两个属性。将数据分成m份,属性Am1,Am2共有|Am1|×|Am2|种取值组合,Examplei,j,k表示第i部分数据中Class=j且Am1,Am2为第k种取值组合的样本集合。
3.根据权利要求1所述的面向普适计算的传感器网络流数据聚类方法,其特征在于所述的遗传算子进化算法2.2为
设T表示进化代数,M是预先给定的参数,org是当前正在计算适应度的组织,且
为属性A在第t代的重要度,Count表示该样本中数据出现的次数;Count表示该类数据的个数;Class表示org的样本类别;All表示所有数据的个数;
适应度函数定义为
其中Memberi为org的第i个成员,Aj为Uorg中的第j个属性;
步骤221根据算法2.1属性聚类算法对流数据样本进行预处理,
步骤222将每个样本e以平凡组织的形式加入到种群
中,令t←0,i←1,
步骤223如果i>|Class|,转步骤228,
步骤224如果
中的组织数大于1,转步骤225;否则,转步骤227,
步骤225先从
中随机选出两个父代组织orgp1和orgp2,然后随机选择一个组织进化算子作用在orgp1和orgp2上产生子代组织orgc1和orgc2,计算orgc1和orgc2的适应度,
步骤226将组织选择机制作用在orgp1,orgp2和orgc1,orgc2上,并将orgp1,orgp2从
中删除,转步骤224,
步骤227将
中剩余的组织移入
令i←i+1,转步骤223,
步骤228如果终止条件满足,则停止,否则令t←t+1,i←1,转步骤223。
全文摘要
一种面向普适计算感知数据流的协同进化聚类方法,利用进化协同的策略完成信息处理,解决普适环境下感知数据流的聚类问题。与目前已研究出来的数据聚类相关算法不同,本方法基于协同策略演化,通过使用本发明提出的方法可以在一定程度上针对空间流数据分布不均匀情况,提高整体数据的聚类性能。本发明的方法是一种启发策略性的方法,采用定向传输模式下的消息通信机制。汇聚节点以数据包形式发布收集数据的请求消息以及数据聚类任务。各数据源节点完成本地数据聚类,携带所需的信息通过响应消息来应答请求。数据聚类的策略基于节点间通信协作。汇聚节点负责聚类任务的决策、分解、派发,各传感器节点则协同完成感知数据流聚类操作。
文档编号G06F17/30GK101394345SQ200810155219
公开日2009年3月25日 申请日期2008年10月22日 优先权日2008年10月22日
发明者王汝传, 宁 叶, 志 陈, 黄海平, 马守明, 孙力娟, 超 沙, 王玉斐, 凡高娟 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1