一种传感器网络分布式免疫遗传聚类算法

文档序号:6627465阅读:180来源:国知局
一种传感器网络分布式免疫遗传聚类算法
【专利摘要】本发明涉及一种适用于传感器网络的分布式免疫遗传k-means聚类算法。一种传感器网络分布式免疫遗传聚类算法,包括以下步骤:染色体编码、种群初始化、选择、交叉、变异操作。本文无线传感器网络的分布式kmeans聚类算法.针对传统k-means算法的缺点,将免疫机制引入到遗传算法对k-means算法进行改进,提出分布式免疫遗传k-means聚类算法,实验证明了该算法对数据聚类具有明显的优越性能,收敛速度快,收敛精度高,聚类稳定性强准确率也大。
【专利说明】一种传感器网络分布式免疫遗传聚类算法

【技术领域】
[0001] 本发明涉及一种适用于传感器网络的分布式免疫遗传 k-means聚类算法。

【背景技术】
[0002] 聚类是数据挖掘的一个重要研究领域,是一种重要的无监督学习方法,其目的是 将对象集合分成若干个特征相似的子集合(又叫类或簇),簇内对象相似性尽可能大,簇间 对象差异性也尽可能大。
[0003] 无线传感器网络是分布式网络,而现有的传统聚类算法的工作方式都是集中式聚 类,根本不合适在无线传感器网络中使用.在WSN上进行数据聚类采用传统集中式聚类算 法会产生大量的数据通信,进而消耗节点能量,最终导致网络寿命降低。


【发明内容】

[0004] 本发明旨在提出一种适用于传感器网络的分布式免疫遗传聚类算法。
[0005] -种传感器网络分布式免疫遗传聚类算法,包括以下步骤:染色体编码、种群初始 化、选择、交叉、变异操作。
[0006] 优选地,所述染色体编码方案为:k个簇心构成一条染色体,即Z 1,Z 2,….Zk ; 由前面传感器数据的组成知Zi也有q个属性,g卩Zi =(Ζη,ζ?2 ,ziq),(i= 1,2, ...,k),则每条染色体的浮点码串的长度是k X q。
[0007] 优选地,所述种群初始化为:随机地从传感器网络数据集合X中选k个数据作为 一条初始染色体进行浮点数编码,重复做P次就产生P个初始染色体;初始种群就是由这P 个染色体组成。
[0008] 或者优选地,所述选择染色体的概率为: 朽=/?/Σ夕。 ?α
[0009] 或者优选地,两个父代染色体是否进行交叉操作由父代间的相似程度来决定;只 有当两个父代染色体的相似度xs小于阈值δ时才能进行交叉;假设有两个父代染色体t 1和t 2,则这两个染色体的相似度定义如下:XS (i,j)= len/ (kXq)。
[0010] 或者优选地,所述一种传感器网络分布式免疫遗传聚类算法,染色体里的基因 Zij 表示第i个簇心的第j维值,则变异后该染色体的基因 z'u为: ζ?Κ)+ζ¥,Λ<0;。
[0011] 本文无线传感器网络的分布式kmeans聚类算法.针对传统k-means算法的缺点, 将免疫机制引入到遗传算法对k-means算法进行改进,提出分布式免疫遗传 k-means聚 类算法.实验证明了该算法对数据聚类具有明显的优越性能,收敛速度快,收敛精度高,聚 类稳定性强准确率也大。

【具体实施方式】
[0012] 一种传感器网络分布式免疫遗传聚类算法,包括以下步骤:染色体编码、种群初始 化、选择、交叉、变异操作。
[0013] 鉴于传感器网络数据集合X中的数据个数η总是远远比其聚类数目k大,故本文 算法使用基于簇中心的浮点数编码方式会更有效。k个簇心构成一条染色体,即Zi,z2, -一 zk;由前面传感器数据的组成知Zi也有q个属性,即Zi =(Zn,zi2 ziq),(i = l,2,.",k),则每条染色体的浮点码串的长度是kXq。
[0014] 随机地从传感器网络数据集合X中选k个数据作为一条初始染色体进行浮点数编 码,重复做P次就产生P个初始染色体.初始种群就是由这P个染色体组成。
[0015] 适应度函数作为染色体遗传进化过程中优胜劣汰的主要根据,是评价染色体性能 好坏的指标。,本方法采用的适应度函数为: 臓",I J 一 E t是染色体编号,t e[l,p].当ft越大,目标函数E越小,簇心间距越大,聚类效 果就越好,说明产生的k个簇越紧凑和独立.反之,当ft越小,目标函数E越大,簇心间距 越小,聚类效果就越差.同时在两处用到E,节省了在空间和时间上的消耗。
[0016] 选择是按照遗传进化中适者生存的原则来开展的操作,适应度越高的染色体得到 参加后代繁殖的机会也就越高;所述选择染色体的概率为: PtUfi ' 式中,P种群大小,t = 1,2,. . .,p,针对基于标准遗传的聚类算法在前期收敛速 度快,而后期当染色体之间的个体差异变小时则收敛速度变慢,本文研究将免疫系统的浓 度概念应用于遗传算法的选择操作,以此来调整染色体个体被选中的概率,从而避免上述 不足和缺点。
[0017] 染色体浓度定义如下: 种群中染色体相同的条数 den' 种群大小P 则得到这d条染色体的个体浓度概率是pdm = ( 1 - den) / P,其它的染色体浓度概率 是pden = ( 1 - den + den 2) / p,全部染色体的浓度概率总和是1。
[0018] 得到选择染色体t的最终概率是: PtUPde^'Yji。
[0019] 交叉操作是指两个父代染色体交换部分基因而得到新的子代染色体.交叉是产生 新染色体的重要方法,同时对算法的全局搜索能力起到直接的影响作用.为确保父代染色 体的优良性能保留到子代,本文的交叉策略使用自识别交叉,即两个父代染色体是否进行 交叉操作由父代间的相似程度来决定。只有当两个父代染色体的相似度XS小于阈值δ时 才能进行交叉。假设有两个父代染色体h和〖 2 ,则这两个染色体的相似度定义如下: XS (i,j)= len/ (k X q)。
[0020] 其中len是〖jP t 2的最长相同子串的长度,kx q是染色体的浮点码串的编码长 度,i和j是染色体中的基因位置序号,〇< i,j <kx q,同时i关j。
[0021] 阈值δ定义如下: ,5 = (i+lJg/gmm)/3 式中δ e (l/3,2/3],g是目前进化代数,而gmax是最大进化迭代代数。
[0022] 变异是一种局部搜索技术,对种群里染色体的多样性有贡献,能避免早熟现象发 生.变异操作就是染色体编码串里的基因位上的基因值按变异概率发生随机改变后形成一 个新的染色体.本文对基因的变异采用自适应方法。.由编码方案知染色体里的基因 Zij表 示第i个簇心的第j维值,则变异后该染色体的基因 z'u为: z'ij = - ζ¥) + J > 0; 根据均匀分布原则,λ 应在[-(f - fmin ) / (fmax - fmin),(f - fmin ) / (fmax - fmin]内产生,f为变异染色体的适应度值,fmin和fmax是当代种群里染色体性能最差和 最优的染色体个体适应度值.这样不但确保了染色体的多样性,而且极大地提高算法的搜 索速度和效率。
【权利要求】
1. 一种传感器网络分布式免疫遗传聚类算法,其特征在于:包括以下步骤:染色体编 码、种群初始化、选择、交叉、变异操作。
2. 如权利要求1所述一种传感器网络分布式免疫遗传聚类算法,其特征在于:所述染 色体编码方案为:k个簇心构成一条染色体,即Z1,Z2-Zk ;由前面传感器数据的 组成知Zi 也有q个属性,即Zi= (Zi i,Zi2,, ,Zitl),(i=1,2,,- -,k),则每条染 色体的浮点码串的长度是kXq。
3. 如权利要求1所述一种传感器网络分布式免疫遗传聚类算法,其特征在于:所述种 群初始化为:随机地从传感器网络数据集合X中选k个数据作为一条初始染色体进行浮点 数编码,重复做P次就产生P个初始染色体;初始种群就是由这P个染色体组成。
4. 如权利要求1所述一种传感器网络分布式免疫遗传聚类算法,其特征在于:所述选 择染色体的概率为:
5. 如权利要求1所述一种传感器网络分布式免疫遗传聚类算法,其特征在于:两个父 代染色体是否进行交叉操作由父代间的相似程度来决定;只有当两个父代染色体的相似度 xs小于阈值S时才能进行交叉;假设有两个父代染色体^和丨^^,则这两个染色体的相 似度定义如下:XS(i,j) =len/(kXq)。
6. 如权利要求I所述一种传感器网络分布式免疫遗传聚类算法,其特征在于:染色体 里的基因h表示第i个簇心的第j维值,则变异后该染色体的基因z'u为:
【文档编号】G06F19/24GK104268442SQ201410478397
【公开日】2015年1月7日 申请日期:2014年9月18日 优先权日:2014年9月18日
【发明者】王耀斌 申请人:陕西高新实业有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1