无线传感网络中基于多示例多标记学习的区域监测方法

文档序号:9891235阅读:240来源:国知局
无线传感网络中基于多示例多标记学习的区域监测方法
【技术领域】
[0001] 本发明属于无线传感网络技术和机器学习技术领域,特别设及了一种基于多示例 多标记学习的区域监测方法。
【背景技术】
[0002] 作为一种能够对人类未来生活产生深远影响的新兴技术,无线传感器网络(WSNs) 技术近年来受到了普遍关注。WS化技术的应用设及到了诸多领域,包括国防科技、物联网技 术、环境监测、远程控制、星际探索等。对于WS化的研究意义重大。
[0003] 大数据时代的一个重要数据来源就是传感器网络。传感器网络的任务在于帮助人 们监测某个区域内监测对象的情况,而非具体某个节点的情况,传感器网络中的节点脱离 了传感器网络就没有意义了。传感器网络将各节点收集到的数据汇总,人们对运些汇总数 据进行处理,从而了解整个监测区域或者某个区块所处状态。WSNs除了拥有分布式、自组 织,网络拓扑结构动态变化,可靠性和安全性较差诸多特点外,还包括W下两个显著特点。 第一,WSNs产生的传感数据中包含大量冗余信息。由于传感器节点无时无刻都在产生数据 的,所W其产生的是流数据,流数据的特点是短时间内数据相关性比较大,包含了大量冗余 数据,如何将冗余数据筛选掉,而只对关键数据进行挖掘,运是WS化技术的重要研究方向。 第二,传感器规模大、密度高。传感器网络产生的原因就在于,随着无线通信技术、传感技术 W及微电子技术的发展,传感器的体积、能耗变得越来越小,功能变得越来越强大,已经可 W实现大批量的传感器生产和部署。数目众多的传感器节点每时每刻都在感知环境并产生 数据,一个大型的WSNs汇集的数据量是巨大的。如何对运些海量的传感数据进行筛选和处 理已经成为WS化研究者关注的问题。
[0004] 传感器是大数据的一个重要来源之一,传感数据是数据挖掘的重要研究对象。数 据挖掘是一个过程,其目的在于利用模式识别、统计学理论、机器学习等领域的算法和知 识,从大量的数据中捜索隐藏于其中信息。在数据挖掘所利用的众多机器学习算法中,有监 督的分类学习是其中的一个重要分支。分类算法是在类别已知的训练样本集上学习得到一 个分类模型,然后利用分类模型预测新样本的类别,运类似于人类利用生活经验来预测未 来可能发生的事。在WS化中,可W利用历史的传感数据,训练出一个分类器,当新的传感数 据到来,就可W利用分类器对当期传感器网络所处的状态进行评估。
[0005] 传统的分类算法中,每个样本只有一个类别或标记,但是现实当中一个样本或对 象可能同时与多个标记相对应。例如,一则新闻报道可能同时对应『经济Η政治Η环境 个主题;一张关于沙滩的图片,可能同时还包含有海聘、天空、轮船等内容;同样的情形在生 物领域的蛋白质功能预测中也存在,一种蛋白质分子可能同时具有抗癌、抗感冒等功能;在 WSNs中,监测区域出现的状况可能不只一种,否则传感器网络的功能就太过单一了,比如, 我们往往希望传感器网络能够同时判断监测区域中是否存在火灾、外来入侵、交通堵塞等 情况,如果出现火灾,那么火灾大概出现在监测区域内的哪个部分。由此,产生了多标记学 习(M化)W解决一个样本拥有多个标记的问题。多标记算法已经被成熟地应用到文本分类、 图片注释等传统分类领域,并且在一系列新的领域亦取得了成功,包括大分子功能预测、 Web挖掘、信息检索和视频语义注释,而多标记学习在WS化领域的直接应用还未引起足够重 视。基于决策树、神经网络、K近邻、支持向量机等传统的分类算法,研究者们提出了许多相 应的多标记算法,多标记问题的解决工具已经种类繁多。
[0006] 多标记学习定义了学习对象在输出空间具有多个语义内容,而复杂的学习对象在 拥有复杂的输出空间的同时,其输入空间也会包含复杂的信息。传统的单个示例(特征向 量)表示一个样本的模式对于复杂的学习对象来说已经不适应,需要多个示例组成一个包 来共同描述学习对象。例如,一本书实际上是由多个章节组成的,每个章节可W是一个示 例;一张关于沙滩的图片可W划分成不同的区块,每一个区块都对应着一个语义内容,比 如『大海Η沙地Η挪树多示例模型对于学习对象的描述更加符合人类对客观世界认识的 模式方法,人在判断一张图片主题时,实际上是先看图片的局部内容,然后将局部内容联系 在一起判断整张图片的主题。在传感器网络中,整个监测区域是一包,每个传感器节点是一 个示例,运样基于传感器网络的区域监测问题就成为了一个多示例多标记学习问题,选取 合适的多示例多标记学习算法能够解决传感器网络的大规模数据处理问题。
[0007] 解决多示例学习问题的一个重要方法是退化。通过将一个包中的多个示例压缩成 一个示例,原本的多示例问题就能够转化成传统的单示例多标记问题。退化造成了一定的 信息损失,却使得复杂的多示例问题得到简化,大大减少了模型复杂程度,降低开销。在传 感器网络中,对多个传感器节点数据的融合将减少传输开销,降低对节点性能的要求。最 近,费舍尔核函数(Fisher Kerne 1)技术被验证是实现多示例转化成单示例的最有效方法。
[0008] 数据集成问题是数据处理中的一个重要问题,而许多数据集成任务往往需要解决 一个共同问题:如何判断两个数据集是否取自同一个分布。最近,颇受关注的最大平均差异 (MMD)指标W核函数为基础,解决了如何衡量任意两个数据集分布是否相同的问题。在传感 器网络的冗余数据的筛选问题中,我们希望从原始传感数据集中得到一个数据子集,运个 子集与原始数据集的分布尽可能接近。
[0009] 基于WS化技术的区域监测问题当前面临的挑战:
[0010] (1)基于WSNs的区域监测需要对实时的传感数据快速操作,提取出网络状态信息, 复杂的数据操作过程或者算法模型都会降低系统响应速度;
[0011] (2)规模庞大的传感器节点实时产生的传感数据是海量的,如何对多个传感器节 点数据进行压缩、提取有用信息是一个挑战;
[0012] (3)同一时间段内传感器发送的数据非常相似,传感数据存在大量的冗余信息,如 何将运些冗余信息筛除是一个挑战。

【发明内容】

[0013] 为了解决上述【背景技术】提出的技术问题,本发明旨在提供无线传感网络中基于多 示例多标记学习的区域监测方法,解决了无线传感器网络中海量传感数据压缩和信息挖掘 的问题,W及进一步利用挖掘到的信息解决监测区域状态的实时评估的问题。
[0014] 为了实现上述技术目的,本发明的技术方案为:
[0015] 无线传感网络中基于多示例多标记学习的区域监测方法,包括两个过程:预测模 型构建、网络状态预测与模型更新,
[0016] 所述模型构建过程如下:
[0017] (η收集T个时刻的传感网络数据,构成数据集D。= {(Nt,Yt),t = 1,2,. . .,T},Nt = (st,i,st,2,. . .,St,i, . . .,St,M}表示时亥Ijt时传感器网络收集到的数据,St,i表示时亥Ijt时第i 个传感器收集的数据,Μ为整个传感器网络的传感器的总数,Yt={yt,i,yt,2,. . .,yt,i,..., yt,L}表示时刻t时传感器网络的状态向量,Υ巧L种需要监测的状态yt,i,l = l,2,…,L,yt,i 的取值由人为判断,yt, 1取1表示传感器网络正处于1状态,否则yt, 1取0;
[0018] (2)利用最大似然估计求解数据集D。的混合高斯模型;
[0019] (3)对D。中的所有Nt,利用基于混合高斯模型的Fisher Kernel核函数,将多示例数 据Nt映射成单示例数据ft,从而得到数据集D={(ft,Yt),t=l,2,...,T};
[0020] (4)利用MMD数据集成技术,将数据集D中的冗余数据筛除,得到D的子数据集Dsub;
[0021] (5)WDsub为训练集,训练一个基于快速多示例多标记分类算法的预测模型Yt = Fy (ft),清空数据集D。
[0022] 所述模型更新与网络状态预测过程如下:
[0023] (i)收集任意时刻的传感网络数据,利用Fisher Kernel核函数得到其单示例数据 ft;
[0024] (ii)将ft输入到预测模型Yt = Fy(ft)中,估测出网络当前所处状态Yt,根据估测状 态,管理者做出响应动作,同时对Yt进行人工校验、更正,并将(ft, Yt)存入数据集D中;
[0025] (iii)重复步骤α)、(?),直到收集总共T个时刻的传感网络数据,构成新的数据 集 D={(ft,Yt),t = l,...,T};
[0026] (iv)利用MMD数据集成技术,将数据集D中的冗余数据筛除,重新得到D的子数据集 Dsub;
[0027] (V)根据Dsu通新预测模型Yt = Fy(ft),清空数据集D。
[0028] 进一步地,步骤(3)中将多示例数据映射成单示例数据的具体过程如下:
[0029] 对于某个多示例数据N={si,S2, . . .,si,. . .,sm},设整个样本集的概率密度函数P 为混合高斯模型,则N取自该混合高斯模型的概率:
[0030]
(1)
[0031] 式(1)中,λ为在样本集上进行最大似然估计得到混合高斯模型的参数,A={c〇k, yk,Sk,k=l,. . .,Κ},Κ为混合高斯模型当中包含单高斯模型的个数,Ok代表第k个高斯模 型占整个混合高斯模型的权重,且满足
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1