无线传感网络中基于多示例多标记学习的区域监测方法_2

文档序号:9891235阅读:来源:国知局
:V,:份> 0
,化和Ik分别为第k个高 斯模型的均值向量和方差向量;
[0032] 设pk为第k个高斯模型的概率密度函数,则有:
[0033]
[0034] 式(2)中,d为传感器数据Si的维度数目,由贝叶斯定理得到第i个示例取自第k个 高斯分布的概率:
[0035]
(3)
[0036] 根据丫 i化)求得N的Fisher Vector/方:
[0037] (4) ο
[0038] 进一步地,步骤(4)的具体过程如下:
[0039] 对于一个数据集0=阳1,化,...,化},它的子集Dsub={atNt|NteD,t=l,...,T,at E {0,1}},at为样本选择权重,当子集Dsub中包含了Nt时,at取1,否则at取0;
[0040] 将数据集D和Dsub之间的最大平均损失平方的最小值作为目标函数:
[0041]
[00创式(5)中,N/表示取自子集Dsub的数据包,Ts为Dsub中的样本个数,Φ (X)为非线性特 征映射函数;
[0043] 求出式(5)的局部最优解,并根据人为设定的阔值0,得到Dsub=阳t|at>o}。
[0044] 进一步地,步骤(5)的具体过程:
[0045] (a)从Dsub中随机抽取一个样本ft和它的一个相关标记
[004引 yE {yt,i |yt,iEYt,yt,i=:L},计算ft对标记y的打分值Fy(ft)= WyWft,其中,Wy是标 记y的权重向量,W是信息提取矩阵,用来对ft降维;
[0047] (b)从ft的标记集合中随机抽取一个无关标记J e ?捉,|义,,6 K:,少=巧,计算 切./;)=啤巧7;,如果巧:.(/,) <种./;)-1,无关标记F没有违规,返回步骤(b);如果 巧化)> _ 1,灭是一个违规的无关标记,记下当前总共抽样次数V,转到步骤(C);
[004引(C)根据抽样次数V估计模型的误差,利用误差对参数Wy,%,w更新;
[0049] (d)判断模型是否收敛,如果否,返回步骤(a),如果是,输出最终模型,结束训练。
[0化0] 进一步地,步骤(C)中利用随机梯度下降法更新参数w、,i%,W,更新的公式:
[0054]上式中,丫为随机梯度下降法的学习速率,error(ft,y)为根据抽样次数V估计的 模型误差
[0化5]上式中,error(ft,y)为根据抽样次数V估计的模型误差:
[0056] 采用上述技术方案带来的有益效果:
[0057] (1)本发明利用多示例压缩技术,解决了无线传感器网络中的数据融合问题,并且 没有增加对传感器节点性能的需求;
[005引(2)本发明利用了统计学中的数据集成技术,解决了无线传感器网络中冗余数据 筛除的问题,使得海量传感数据挖掘的难度进一步降低;
[0059] (3)本发明利用改进后的快速多示例多标记学习算法对海量传感数据进行挖掘, 能够高效、自适应地完成区域监测任务。
【附图说明】
[0060] 图1是本发明的总体流程图;
[0061 ]图2是本发明训练预测模型的流程图;
[0062] 图3是本发明预测网络状态和更新预测模型的流程图;
[0063] 图4是本发明两层压缩数据的示意图。
【具体实施方式】
[0064] W下将结合附图,对本发明的技术方案进行详细说明。
[0065] 如图1所示本发明的总体流程图,本发明包括Ξ个过程:数据收集、模型训练/更 新,网络状态预测。
[0066] 首先,需要通过收集到的数据训练出预测模型,如图2所示,步骤如下:
[0067] 第1步:收集T个时刻的传感网络数据,构成数据集DD={(Nt,Yt),t=l,2,...,T}, Nt=kt,i,st,2, . . .,St,i, . . .,St,M}表示时亥Ijt时传感器网络收集到的数据,St,康示时刻t时 第i个传感器收集的数据,Μ为整个传感器网络的传感器的总数,Yt={yt,i,yt,2,..., yt,i,...,yt,L}表示时刻t时传感器网络的状态向量,Yt有L种需要监测的状态yt,i,l = l, 2,…,L,yt,i的取值由人为判断,yt,i取1表示传感器网络正处于1状态,否则yt,i取0。
[0068] 时刻t的传感器网络中,每个传感器节点收集到的数据St,1都是一个示例,整个传 感器网络数据构成一个多示例包Nt={st,i,i = l,. . .,M},使用包来描述时刻t的整个传感 器网络;整个监测区域可能会出现不同的状态,一个状态对于一个标记,由此产生给整个传 感器网络打上多个相关标记的多标记问题。
[0069] 第2步:利用最大似然估计求解数据集D。的混合高斯模型。
[0070] 第3步:对D。中的所有Nt,利用基于混合高斯模型的Fisher Kernel核函数,将多示 例数据Nt映射成单示例数据ft,从而得到数据集D={(ft,Yt),t=l,2,...,T}。
[0071] 解决多示例学习问题的一个重要策略就是退化。将一个包中的多个示例压缩成单 示例会造成一定的信息损失,但是使得多示例问题得W简化,提高了算法效率。
[0072] Fisher Kernel是一种利用样本的概率分布来估计样本之间相似性的核函数,对 于两个包化,化,Fisher Kernel先将它们分别映射成两个Fisher Vector,然后利用两个 Fisher Vector的内积衡量两个包的相似程度。利用Fisher Vector来代替原本的包数据, 运就完成了对多示例的压缩。
[0073] 本发明将多示例数据映射成单示例数据的具体过程如下:
[0074] 对于某个多示例数据N={si,S2, . . .,Si,. . .,sm},设整个样本集的概率密度函数P 为混合高斯模型,则N取自该混合高斯模型的概率:
[0075]
0)
[0076] 式(1)中,λ为在样本集上进行最大似然估计得到混合高斯模型的参数,A={c〇k, 化,Ik,k=l,...,Κ},Κ为混合高斯模型当中包含单高斯模型的个数,Ok代表第k个高斯模 型占整个混合高斯模型的权重,且满足:V,:巧> 0,
化和Ik分别为第k个高 斯模型的均值向量和方差向量;[0077] 设pk为第k个高斯模型的概率密度函数,则有:
[007引 (2)
[0079] 式(2)中,d为传感器数据Si的维度数目,由贝叶斯定理得到第i个示例取自第k个 高斯分布的概率:
[0080]
(3>
[0081 ]根据丫 i化)求得N的Fisher Vector// :
[0082]
(4)
[0083] 第4步:利用MMD数据集成技术,将数据集D中的冗余数据筛除,得到D的子数据集 Dsub 〇
[0084] WSNs在短时间内收集到的数据往往相似度非常高,包含了大量的冗余信息。为了 减少对数据的训练量,适应海量的传感数据情景,需要对传感数据进行冗余信息筛除。
[0085] 在机器学习中,最大平均损失(MMD)是数据集成的一个重要工具,它用来评价两个 数据集分布的相似程度。对于一个数据集D=阳1,化,...,化}^及它的任意一个子集Dsub,它 们的MMD的平方的计算方式如下:
[0086]
(巧
[0087]其中,N^t表示取自子集Dsub的数据包,Ts为Dsub中的样本个数,Φ (X)为非线性特征 映射函数。匪D越大,代表D与Dsub分布越不相同,当MMD取值为0时,说明D完全可W由Dsub代 替。Dsub可W利用D表示出来:
[008引 Dsub={atNt|NteD,t = l,. . .,Τ,α*Ε{0,1}}
[0089]其中,at为样本选择权重,当子集中包含了 Nt时,at取1,否则取0。接下来我们只需 要最小化MMD2(D,Dsub)就可W找到最好的数据子集来代替原始数据集,优化目标函数如下:
[0093] 其中,const为一个只与数据D有关的常数项,使用高斯径向基核函数k(xi,xj)有:
[0094] Kij:=k(Ni,Nj) (8)
[0095]
(9)
[0096] 通过随机梯度下降法就可W得到目标函数的局部最优解,为了方便求解,运里对 口t的取值进行了放松,at取0到1之间的值,最终
[0097] Dsub={Nt|at>〇} (10)
[0098] 运里的阔值0根据人的经验设定。
[0099] 第5步:WDsub为训练集,训练一个基于快速多示例多标记分类算法的预测模型Yt = Fy(ft),清空数据集D。
[0100] 本发明中的网络状态预测模型基于快速多示例多标记算法(MIMLfast)模型,利用 有监督学习的思想,在训练集Dsub上训练出一个多标记模型F(ft),新的传感数据输入到多 标记模型中就能预测出网络状态。MIML化St算法介绍如下:
[0101] MIMLfast为每个标记y(y£Y)都构建一个打分函数:
[0102] Fy(ft)
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1