一种无线传感网智能信息调度方法及系统

文档序号:33101627发布日期:2023-02-01 00:47阅读:48来源:国知局
一种无线传感网智能信息调度方法及系统

1.本发明属于物联网技术领域,涉及一种无线传感网智能信息调度方法及系统。


背景技术:

2.物联网(iot)技术与5g技术逐渐成熟并广泛应用于各行各业,物联网终端的规模也在不断扩大。其中,很大一部分新兴应用对传感器数据有着较高的时效性要求。例如,在自动驾驶领域,无人驾驶车辆需要实时地感知周围环境,从而保证安全性;在网络游戏世界,玩家的游戏体验依赖于数据和游戏画面的及时反馈,过高的延迟会极大影响游戏的可玩性。而多传感器数据的上传和处理复杂性高,对于复杂的无线网络系统,信道资源受限,并且传感器的数据采集充满随机性,导致该问题难以被传统动态规划方法解决。
3.现有研究对高时延敏感性物联网应用情境的考虑不全面。大部分已有工作使用传输延时、处理延时等传统指标来表征数据的实时性,对信息时效性的概括不如aoi全面。部分研究工作对问题有不同程度的简化,例如理想化信道条件、或单用户情境,使得理论研究与实际应用存在距离。
4.现有的基于机器学习的方法无法完美适配解决该发明提到的问题。许多drl 方法,例如q-learning和策略梯度算法(pg),在很多已有的研究中对网络优化问题有很好的效果。但是q-learning对本发明提到的问题收敛性较差,相比之下更常用于离散的控制问题。传统策略梯度方法学习效率过低,学习性能不稳定。
5.传统的机器学习算法只适用于节点数较少的简化情况,而优化算法无法拟合节点生成数据的随机性。随着节点数增加,现有技术对系统的调度性能大幅降低,使得aoi无法满足服务需要。例如轮询调度策略(rr)、最大年龄优先策略(maf),经过仿真验证,在少量节点(3个节点)情况下rr算法aoi已经偏高,maf与本发明算法表现相近。当节点数目增多时三种算法对应的aoi都呈上升趋势,但本发明提出的算法表现最好。


技术实现要素:

6.本发明针对上述现有技术的不足,提出一种基于分层强化学习的算法框架,该框架灵活地结合了优化算法和机器学习方法的优势,给出了一种公平的调度策略即无线传感网智能信息调度方法及系统,不仅保证系统的平均aoi处于较优的水平,而且还具备收敛速度快、收敛结果好的特点。
7.本发明的技术解决方案是:一种基于分层强化学习的无线传感网络,包括:
8.所述无线传感网络包含一个基站(ap),ap配有m个天线;一个智能反射面(irs),共n个反射单元;k个独立的传感器节点,且满足:
9.每个传感器节点都仅通过捕获ap发出的射频信号的能量作为能源;
10.每个时隙被用于能量传输,或者被用于信息传输,且每个时隙至多允许一个传感器节点进行信息传输;
11.将传输过程划分成t个相互独立的时隙,每个时隙的上行信息
传输都在irs辅助下进行;
12.令θn(t)∈(0,2π]表示irs第n个反射单元在第t个时隙的相位,于是将irs的相位向量表示为则第t个时隙从ap到irs的信道用如下矩阵描述:从irs和ap到第k个传感节点的信道向量分别表示为所有信道都均为准静态平坦衰落信道在每个时隙开始阶段,ap进行信道估计
13.本发明还提供一种基于分层强化学习的无线传感网络的工作方法,所述无线传感网络每个时隙的工作步骤为:
14.工作模式选择:每个时隙开始,ap决定自身的工作模式;工作模式分为下行能量传输和上行信息传输;
15.若ap选择下行能量传输:ap向各节点传输能量,用于维持系统正常运行;
16.若ap选择上行信息传输:节点向ap发送本地数据,具体包括传感数据和自身状态;
17.整个时隙结束后,通过计算整个系统的平均aoi评价调度策略的好坏。
18.进一步地,所述工作模式选择中,每个时间帧被分为t个相等的时隙,以一个时隙长度t作为单位长度,使用一个二元标志变量ψ0(t)∈{0,1}表示第t时隙的工作模式;ψ0(t)=1表示ap在时隙t工作于下行能量传输状态,ψ0(t)=0表示工作于上行信息传输状态;
19.使用ψk(t)表示第k个传感节点的调度状态,即ψk(t)=1表示第k个节点接通与ap的上行链路,允许上传本地的传感数据到ap;
20.每个时隙至多只有一个节点被调度工作于上行信息传输状态,数学表达如下:
[0021][0022]
ap有两种工作模式,选择发射射频信号对所有传感节点供能,或者选择从一个传感节点接收更新信息,用ψ(t)=[ψ0(t),ψ1(t),

,ψk(t)]表示调度策略,调度策略取决于传感节点的通信需求、信道条件与能量状态。
[0023]
进一步地,下行能量传输状态中,在irs的帮助下,从ap到第k个节点的等效信道表示如下:式中是由对角向量θ组成的对角矩阵,表示irs的相位;令表示下行能量传输时的ap波束成形向量;给定ap的传输功率ps,ap的波束成形信号用ap的波束成形信号用表示,其中表示ap端生成的信号符号,第k个传感节点收到的信号表示为式中nk(t)表示均值为0,噪声功率归一化后的高斯噪声。
[0024]
进一步地,上行信息传输状态中,令pk(t)表示第k个节点在第t时隙被调度时的传输功率,即ψk(t)=1时,节点k的功率,则ap端接收到的信号表示如下:式中sk表示第k个节点的信息符号,向量nk(t)表示ap收到的噪声。
[0025]
进一步地,所述上行信息传输状态中,还包括将噪声功率归一化,则ap端的接收信
噪比snr写为:式中w(t) 表示ap的接收波束成形向量。
[0026]
进一步地,所述上行信息传输状态中,还包括通过最大比率组合(mrc)算法,将w(t)与irs辅助信道的相位对齐,简化snr为简化snr为并且第k个节点的输出写为rk(t)=τklog(1+γk),其中τk∈(0,1),表示在单位时隙中的有效传输时间,给定第k个节点的数据大小dk,且要求rk(t)≥dk。
[0027]
进一步地,所述上行信息传输状态中,每个时隙中传感节点的能量消耗包含两个部分,即其中pc表示维持节点正常工作的定值功率, pk射频传输功率,pk将决定能否满足速率要求rk(t)≥dk,且该功率根据信道条件不断改变,用b表示节点电池的最大容量,用ek(t)表示时隙t开始时剩余的能量,则下一时隙第k节点的能量表示如下:如下:设当第k个节点被调度更新信息时,要求
[0028]
本发明的有益效果是:
[0029]
1、本发明使用aoi作为指标,可以更好的建模时延敏感性物联网传输问题。而且本发明提出的机器学习与优化相结合的算法可以求解出复杂优化问题,使得理论建模贴近实际问题。
[0030]
2、本发明提出的算法将drl方法与优化算法结合形成分层学习框架,其中外层使用近端策略优化模型(ppo),内层使用优化算法驱动,具有训练高效,学习快速等特点。
[0031]
3、本发明不仅能够将每个节点的aoi控制在较小值,还能保持所有节点平均aoi的方差很小,在公平性和aoi最小化性能上都优于现有技术。
[0032]
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
[0033]
图1是本发明的irs辅助的无线供电驱动的信息更新系统架构图;
[0034]
图2为本发明的算法框架图;
[0035]
图3为本发明的仿真结果展示图;
[0036]
具体实现方式
[0037]
为了使本发明的目的、内容和流程更加清楚,结合附图对本发明具体实施步骤进行详细说明,本发明的具体实施方式不限于此。
[0038]
本发明的作用是通过考虑信道条件、传输要求和能量状态,规划各个节点的上行信息传输和下行能量供应,从而及时、节能地从所有节点收集数据。在本发明的irs辅助无线通信系统中,各项操作以图1(b)所示的1个时隙为单位,每个时隙的工作步骤可以概括如下:
[0039]
工作模式选择:每个时隙开始,ap决定自身的工作模式。工作模式分为下行能量传输和上行信息传输。
[0040]
若ap选择下行能量传输:ap向各节点传输能量,维持系统持续工作。
[0041]
若ap选择上行信息传输:节点向ap发送本地数据,具体包括传感数据和自身状态。
[0042]
整个时隙结束后,通过计算整个系统的平均aoi评价调度策略的好坏。
[0043]
为了具体说明每个步骤的工作细节,设想一个irs辅助的无线供能的网络系统,如图1(a)所示。系统中包含一个基站(ap),ap配有m个天线;一个irs,共n个反射单元;k个独立的传感器节点。并且系统有以下要求:
[0044]
每个传感器节点都仅通过捕获ap发出的射频信号的能量作为能源。
[0045]
每个时隙要么被用于能量传输,要么被用于信息传输,且每个时隙至多允许一个传感器节点进行信息传输。
[0046]
为了协调多节点的数据传输,将传输过程划分成t个相互独立的时隙,如图1 (b)所示。每个时隙的上行信息传输都在irs辅助下进行。令θn(t)∈(0,2π]表示irs第n个反射单元在第t个时隙的相位,于是可以将irs的相位向量表示为则第t个时隙从ap到irs的信道可以用如下矩阵描述:从irs和ap到第k个传感节点的信道向量分别表示为所有信道都均为准静态平坦衰落信道。ap可以在每个时隙开始的训练周期来估计信道信息。
[0047]
(1)工作模式选择
[0048]
由图1(b)可知每个时间帧被分为t个相等的时隙,以一个时隙长度t作为单位长度。每个时隙中,需要决定ap的工作模式,即需要确定是下行的能量传输还是上行的数据传输,此处使用一个二元标志变量ψ0(t)∈0,1表示第t时隙的工作模式。ψ0(t)=1表示ap在时隙t工作于下行能量传输状态,ψ0(t)=0表示工作于上行信息传输状态。类似地我们使用ψk(t)表示第k个传感节点的调度状态,即ψk(t)=1表示第k个节点可以接通与ap的上行链路,允许上传本地的传感数据到ap。为了防止干扰,要求每个时隙至多只有一个节点接通了上行链路,数学表达如下:
[0049][0050]
ap有两种工作模式,可以选择发射射频信号对所有传感节点供能,也可以选择从一个传感节点接收更新信息。用ψ(t)=[ψ0(t),ψ1(t),

,ψk(t)]表示调度策略。显然调度策略取决于传感节点的通信需求、信道条件与能量状态。
[0051]
(2)下行能量传输
[0052]
当ψ0(t)=1,ap到传感节点的下行链路开始能量传输,保证整个系统持续稳定运行。在irs的帮助下,从ap到第k个节点的等效信道可以表示如下:式中是由对角向量θ组成的对角矩阵,表示irs的相位。令表示下行能量传输时的ap波束成形向量。给定ap的传输功率ps,ap的波束成形信号可以用表示,其中表示ap端生成的信号符号。第k个传感节点收到的信号可以表示为式中nk(t)表示均值为0,噪声功率归一化后的高斯噪声。考虑一个线性的能量收集模型,例
如文献[12]、[13]中,第k个节点的能量收集表示为式中η表示能量转化效率。由于无线传播的自身性质,ap传输到不同节点的无线能量,与ap的波束成形w(t)和irs的无源波束成形策略φ(t)紧密相关。可以对联合波束成形策略(w(t),φ(t))进行优化,增强 ap与信道条件差的节点或通信要求高的节点之间的能量传输。
[0053]
(3)上行信息传输
[0054]
根据信道互易性,可以假设上行链路和下行链路符号表示相同。令pk(t)表示第k个节点在第t时隙被调度时的传输功率,即ψk(t)=1时,节点k的功率。则ap 端接收到的信号表示如下:式中sk(t)表示第k个节点的信息符号,向量nk(t)表示ap收到的噪声。不失一般性地,我们可以将噪声功率归一化。于是,ap端的接收信噪比(snr)可以写为:式中w(t)表示ap的接收波束成形向量。通过mrc,我们可以将w(t)与irs辅助信道的相位对齐。于是可以简化snr 为并且第k个节点的输出可以写为 rk(t)=τklog(1+γk),其中τk∈(0,1),表示在单位时隙中的有效传输时间。给定第k个节点的数据大小dk,为了保证成功的更新数据,需要要求rk(t)≥dk。
[0055]
每个时隙中,传感节点的能量消耗包含两个部分,即其中pc表示维持节点正常工作的定值功率,pk表示射频传输功率,pk将决定能否满足速率要求rk(t)≥dk,所以该功率需要根据信道条件不断改变。用b表示节点电池的最大容量,用ek(t)表示时隙t开始时剩余的能量。则下一时隙第k节点的可以能量表示如下:此处为了简化,设综上,当第k个节点被调度更新信息时,要求
[0056]
综上,本发明技术方案针对上述约束构建的优化问题提出一种基于分层强化学习的算法框架,该框架灵活地结合了优化算法和机器学习方法的优势,给出了一种公平的调度策略,不仅保证系统的平均aoi处于较优的水平,而且还具备收敛速度快、收敛结果好的特点。
[0057]
数据包由各个传感节点随机产生,同时数据传向ap的通信受到信道容量限制,所以协调不同的传感节点至关重要。本发明设计的系统所使用的aoi最小化算法可以很好地解决多节点调度问题。
[0058]
各节点整体的信息延迟包括两个部分,即调度等待或调度延迟,以及在无线信道中的传输延迟。对于每个节点调度延迟取决于ap的调度策略ψ(t)。而传输延迟可以通过优化上行链路传输参数得到最小化,具体包括传感节点的传输功率pk(t),以及主动、被动的波束成形策略(w(t),φ(t))。
[0059]
(1)aoi最小化问题建模与算法框架
[0060]
aoi最小化问题,是要求ap调整调度策略,在传感数据产生后及时地收集。令ak(t)表示第k个节点的aoi。当第k个节点被调度接入与ap的上行链路,ap将使用新信息替换旧信息,然后节点更新自己的aoi为ak(t+1)=1。此处假设第k 个传感节点在时隙结束前能够完
成数据传输。如果第k个传感节点没有被调度,则该节点的aoi将更新为ak(t+1)=ak(t)+1。于是aoi的表达式可以如下表示:
[0061][0062]
此处ok(t)∈{0,1}是一个二元指示变量,表示缓冲区的当前状态。当缓冲区非空时ok(t)=1。综上,只有在rk(t)≥dk与同时满足时,上行链路传输可以成功传输,传感器节点k才能完成数据更新。
[0063]
aoi最小化的目标是最小化所有节点的加权平均aoi:
[0064][0065]
式中λk是各个节点的权值,用于模拟系统对不同传感器节点数据的时间敏感度的差异。
[0066]
综上,该问题是一个缺少系统完整信息、信道条件不稳定的复杂混合整数动态规划问题。本发明区别于传统优化方法,将ap设计为一个drl智能体,使用无模型的drl方法对调度策略的控制变量(w,φ,ψ)进行学习。为了解决drl方法在该问题上动作空间过大的问题,本发明提出分层学习的架构,将问题求解分为两部分,算法框架如图2所示。算法主要分为两大部分,即外层使用drl方法的调度策略学习部分,以及内层使用优化方法的策略优化部分:
[0067]
a)drl智能体首先基于每个传感节点的aoi和剩余能量等状态信息,学习调度策略ψ(t)。
[0068]
b)给定外部循环的调度决策ψ(t),内部循环对联合波束成形策略 (w(t),φ(t))的优化将大大简化,可以直接使用基于半定松弛方法 (sdr)的交替优化方法(ao)求解。
[0069]
在外部循环中给定模式选择标志ψ0(t),ap可以选择优化下行链路能量传输,或优化上行链路的信息传输。通过这样的分解,内部循环优化的计算效率可以显著提高。同时组合调度策略的动作空间显著缩小,使得外部循环的学习速度提高。
[0070]
(2)基于分层学习的aoi最小化算法设计
[0071]
本发明提出的算法主要分为外层和内层两部分,外层使用drl方法,内层使用优化方法。该部分将先对各层所需解决的优化问题进行数学建模,然后推导出本发明的算法设计,以说明算法的合理性。
[0072]
a)外层循环drl建模
[0073]
本发明外部循环使用drl方法,通过持续与不确定的网络环境交互学习更新 ap的调度策略ψ,将调度方法优化建立为马尔科夫决策过程(mdp),通过元组 (s,a,r)表征状态、动作、奖励以便进行说明。每次决策迭代中,ap的观察结果 s(t)∈s包括所有传感节点的当前aoi数值和能量状态,分别表示为a(t)= [a1(t),a2(t),

,ak(t)]和e(t)=[e1(t),e2(t),

,ek(t)]。因此定义:
[0074]
系统状态为s(t)=(a(t),e(t)),s(t)∈s。
[0075]
动作空间a包括满足不等式的所有决策a∈ {0,1}
k+1

[0076]
奖励r定义为及时奖励值r(s(t),a(t)),表征在状态s(t)下,执行动作a(t)带来的影响,这里可以采用平均aoi的负值作为奖励值。
[0077]
本发明选用drl中的ppo算法,通过两个结构相似的深度神经网络(dnns) 作为决策网络。决策网络用上一次迭代的参数与环境交互,得到样本,放入经验回放池中。然后学习框架使用小批量方法随机从经验回放池中采样,更新决策网络的参数。并且ppo算法可以进行重要性采样,计算两个策略的概率分布比,然后在dnn训练过程中将概率分布比限制在[1-∈,1+∈]范围,参数∈保证了两个策略的数据分布相似。
[0078]
b)内层循环优化建模
[0079]
内部循环使用优化算法,解决ap下行链路能量传输最大化以及上行链路信息传输功耗最小化,两种情况的优化问题。
[0080]
1)下行链路优化问题建模及简化
[0081]
下行链路传输时ψ0(t)=1,需要尽可能多的传输能源到aoi较差的节点处,以此改善这些节点的传输功率,进而改善该节点的aoi。我们用进而改善该节点的aoi。我们用对第k个节点加权来模拟实际情况不同节点的重要性,该权值与表示aoi 值的ak(t)成正比,与能量ek(t)成反比,用于模拟单个节点对整个系统的aoi的影响。常数ak表示传感节点对能量储存和aoi表现的倾向。并且保证所有节点有足够的能量将数据完全传输到ap,需要满足下列条件:
[0082]
传输速率需要满足不等式:
[0083]
能量预算满足:
[0084]
综上能量传输最大化问题转化为与传输参数相关的优化问题,数学表达如下:
[0085][0086][0087][0088][0089]
显然与联合波束成形策略(w,φ)紧密耦合,在前文的传输速率限制中构成一个非凸优化问题。本发明使用ao框架通过两步对和(w,φ) 进行优化。固定不等式中的信道可以通过ap预估,进而可以得到信道增益问题被简化为凸问题,可以找到传输速率约束、能量预算约束的可行解。
[0090]
2)上行链路优化问题建模及简化
[0091]
上行链路信息传输工作模式下,只有一个节点k在与ap通信,要求最小化第k 个节
点的传输能量消耗并保证传输可以成功,即 rk(t)≥dk。综上能耗最小化问题可以建模如下:
[0092][0093][0094][0095]
由于每个上行链路时隙只需考虑一个节点的速率约束:由于每个上行链路时隙只需考虑一个节点的速率约束:那么ap的接收波束成形w(t)可以与信道向量fk对齐。于是想要提高irs辅助的信道增益||fk||2,只需要优化φ,等效为最大化信道增益:
[0096][0097]
上述问题可以通过sdr方法解决。需要注意,传输控制参数(τk,pk)需要联合优化,使得传感节点能量消耗最小。令ek=τkpk表示信息传输时节点的能量消耗,给定φ后,前文的能耗最小化问题化简为
[0098][0099][0100]
简化后是关于(τk,pk)的凸问题,根据可以容易地得到最优传输功率
[0101]
c)算法内容
[0102]
根据前文的对内外层循环的优化问题建模,此段给出本发明可感知能量与信息年龄的aoi最小化算法。特别说明,算法中drl模块采用了ppo算法更新dnn 参数,dnn的训练采用小批量经验回放方法。算法流程可以概括如下:
[0103]
1)算法开始,随机初始化dnn的权重参数θ。
[0104]
2)每次学习迭代中,每个时隙t,ap需要收集相应观察到的系统状态 (a(t),e(t))
[0105]
3)drl智能体基于旧的决策网络参数执行一个动作a(t)。
[0106]
4)给定外部循环的调度决策ψ(t),ap需要最优化用于下行能量传输或上行信息传输的联合波束成形策略(w(t),φ(t))。
[0107]
5)当内外循环的决策变量都确定后,在无线网络系统中执行决策 (ψ(t),w(t),φ(t)),然后根据所有节点的aoi大小和能量状态得到奖励。
[0108]
本发明对提出的方法进行了仿真验证,在学习效率和实际应用中都优于现有方案。设想在一个三维坐标系中,用(x,y,z)坐标表示ap和irs的位置,分别是 (100,100,0)和(0,0,0),单位是米。传感节点的前两维坐标(x,y)随机分布在一个 [5,35]
×
[-35,35]的矩形区域中,并假设所有节点都分布在z=-20的平面上。假设ap与传感节点之间的直接信道遵循瑞利衰落分布,即其中β
0,k
表示路径损失,其
值通过计算,式中表示ap到第k个节点的距离。irs与节点通信的信道ap与irs之间的信道g(t)也通过类似的方式建模。实验验证涉及到的其它参数以及ppo算法中的参数配置如表1所示。
[0109][0110]
表1参数设置
[0111]
图3(a)将本发明的分层学习算法与传统ppo方法进行了对比,本次仿真中所有决策变量(ψ(t),w(t),φ(t))都通过ppo框架同步更新。由于动作空间太大,图3(a)中可以清晰的看出传统ppo方法无法收敛,而本发明算法中的分层ppo有内层循环的优化模型,为外层循环的强化学习大幅减小了动作空间,使得收敛速度显著提高。考虑到内存循环优化模型的时间复杂度,只需要在训练过程的早期阶段运行优化模型一次,将优化结果缓存为类似的网络结构即可。由于不同的迭代之间可能存在无数个类似的优化求解结果,上述的缓存方案可以避免内层循环不必要的时间消耗。实际测量结果显示,在irs反射单元数量为100情况下,使用gpugeforce rtx 2080ti训练一次本发明算法,只耗费4小时17分钟。
[0112]
图3(b)展示了不同算法下,随着传感节点增加,系统平均aoi的变化,图中算法1为本发明设计的算法,下同。对于不同算法进行仿真时,ap、irs的位置保持不变。由图可以看出,当节点数目少时,三种算法的对应的aoi都很小。随着节点增加,三种算法对应的aoi都呈上升趋势,但本发明提出的算法总能保持最低的aoi。证明了本发明能自适应处理数据随机到达的情况,并且表现出色。
[0113]
图3(c)对比了不同调度策略的公平性。该仿真结果以所有节点的平均aoi 作为对比指标,平均aoi计算方式为同时将所有节点的权重设为相同值,保证
了对比的公平性。由图可以看出,本发明的算法能够实现将所有节点平均aoi控制在较小值。并且不同的节点平均aoi相近,证明了本发明提出的算法得到的调度决策有良好的公平性。
[0114]
图3(d)展示了随着irs尺寸改变,系统平均aoi和节点能量收集能力的变化情况。逐渐将irs反射单元的数量从20增加到100,使用平均能量收集表征节点的能力捕获能力,并将所有时隙用于下行能量传输,再假设所有节点电池容量无限,以及排除了调度决策的随机性,使仿真对能量收集能力的结论更可靠。随着反射元件增加,irs的相位调控更加灵活,精度更高,使得传输成功概率得到提升。由图可见随着irs反射元件增加,能量收集能力有明显提高,平均aoi也有显著下降。然而当反射单元数目增加到一定值后,aoi不会再随之降低,标志着当irs增大到足够大后,aoi不再受信道质量和传输成功率的影响,而与ap的调度延迟密切有关。
[0115]
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验得到的技术方案,皆应在由权利要求书所确定的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1