一种反向散射辅助无线供能通信系统吞吐量优化方法

文档序号:27381091发布日期:2021-11-15 20:03阅读:166来源:国知局
一种反向散射辅助无线供能通信系统吞吐量优化方法

1.本技术属于无线供能通信技术领域,尤其涉及一种反向散射辅助无线供能通信系统吞吐量优化方法。


背景技术:

2.射频供能的感知节点主要有两种数据传输方式:反向散射和无线供能通信。无线供能通信捕获环境中存在的射频能量存储在电池中,然后主动生成用于信息传输的射频载波信号,但当周围射频信号不足时需要很长一段时间才能有足够的能量用于数据传输。而反向散射通信无需主动生成载波,而是发送端将一系列数字信号映射到天线处的射频反向散射波形上,通过调整天线的负载阻抗来产生与原始信号不同的波形,但传输速率相对较小,传输距离较短,且需要稳定射频源才能正常工作。混合通信结合两种通信方式的优点,使得射频供能的感知节点数据传输能适用于更多的场景。
3.通过改变发送端不同模式的工作时间、主动通信的发射功率和数据压缩比,可以达到系统长期平均吞吐量的最大化。然而现有技术的方法,要么部署的节点只具备一种通信方式,对环境适应能力较差;要么并未考虑数据采样速率,不适用感知网络;要么所研究网络吞吐量为瞬时最大化问题,没有考虑数据采样能耗问题,不能满足无源感知网络长期平均吞吐量最大化的需求,以及采样能耗不可忽略等因素。此外,在一些场景(如环境监测)中,由于采样速率远高于环境变化速度,采集所得数据之间存在一定的时间相关性,而在混合通信的现有工作中还没有对数据压缩这方面的考虑。


技术实现要素:

4.本技术的目的是提供一种反向散射辅助无线供能通信系统吞吐量优化方法,以克服已有方法忽略了感知节点的采样能耗、未考虑感知数据相关性,以及无法满足长期平均吞吐量优化等不足。
5.为了实现上述目的,本技术技术方案如下:
6.一种反向散射辅助无线供能通信系统吞吐量优化方法,所述无线供能通信系统包括环境射频源、发射机和接收机,所述发射机上配置有传感器,所述反向散射辅助无线供能通信系统吞吐量优化方法,包括:
7.按照预设的时间块t,设置环境射频源在每个时间快t内开启αt时间,关闭(1

α)t时间,α为占空比因子;
8.将优化反向散射辅助的无线供能通信系统长期平均吞吐量作为一个马尔可夫决策过程,所述马尔可夫决策过程包括系统状态s,动作a和奖励函数r三要素,采用深度q学习算法来获取马尔可夫决策过程对应的最优在线策略;
9.在所述环境射频源开启时,发射机按照最优在线策略执行,其中:
10.当环境射频源开启时,发射机执行:
11.从射频信号中捕获能量,传感器采样数据,将多余能量存储;
12.或,通过反向散射方式采样和传输数据;
13.当环境射频源关闭时,发射机消耗存储能量执行主动传输或传感器采样,直至能量耗尽进入休眠模式。
14.进一步的,第n个时间块开始时的系统状态s
(n)
包括信道增益幅值的平方h
(n)
、发射机的剩余能量b
(n)
和缓存数据量q
(n)
,记为s
(n)
={h
(n)
,b
(n)
,q
(n)
};第n个时间块采取的动作a
(n)
包括发射机在环境射频源开启时的能量捕获时间t
h(n)
、反向散射时间t
b(n)
、环境射频源关闭时发射机进行主动传输的时间t
a(n)
,主动传输的发射功率p
t(n
)及数据压缩比c
(n)
,记为a
(n)
={t
h(n)
,t
b(n)
,t
a(n)
,p
t(n)
,c
(n)
};在状态s
(n)
下采取动作a
(n)
得到的系统奖励r
(n)
为:
[0015][0016]
其中,r
b
为反向散射传输速率,q

(n)
是经过αt时间后剩余的数据量,q
th
是触发主动传输的缓存数据量阈值,f(c
(n)
)是误差容忍率函数,r
a(n)
为主动传输速率,分别如下公式计算得到:
[0017][0018]
f(c
(n)
)=1

(p1c
(n)2
+p2c
(n)
+p3)δ2/(c
(n)
+p4)
ꢀꢀꢀꢀ
(3);
[0019][0020]
其中,r
s
是传感器采样速率,p1、p2、p3、p4均为常数,δ是叠加到传感器测量信号上的高斯白噪声标准差,w是信道带宽,n0是噪声谱密度,d
t,r
是发射机和接收机之间的距离,β是路径损耗指数。
[0021]
进一步的,所述第n个时间块采取的动作a
(n)
的限制条件表示如下:
[0022][0023][0024][0025][0026][0027][0028][0029][0030]
c
(n)
∈{k/n
a
|k=0,1,...,n
a
,n
a
∈z}
ꢀꢀꢀꢀ
(13)
[0031]
其中,式(5)(6)是时间约束,式(7)(8)(9)是数据量约束,式(10)是能量约束,式(11)(12)(13)分别是将时间、功率和压缩比离散化后的取值约束,p
min
和p
max
分别是发射机进行主动传输时最小功率和最大功率,b
max
是发射机电池最大容量,q
max
是发射机缓存容量,p
s
是传感器感知功耗,p
t(n)
为0表示传感器进行感知不传输数据,c
(n)
=0表示没有数据在传输,c
(n)
=1时表示没有进行数据压缩,n
t
和n
a
分别是时间离散等级和压缩率离散等级,δp
t
是功率离散化步长,式(9)中1{x}表示当括号内表达式x为真时取1,否则取0,b
off(n)
是环境射频源关闭时发射机消耗的能量,为主动传输或感知消耗的能量,由式(14)计算得到:
[0032][0033]
进一步的,所述深度q学习算法对应的神经网络包括用于训练的基础网络和用于计算的目标网络,训练所述神经网络包括:
[0034]
步骤2.1、初始化q网络及其训练参数;
[0035]
步骤2.1.1、初始化基础网络参数ω1、目标网络参数ω2,令两组参数相等;
[0036]
步骤2.1.2、初始化经验池,令其大小为l
m

[0037]
步骤2.1.3、初始化训练参数,包括贪婪策略因子ε、学习率η、折扣因子γ、神经网络权重赋值间隔n
w
、样本选择间隔n
b
、选择样本数n
s
和每次训练的最大迭代次数k
max

[0038]
步骤2.2、迭代学习最优策略;
[0039]
步骤2.2.1、随机选择一个状态s作为初始状态输入基础网络,经过卷积层的特征提取和全连接层,得到所有动作对应的q值;
[0040]
步骤2.2.2、根据ε贪婪策略选择动作,所述ε贪婪策略是以ε的概率随机选择一个动作,以1

ε的概率选取q值最大的动作,ε在算法迭代过程中不断降低,直至为0,实现算法在深度与广度上的延伸;
[0041]
步骤2.2.3、在当前系统状态s执行相应动作a,到达下一状态s',获得系统奖励值r;
[0042]
步骤2.2.4、将当前状态、所选动作、奖励值与下一状态作为一组序列样本(s,a,r,s')存储到经验池中;
[0043]
步骤2.2.5、每隔n
b
时间,从经验池中采样n
s
组样本来训练基础q网络,将样本分别输入基础网络和目标网络,得到实际q值和目标q值,根据两组q值计算基础q网络的损失函数,为最小化损失函数利用梯度下降法更新基础网络参数ω1;
[0044]
步骤2.2.6、每隔n
w
时间,更新目标网络参数ω2,令ω2=ω1;
[0045]
步骤2.2.7、将下一状态作为当前状态重复训练,直至到达预设的迭代次数k
max

[0046]
进一步的,所述发射机在主动传输和反向散射传输之前都采用轻量级数据压缩方案对感知数据采用固定压缩比进行压缩。
[0047]
进一步的,所述发射机在主动传输和反向散射传输之前都采用轻量级数据压缩方案对感知数据按照所述压缩比进行压缩。
[0048]
本技术提出的一种反向散射辅助无线供能通信系统吞吐量优化方法,基于深度q学习获得模式切换、时间分配、功率控制和数据压缩率选择的在线策略,适用于使用反向散射辅助无线供能通信的无源感知节点采集数据并传输的场景。本技术的有益效果主要表现在:适用于具有反向散射无线电的无源感知通信系统采样并传输数据的应用场景,根据信道状态、节点电池电量和缓存数据量,基于深度q学习获得模式切换、时间分配、功率控制和数据压缩率选择的在线策略,能够适应信道状态、能量捕获条件和数据缓存的动态变化,可有效提高系统的长期平均有效吞吐量。
附图说明
[0049]
图1为本技术反向散射辅助无线供能通信系统吞吐量优化方法流程图;
[0050]
图2为本技术发射机工作模式示意图;
[0051]
图3为射频能量源占空比对四种通信方式吞吐量的影响仿真结果图;
[0052]
图4为不同触发主动传输的缓存数据量阈值q
th
对四种通信方式吞吐量的影响仿真结果图。
具体实施方式
[0053]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本技术,并不用于限定本技术。
[0054]
参照图1~图2,一种反向散射辅助无线供能通信系统吞吐量优化方法,包括以下步骤:
[0055]
步骤s1、按照预设的时间块t,设置环境射频源在每个时间快t内开启αt时间,关闭(1

α)t时间,α为占空比因子。
[0056]
本技术设置一个时长t,将时间分为一个个时长为t的时间快,也称为时间快t。设置环境射频源在每个时间快t内以占空比模式工作,α为占空比因子,α∈(0,1]。占空比模式即开启αt时间,关闭(1

α)t时间。可以先开启αt时间,然后关闭(1

α)t时间;或者先关闭(1

α)t时间,然后再开启αt时间。
[0057]
本一个实施例中,t=1s,α∈{0.5,0.6,0.7,0.8,0.9,1}。
[0058]
步骤s2、将优化反向散射辅助的无线供能通信系统长期平均吞吐量作为一个马尔可夫决策过程,所述马尔可夫决策过程包括系统状态s,动作a和奖励函数r三要素,采用深度q学习算法来获取马尔可夫决策过程对应的最优在线策略。
[0059]
本技术将优化反向散射辅助的无线供能通信系统长期平均吞吐量作为一个马尔可夫决策过程,马尔可夫决策过程包括系统状态s,动作a和奖励函数r三要素。并用深度q学习算法来执行马尔可夫决策过程,深度q学习算法是借助神经网络的知识来表征状态的动作价值函数,这里的神经网络可以选用dnn,cnn或者rnn。
[0060]
在一个实施例中,马尔可夫决策过程的三要素系统状态s,动作a和奖励函数r具体为:第n个时间块开始时的系统状态s
(n)
包括信道增益幅值的平方h
(n)
、发射机的剩余能量b
(n)
和缓存数据量q
(n)
,记为s
(n)
={h
(n)
,b
(n)
,q
(n)
};第n个时间块可采取的动作a
(n)
包括发射机在环境射频源开启时的能量捕获时间t
h(n)
、反向散射时间t
b(n)
、环境射频源关闭时发射机进行主动传输的时间t
a(n)
,主动传输的发射功率p
t(n)
及数据压缩比c
(n)
,记为a
(n)
={t
h(n)
t
b(n)
t
a(n)
,p
t(n)
c
(n)
};在状态s
(n)
下采取动作a
(n)
得到的系统奖励r
(n)
为:
[0061][0062]
其中,r
b
为反向散射传输速率,只与发射机的电路构成相关,q

(n)
是经过αt时间后剩余的数据量,q
th
是触发主动传输的缓存数据量阈值,f(c
(n)
)是与压缩比相关的误差容忍率函数,r
a(n)
为主动传输速率,分别由公式(2)(3)(4)计算得到:
[0063][0064]
f(c
(n)
)=1

(p1c
(n)2
+p2c
(n)
+p3)δ2/(c
(n)
+p4)
ꢀꢀꢀ
(3);
[0065][0066]
其中,r
s
是传感器采样速率,p1、p2、p3、p4均为与采用的压缩算法相关的常数,δ是叠加到传感器感测信号上的高斯白噪声标准差,w是信道带宽,n0是噪声谱密度,d
t,r
是发射机和接收机之间的距离,β是路径损耗指数。
[0067]
再进一步,第n个时间块采取的动作a
(n)
的限制条件表示如下:
[0068][0069][0070][0071][0072][0073][0074][0075][0076]
c
(n)
∈{k/n
a
|k=0,1,...,n
a
,n
a
∈z}
ꢀꢀꢀ
(13)
[0077]
其中,式(5)(6)是时间约束,式(7)(8)(9)是数据量约束,式(10)是能量约束,式(11)(12)(13)分别是将时间、功率和压缩比离散化后的取值约束,p
min
和p
max
分别是发射机进行主动传输时可设置的最小功率和最大功率,b
max
是发射机电池最大容量,q
max
是发射机缓存容量,p
s
是传感器感知功耗,p
t(n)
为0表示传感器进行感知不传输数据,c
(n)
=0表示没有数据在传输,c
(n)
=1时表示没有进行数据压缩,n
t
和n
a
分别是时间离散等级和压缩比离散等级,δp
t
是功率离散化步长,式(9)中1{x}表示当括号内表达式x为真时取1,否则取0,b
off(n)
是环境射频源关闭时发射机消耗的能量,为主动传输或感知消耗的能量,由式(14)计算得到:
[0078][0079]
在一个实施例中,采用r
b
=5kbps,p
h
=2mw,信道状态服从瑞利分布h
(n)
≥0,b
max
=3mj,q
max
=5kbp,q
th
=0.5q
max
,r
s
=3.2kbps,p
s
=1mw,p
max
=12mw,p
min
=6mw,p
s
=2mw,w=2khz,n0=5*10

17
w/hz,β=2.8,δp
t
=1mw。
[0080]
需要说明的是,上述马尔可夫决策过程的三要素系统状态s,动作a和奖励函数r只是一种具体的实现方式,本领域技术人员可以在系统状态中加入其它可能会用到的参数,例如还可以加入传感器和环境射频源的参数,如环境射频源的功率等,相应的动作和奖励函数也可以相应的调整,本技术不限于马尔可夫决策过程的三要素系统状态s,动作a和奖励函数r的具体组成形式。
[0081]
在另一个实施例中,本技术采用卷积神经网络设计深度q学习的神经网络,深度q
学习的神经网络包括用于训练的基础网络和用于计算的目标网络,通过特征提取实现连续状态的函数拟合过程,构建两个相同网络,可打乱状态间的相关性,提高算法的稳定性。基于所建马尔可夫决策过程,利用深度q学习算法,使智能体和环境交互进行迭代学习。
[0082]
本实施例训练所述神经网络包括如下步骤:
[0083]
步骤2.1、初始化q网络及其训练参数;
[0084]
步骤2.1.1、初始化基础网络参数ω1、目标网络参数ω2,令两组参数相等;
[0085]
步骤2.1.2、初始化经验池,令其大小为l
m

[0086]
步骤2.1.3、初始化训练参数,包括贪婪策略因子ε、学习率η、折扣因子γ、神经网络权重赋值间隔n
w
、样本选择间隔n
b
、选择样本数n
s
和每次训练的最大迭代次数k
max

[0087]
步骤2.2、迭代学习最优策略;
[0088]
步骤2.2.1、随机选择一个状态s作为初始状态输入基础网络,经过卷积层的特征提取和全连接层,得到所有动作对应的q值;
[0089]
步骤2.2.2、根据ε贪婪策略选择动作,所述ε贪婪策略是以ε的概率随机选择一个动作,以1

ε的概率选取q值最大的动作,ε在算法迭代过程中不断降低,直至为0,实现算法在深度与广度上的延伸;
[0090]
步骤2.2.3、在当前系统状态s执行相应动作a,到达下一状态s',获得系统奖励值r;
[0091]
步骤2.2.4、将当前状态、所选动作、奖励值与下一状态作为一组序列样本(s,a,r,s')存储到经验池中;
[0092]
步骤2.2.5、每隔n
b
时间,从经验池中采样n
s
组样本来训练基础q网络,将样本分别输入基础网络和目标网络,得到实际q值和目标q值,根据两组q值计算基础q网络的损失函数,为最小化损失函数利用梯度下降法更新基础网络参数ω1;
[0093]
步骤2.2.6、每隔n
w
时间,更新目标网络参数ω2,令ω2=ω1;
[0094]
步骤2.2.7、将下一状态作为当前状态重复训练,直至到达预设的迭代次数k
max

[0095]
在本实施例中,所述步骤3.2.5中的实际q值是基础q网络的输出值q(s
(n)
,a
(n)
;ω1),目标q值用q
tar
表示,表示为:
[0096][0097]
其中,q(s
(n+1)
,a
(n+1)
;ω2)是目标q网络的输出,a是所有动作的集合。训练的目的是为了最小化损失函数l(ω1),表示为:
[0098]
l(ω1)=e[|q
tar

q(s
(n)
,a
(n)
;ω1)|2]
ꢀꢀꢀ
(16)
[0099]
梯度下降更新参数ω1的方法为:
[0100][0101]
其中表示q(s
(n)
,a
(n)
;ω1)的梯度,即q(s
(n)
,a
(n)
;ω1)对a
(n)
的导函数。本实施例中,l
m
=500,ε初始值设置为1,并在每次迭代过程中以0.995的相关系数降低直至o.1,η=0.001,γ=0.9,n
w
=200,n
s
=32,n
b
=5,k
max
=1000。
[0102]
在训练好深度q学习算法对应的神经网络之后,就可以采用训练好的神经网络来得到马尔可夫决策过程对应的最优在线策略,最优在线策略也就是与输入到神经网络的系统状态对应的最优动作。例如将第n个时间块开始时的系统状态s
(n)
输入到基础网络,基础
网络输出的最优在线策略作为第n个时间块采取的动作a
(n)

[0103]
步骤s3、在所述环境射频源开启时,发射机按照最优在线策略执行,其中:
[0104]
当环境射频源开启时,发射机执行:
[0105]
从射频信号中捕获能量,传感器采样数据,将多余能量存储;
[0106]
或,通过反向散射方式采样和传输数据;
[0107]
当环境射频源关闭时,发射机消耗存储能量执行主动传输或传感器采样,直至能量耗尽进入休眠模式。
[0108]
具体的,在射频源开启时,发射机执行以下两个操作之一:一是从射频信号中捕获能量,传感器采样数据,将多余能量存储,二是通过反向散射方式采样和传输数据;当射频源关闭时,发射机消耗存储能量执行以下两个操作之一:一是主动传输,直至数据传完或能量耗尽,进入休眠模式;二是传感器采样,直至能量耗尽进入休眠模式。
[0109]
本技术将当前的信道状态(即信道增益幅值的平方)、发射机的剩余能量和缓存数据量输入到基础网络中,基础网络输出发射机在射频源开启时的能量捕获时间t
h
和反向散射时间t
b
,射频源关闭时节点进行主动传输的时间t
a
,主动传输的发射功率p
t
及数据压缩比c,那么,在射频源开启时,发射机持续t
h
时间从射频信号中捕获能量并进行传感器采样数据,将多余能量存储,持续t
b
时间通过反向散射方式采样和以压缩比c将数据压缩后传输;当射频源关闭时,发射机消耗存储能量执行以下两个操作之一:一是以压缩比c对缓存数据进行压缩后以发射功率p
t
持续t
a
时间进行主动传输,若p
t
为0或c为0则持续t
a
时间进行传感器采样,直至能量耗尽进入休眠模式。
[0110]
在另一个实施例中,本技术发射机在每次传输,包括主动传输和反向散射传输之前都采用轻量级数据压缩方案对感知数据进行压缩。
[0111]
需要说明的是,马尔可夫决策过程三要素系统状态s,动作a和奖励函数r并非只有前面所列出的一种方式,例如动作a中就可以不包括数据压缩比。此时,在对感知数据进行压缩时,可以采用固定的压缩比进行压缩。在对感知数据进行压缩时,可以采用本领域比较成熟的任何一种轻量级数据压缩方案(ltc,lightweight temporal compression)进行压缩,这里不再赘述。
[0112]
而在第n个时间块采取的动作a
(n)
包括数据压缩比c
(n)
时,发射机在主动传输和反向散射传输之前都采用轻量级数据压缩方案对感知数据按照所述压缩比进行压缩。
[0113]
本技术还通过实验进行效果验证,实验采用python3.8实现,在intel core i5 2.60ghz的cpu,8g内存的计算机上运行。
[0114]
如图3所示,不同射频能量源占空比下四种通信方式的最大长期平均吞吐量性能比较,分别为本技术提出的反向散射辅助无线供能通信的混合通信方式(htc)、纯反向散射通信方式(btc)、纯无线供能通信方式(atc)和未进行数据压缩的混合通信(ht),可以看出本技术提出的混合通信方式吞吐量性能始终优于其他三种。图4给出了传输数据阈值对不同通信方式的影响,可以看出纯无线供能通信的吞吐量性能容易受阈值变化的影响,而混合通信具有反向散射通信功能,在阈值变化时具有稳定性,且吞吐量在q
th
为0.8q
max
时相对于无线供能通信提高了15%。综上,本技术方法是合理有效的。
[0115]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来
说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1