一种基于Q学习的可穿戴设备发射功率控制方法与流程

文档序号:14847395发布日期:2018-06-30 16:52阅读:来源:国知局
一种基于Q学习的可穿戴设备发射功率控制方法与流程

技术特征:

1.一种基于Q学习的可穿戴设备发射功率控制方法,其特征在于,包括以下步骤:

S1.均匀地将发射功率p划分为M个功率等级,取值[1,2,…,M];与可穿戴设备进行通信的接收设备称为信息接收端,设备每经L秒调整一次发射功率,记为一个时隙ts;

S2.对于第k个时隙记发射功率为p(k)

在整个时隙中,可穿戴设备执行以下操作:

根据时隙内与信息接收端的通信情况,测定时隙中的平均发送时延,记为T(k),T(k)根据发送时延的长短划分为Nt个等级,取值[1,2,…,Nt];测量脉搏、血压用户身体状态,计算发送信息重要性,记为R(k),R(k)与用户身体状态异常程度正相关,划分为Nr个等级,取值[1,2,…,Nr];

在进入时隙时,可穿戴设备执行以下操作:

发送信号强度请求至信息接收端,接收端收到此请求时测定当前的接收信号强度,记为G(k),并将信号强度信息反馈至可穿戴设备,G(k)根据信号强弱划分为Ng个等级,取值[1,2,…,Ng];检测设备剩余电量情况,记为E(k),E(k)的取值根据占总电量百分比均匀划分为Ne个等级,取值[1,2,…,Ne];

在整个时隙中,信息接收端计算所接受信息的误码率m(k),在时隙将要结束时告知可穿戴设备,

对于时隙取信息量集合,s(k)=[T(k-1),G(k),R(k-1),E(k)];

S3.可穿戴设备在工作过程中,每个时隙结束时均计算系统效益,计算时隙的系统效益U(s(k),p(k))的方法如下:

其中ρ、λ、β为调节因子,用于调节设备各方面工作效益的所占比重;

S4.可穿戴设备使用Q学习算法,在工作过程中对发射功率p做出逐时隙的控制,包括以下步骤:

S401.计算集合s(k)的取值数量N=NtNrNgNe,而发射功率p的取值数量为M,初始化一个大小为N×M的全零矩阵作为Q矩阵,并通过Q函数Q(s(k),p(k))进行任意时隙的s(k),p(k)对Q矩阵中Q值的映射;根据实际需求,预设概率值ε(0<ε<1)控制发射功率的选择,预设参数α(0<α<1)和δ(0<δ<1)调节Q学习的速率和探索性;

S402.可穿戴设备开始工作的初始时隙记为此时隙随机选择发射功率p(1);对于第k个时隙在进入时隙时,设备根据步骤S2所述方法观测得到信息量集合s(k),使用Q函数获取Q矩阵中s(k)对应的Q值列Q(s(k),p);

S403.在时隙结束时,按照步骤S2所述过程得到下一时隙的工作状态s(k+1),根据步骤S3所述方法计算当前系统效益U(s(k),p(k)),使用如下公式对Q矩阵进行更新:

Q(s(k),p(k))=(1-α)Q(s(k),p(k))+α(U(s(k),p(k))+δmax Q(s(k+1),p))

S403.重复步骤S402至S403所述过程。

2.根据权利要求1所述的一种基于Q学习的可穿戴设备发射功率控制方法,其特征在于,在所述的S4步骤中,对于可穿戴设备开始工作的初始时隙无法得到工作状态s(1),这一时隙的发射功率p(1)随机选择。

3.根据权利要求1所述的一种基于Q学习的可穿戴设备发射功率控制方法,其特征在于,设备在调整发射功率时,有ε的概率选择Q(s(k),p)中的某最大值maxQ(s(k),p)对应的发射功率作为时隙的发射功率p(k),即p(k)∈argmaxQ(s(k),p);否则选择随机的某个非maxQ(s(k),p)对应的发射功率作为p(k)

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1