一种基于Q学习的可穿戴设备发射功率控制方法与流程

文档序号：14847395发布日期：2018-06-30 16:52阅读：来源：国知局

技术特征：

1.一种基于Q学习的可穿戴设备发射功率控制方法，其特征在于，包括以下步骤：

S1.均匀地将发射功率p划分为M个功率等级，取值[1,2,…,M]；与可穿戴设备进行通信的接收设备称为信息接收端，设备每经L秒调整一次发射功率，记为一个时隙ts；

S2.对于第k个时隙记发射功率为p^(k)；

在整个时隙中，可穿戴设备执行以下操作：

根据时隙内与信息接收端的通信情况，测定时隙中的平均发送时延，记为T^(k)，T^(k)根据发送时延的长短划分为Nt个等级，取值[1,2,…,Nt]；测量脉搏、血压用户身体状态，计算发送信息重要性，记为R^(k)，R^(k)与用户身体状态异常程度正相关，划分为Nr个等级，取值[1,2,…,Nr]；

在进入时隙时，可穿戴设备执行以下操作：

发送信号强度请求至信息接收端，接收端收到此请求时测定当前的接收信号强度，记为G^(k)，并将信号强度信息反馈至可穿戴设备，G^(k)根据信号强弱划分为Ng个等级，取值[1,2,…,Ng]；检测设备剩余电量情况，记为E^(k)，E^(k)的取值根据占总电量百分比均匀划分为Ne个等级，取值[1,2,…,Ne]；

在整个时隙中，信息接收端计算所接受信息的误码率m^(k)，在时隙将要结束时告知可穿戴设备，

对于时隙取信息量集合，s^(k)＝[T^(k-1),G^(k),R^(k-1),E^(k)]；

S3.可穿戴设备在工作过程中，每个时隙结束时均计算系统效益，计算时隙的系统效益U(s^(k),p^(k))的方法如下：

其中ρ、λ、β为调节因子，用于调节设备各方面工作效益的所占比重；

S4.可穿戴设备使用Q学习算法，在工作过程中对发射功率p做出逐时隙的控制，包括以下步骤：

S401.计算集合s^(k)的取值数量N＝NtNrNgNe，而发射功率p的取值数量为M，初始化一个大小为N×M的全零矩阵作为Q矩阵，并通过Q函数Q(s^(k),p^(k))进行任意时隙的s^(k)，p^(k)对Q矩阵中Q值的映射；根据实际需求，预设概率值ε(0<ε＜1)控制发射功率的选择，预设参数α(0<α<1)和δ(0<δ<1)调节Q学习的速率和探索性；

S402.可穿戴设备开始工作的初始时隙记为此时隙随机选择发射功率p⁽¹⁾；对于第k个时隙在进入时隙时，设备根据步骤S2所述方法观测得到信息量集合s^(k)，使用Q函数获取Q矩阵中s^(k)对应的Q值列Q(s^(k),p)；

S403.在时隙结束时，按照步骤S2所述过程得到下一时隙的工作状态s^(k+1)，根据步骤S3所述方法计算当前系统效益U(s^(k),p^(k))，使用如下公式对Q矩阵进行更新：

Q(s^(k),p^(k))＝(1-α)Q(s^(k),p^(k))+α(U(s^(k),p^(k))+δmax Q(s^(k+1),p))

S403.重复步骤S402至S403所述过程。

2.根据权利要求1所述的一种基于Q学习的可穿戴设备发射功率控制方法，其特征在于，在所述的S4步骤中，对于可穿戴设备开始工作的初始时隙无法得到工作状态s⁽¹⁾，这一时隙的发射功率p⁽¹⁾随机选择。

3.根据权利要求1所述的一种基于Q学习的可穿戴设备发射功率控制方法，其特征在于，设备在调整发射功率时，有ε的概率选择Q(s^(k),p)中的某最大值maxQ(s^(k),p)对应的发射功率作为时隙的发射功率p^(k)，即p^(k)∈argmaxQ(s^(k),p)；否则选择随机的某个非maxQ(s^(k),p)对应的发射功率作为p^(k)。

完整全部详细技术资料下载

当前第2页1 2 3