一种基于Q学习的可穿戴设备发射功率控制方法与流程

文档序号:14847395发布日期:2018-06-30 16:52阅读:219来源:国知局

本发明涉及机器学习和可穿戴设备功率控制领域,更具体地,涉及一种基于Q学习的可穿戴设备发射功率控制方法。



背景技术:

由于体积,计算能力,内存和电池容量的限制,可穿戴设备的传输单元的能耗决定了其续航能力,其发射信号的功率控制是决定其总能耗的核心环节之一。若发射功率过低,传感信号的传输时延会增长,甚至信息无法送达。可穿戴设备所需要上传的不同类型的传感信息有不同的传输时延要求,其数据的重要性也不同。因此,可穿戴设备的发射功率控制需要在满足各类传感信息的传输时延等服务质量的前提下,降低总发射能耗。

由于可穿戴设备与智能手机等接收机之间的距离、周边无线传输环境,和接收机处理时间动态变化,难以被可穿戴设备提前准确地预测,因此,我们研究在不知这些信息时,可穿戴设备的功率控制。

论文《Deriving a Near-optimal Power Management Policy Using Model-free ReinforcementLearning andBayesian Classification》与《Q-LearningBasedPower ControlAlgorithmforD2D Communication》分别提出的基于强化学习和基于Q学习的功率控制方法,并非针对可穿戴设备设计。其功率控制未能考虑可穿戴设备数据传输过程中的传输时延、待传数据重要性等信息,无法直接应用于可穿戴设备。

中国专利CN104871604A提供的功率控制方法,需要接收机测量反馈SINR(信号干扰噪声比)、SNR(信噪比)、接收信号功率密度和接收器信号功率等信息。然而可穿戴设备难以及时获取这些信息量,因此不能直接应用。

中国专利CN103889040A提供的发射控制方法,从辐射较大对人体的负面影响方面进行考虑,检测使用者身体指标进行功率控制,与本发明所述可穿戴设备发射功率控制问题有相似之处。但是,上述发明仅以满足基本通信质量为要求控制发射功率,可能出现传输时延高,信息误码率高等问题。



技术实现要素:

本发明的目的在于克服现有技术的不足,提供一种基于Q学习的可穿戴设备发射功率控制方法,使用Q学习算法对可穿戴设备进行发射功率控制,在确定发射功率时,兼顾设备发射能力与能耗问题这两个方面,优化设备的整体表现,有效避免了发送功率过低导致的高传输时延、高误码率等工作表现问题。

为解决上述问题,本发明提供的技术方案为:一种基于Q学习的可穿戴设备发射功率控制方法,包括以下步骤:

S1.均匀地将发射功率p划分为M个功率等级,取值[1,2,…,M];与可穿戴设备进行通信的接收设备称为信息接收端,设备每经L秒调整一次发射功率,记为一个时隙ts;

S2.对于第k个时隙记发射功率为p(k)

在整个时隙中,可穿戴设备执行以下操作:

根据时隙内与信息接收端的通信情况,测定时隙中的平均发送时延,记为T(k),T(k)根据发送时延的长短划分为Nt个等级,取值[1,2,…,Nt];测量脉搏、血压用户身体状态,计算发送信息重要性,记为R(k),R(k)与用户身体状态异常程度正相关,划分为Nr个等级,取值[1,2,…,Nr];

在进入时隙时,可穿戴设备执行以下操作:

发送信号强度请求至信息接收端,接收端收到此请求时测定当前的接收信号强度,记为G(k),并将信号强度信息反馈至可穿戴设备,G(k)根据信号强弱划分为Ng个等级,取值[1,2,…,Ng];检测设备剩余电量情况,记为E(k),E(k)的取值根据占总电量百分比均匀划分为Ne个等级,取值[1,2,…,Ne];

在整个时隙中,信息接收端计算所接受信息的误码率m(k),在时隙将要结束时告知可穿戴设备,

对于时隙取信息量集合,s(k)=[T(k-1),G(k),R(k-1),E(k)];

在此步骤中,第k个时隙的平均发送时延T(k)与发送信息重要性R(k)的观测与计算在时隙结束时才能完成。因此,第k个时隙开始时得到的工作状态s(k)中,平均发送时延与发送信息重要性均为第k-1个时隙所得,记为T(k-1)与R(k-1)

S3.可穿戴设备在工作过程中,每个时隙结束时均计算系统效益,计算时隙的系统效益U(s(k),p(k))的方法如下:

其中ρ、λ、β为调节因子,用于调节设备各方面工作效益的所占比重,应当根据可穿戴设备的实际技术要求指标进行取值;

S4.可穿戴设备使用Q学习算法,在工作过程中对发射功率p做出逐时隙的控制,包括以下步骤:

S401.计算集合s(k)的取值数量N=NtNrNgNe,而发射功率p的取值数量为M,初始化一个大小为N×M的全零矩阵作为Q矩阵,并通过Q函数Q(s(k),p(k))进行任意时隙的s(k),p(k)对Q矩阵中Q值的映射;根据实际需求,预设概率值ε(0<ε<1)控制发射功率的选择,预设参数α(0<α<1)和δ(0<δ<1)调节Q学习的速率和探索性;

S402.可穿戴设备开始工作的初始时隙记为此时隙随机选择发射功率p(1);对于第k个时隙在进入时隙时,设备根据步骤S2所述方法观测得到信息量集合s(k),使用Q函数获取Q矩阵中s(k)对应的Q值列Q(s(k),p);

S403.在时隙结束时,按照步骤S2所述过程得到下一时隙的工作状态s(k+1),根据步骤S3所述方法计算当前系统效益U(s(k),p(k)),使用如下公式对Q矩阵进行更新:

Q(s(k),p(k))=(1-α)Q(s(k),p(k))+α(U(s(k),p(k))+δmaxQ(s(k+1),p))

S403.重复步骤S402至S403所述过程。

进一步地,在所述的S4步骤中,对于可穿戴设备开始工作的初始时隙无法得到工作状态s(1),这一时隙的发射功率p(1)随机选择。

进一步地,设备在调整发射功率时,有ε的概率选择Q(s(k),p)中的某最大值maxQ(s(k),p)对应的发射功率作为时隙的发射功率p(k),即p(k)∈argmaxQ(s(k),p);否则选择随机的某个非maxQ(s(k),p)对应的发射功率作为p(k)

由于可穿戴设备与智能手机等接收机之间的距离、周边无线传输环境,和接收机处理时间动态变化,难以被可穿戴设备提前准确地预测,本发明采用Q学习算法进行发送功率控制。Q学习是一种无模型的强化学习算法,它无需探求系统中的状态量对系统效益的具体影响,通过马尔科夫决策过程最大化系统效益即可进行优化决策。本发明基于发送信息重要性、传输时延、接收机信号强度、剩余电量等可知信息量得到决策状态,并对传输时延、信息误码率、信息重要性、发送能耗这些因素综合考虑,计算系统效益且平衡工作表现与能耗问题。应用Q学习算法,在不知上述动态变化信息的情况下,实现可穿戴设备的发送功率控制。

本发明综合考虑可穿戴设备的工作能力和节能效果,现有技术在关注设备节能效果时,通常会将设备发射功率降至维持设备正常工作的最低发射功率;本发明对工作能力与节能效果进行平衡,在Q学习所关注的工作状态构成与系统效益函数中得以体现。本发明使用Q学习算法对可穿戴设备进行发射功率控制,现有使用Q学习算法进行功率控制的技术中,并无可直接应用于可穿戴设备发送功率控制的技术;与这些技术相比,本发明针对可穿戴设备的节能功率控制问题,选取发送信息重要性,信息发送时延,剩余电量情况等信息量作为状态量,将Q学习算法成功应用于可穿戴设备发射功率控制。

与现有技术相比,有益效果是:本发明提供的一种基于Q学习的可穿戴设备发射功率控制方法,基于常用设备可测定的信息量,并以传输时延、误码率这两个直观反映通信质量的信息量为基础,关联信息重要性与功耗,设计合理的系统效益函数,进行Q学习;在不知可穿戴设备与智能手机等接收机之间的距离、周边无线传输环境,和接收机处理时间等动态变化信息的情况下,进行可穿戴设备功率控制;本发明设计的系统效益函数对设备的工作表现与能耗进行了平衡,在确定发射功率时,兼顾设备发射能力与能耗问题这两个方面,优化设备的整体表现,有效避免了发送功率过低导致的高传输时延、高误码率等工作表现问题。

附图说明

图1为本发明方法流程图。

具体实施方式

如图1所示,一种基于Q学习的可穿戴设备发射功率控制方法,包括以下步骤:

步骤1:均匀地将发射功率p划分为M个功率等级,取值[1,2,…,M];与可穿戴设备进行通信的接收设备称为信息接收端,设备每经L秒调整一次发射功率,记为一个时隙ts;

步骤2:对于第k个时隙记发射功率为p(k)

在整个时隙中,可穿戴设备执行以下操作:

根据时隙内与信息接收端的通信情况,测定时隙中的平均发送时延,记为T(k),T(k)根据发送时延的长短划分为Nt个等级,取值[1,2,…,Nt];测量脉搏、血压用户身体状态,计算发送信息重要性,记为R(k),R(k)与用户身体状态异常程度正相关,划分为Nr个等级,取值[1,2,…,Nr];

在进入时隙时,可穿戴设备执行以下操作:

发送信号强度请求至信息接收端,接收端收到此请求时测定当前的接收信号强度,记为G(k),并将信号强度信息反馈至可穿戴设备,G(k)根据信号强弱划分为Ng个等级,取值[1,2,…,Ng];检测设备剩余电量情况,记为E(k),E(k)的取值根据占总电量百分比均匀划分为Ne个等级,取值[1,2,…,Ne];

在整个时隙中,信息接收端计算所接受信息的误码率m(k),在时隙将要结束时告知可穿戴设备,

对于时隙取信息量集合,s(k)=[T(k-1),G(k),R(k-1),E(k)];

在此步骤中,第k个时隙的平均发送时延T(k)与发送信息重要性R(k)的观测与计算在时隙结束时才能完成。因此,第k个时隙开始时得到的工作状态s(k)中,平均发送时延与发送信息重要性均为第k-1个时隙所得,记为T(k-1)与R(k-1)

步骤3:可穿戴设备在工作过程中,每个时隙结束时均计算系统效益,计算时隙的系统效益U(s(k),p(k))的方法如下:

其中ρ、λ、β为调节因子,用于调节设备各方面工作效益的所占比重;

步骤4:可穿戴设备使用Q学习算法,在工作过程中对发射功率p做出逐时隙的控制,包括以下步骤:

S401.计算集合s(k)的取值数量N=NtNrNgNe,而发射功率p的取值数量为M,初始化一个大小为N×M的全零矩阵作为Q矩阵,并通过Q函数Q(s(k),p(k))进行任意时隙的s(k),p(k)对Q矩阵中Q值的映射;根据实际需求,预设概率值ε(0<ε<1)控制发射功率的选择,预设参数α(0<α<1)和δ(0<δ<1)调节Q学习的速率和探索性;

S402.可穿戴设备开始工作的初始时隙记为此时隙随机选择发射功率p(1);对于第k个时隙在进入时隙时,设备根据步骤S2所述方法观测得到信息量集合s(k),使用Q函数获取Q矩阵中s(k)对应的Q值列Q(s(k),p);

设备在调整发射功率时,有ε的概率选择Q(s(k),p)中的某最大值maxQ(s(k),p)对应的发射功率作为时隙的发射功率p(k),即p(k)∈argmaxQ(s(k),p);否则选择随机的某个非maxQ(s(k),p)对应的发射功率作为p(k)

S403.在时隙结束时,按照步骤S2所述过程得到下一时隙的工作状态s(k+1),根据步骤S3所述方法计算当前系统效益U(s(k),p(k)),使用如下公式对Q矩阵进行更新:

Q(s(k),p(k))=(1-α)Q(s(k),p(k))+α(U(s(k),p(k))+δmaxQ(s(k+1),p))

S403.重复步骤S402至S403所述过程。

其中,在所述的S4步骤中,对于可穿戴设备开始工作的初始时隙无法得到工作状态s(1),这一时隙的发射功率p(1)随机选择。

本发明综合考虑可穿戴设备的工作能力和节能效果,现有技术在关注设备节能效果时,通常会将设备发射功率降至维持设备正常工作的最低发射功率;本发明对工作能力与节能效果进行平衡,在Q学习所关注的工作状态构成与系统效益函数中得以体现。本发明使用Q学习算法对可穿戴设备进行发射功率控制,现有使用Q学习算法进行功率控制的技术中,并无可直接应用于可穿戴设备发送功率控制的技术;与这些技术相比,本发明针对可穿戴设备的节能功率控制问题,选取发送信息重要性,信息发送时延,剩余电量情况等信息量作为状态量,将Q学习算法成功应用于可穿戴设备发射功率控制。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1