基于边缘计算和Actor-Critic算法的车联网通信优化算法的制作方法

文档序号:16384922发布日期:2018-12-22 09:48阅读:438来源:国知局
基于边缘计算和Actor-Critic算法的车联网通信优化算法的制作方法

本发明属于车联网技术领域,涉及车联网通信技术,具体地说,涉及了一种车联网通信优化算法。

背景技术

当前汽车技术的发展,新能源汽车和车联网技术的普及应用是两大发展趋势。车联网(英文:internetofvehicles)是由车辆位置、速度和路线等信息构成的巨大交互网络。车联网融合传感器技术、移动通信技术、大数据处理技术等多种技术于一体,总体而言,可以分为“云”、“管”、“端”三部分。“云”主要包括数据管理、多业务支持的车联网平台;“管”主要包括v2x(英文:vehicletoeverything,即车对外界的信息交换)通信以及移动蜂窝通信技术;“端”包括车载传感器、车载电脑等终端设备。虽然上述技术均有所突破,但面对车联网巨大的用户接入数量,原有的网络难以应对并提高质量的服务,随着巨大的用户接入量而来的问题是保障低时延困难和更高的能耗。

面对巨大的用户接入量,现有传统的正交接入方式,如频分多址(简称:fdma)、码分多址(简称:cdma)和时分多址(简称:tdma)均已经无法满足如此之大的接入量。另一方面,目前现有的频率资源在应对超大容量也有些捉襟见肘,而针对更高频率的通信的研究还没有完全成熟,因此,如何更加高效地利用现有频谱资源是一个非常重要的问题。

在车联网中,处于对安全问题的考虑,车联网通信系统对车辆操作的控制要做到通信的时延尽可能低,在一个完整的控制过程中,通信的时延是一个非常重要的因素。车联网中,边缘计算被认为是一种解决时延问题的有效办法,由于采用边缘计算,用户的计算任务下不需要穿过整个网络到达网络中心进行计算,相反地,网络只需要用户将任务上传至网络边缘的计算节点上就可以完成计算,这样就减少了信息跨越的层数,也就节约了时间。现有的边缘计算主要是通过设计分布式计算算法,合理的拆分用户的请求数据,使得各个边缘节点能互相协作,在保障不超过时延要求的同时,使得各个节点的利用率得到提高。但目前的各类基于边缘计算的方法中,在利用边缘计算解决时延问题的同时却并未考虑能源利用率的问题。而在面对大量接入用户的车联网中,若分配带宽和功率不合理,则整个通信系统能耗将会及其惊人。据统计,信息与通信行业的能量损耗问题日趋严重,预计在2020年能量损耗将达到1430吨,占全球能源损耗的10%左右。因此,提升通信系统中的能源利用率问题就显得格外重要。

此外,因为车联网的特殊性,即车辆的移动性,车辆和基站之间的信道情况是一直在变化的,而且网络的拓扑结构不断变化。这使得传统的利用凸优化的方法来实现网络优化难以实行,因为凸优化需要设置一个固定的目标函数,因此并不适用于优化信道状况和网络拓扑不断变化的车辆网。



技术实现要素:

本发明针对现有技术存在的保障低时延困难、能耗高等上述问题,提供一种基于边缘计算和actor-critic算法的车联网通信优化算法,该优化算法能够解决车辆网中资源分配和低延时问题,提高能源利用率。

为了达到上述目的,本发明提供了一种基于边缘计算和actor-critic算法的车联网通信优化算法,其具体步骤为:

设定车联网通信系统内,用户序列为{1,2,...k,...,k},共有k个用户;子信道序列为{1,2,...,n,...,n},共有n条子信道;雾接入节点序列{1,2,...,m,...m},共有m个接入节点,节入节点的计算能力序列{1,2,...cm,...,cm};用户上传的任务序列{1,2,,...tk,...,tk},共有tk个任务;

采用非正交多址接入noma方式将用户接入车联网通信系统;

用户上传的任务进行边缘计算并将计算结果返回至用户;

利用actor-critic算法优化资源分配方式,得到最佳资源分配方式。

优选的,采用非正交多址接入noma方式将用户接入车联网通信系统时,每个用户至少分配一条子信道,对于子信道n,信道内传输的信号为所有在该信道内传输信号的叠加,即子信道内传输的信号为:

式中,mn表示在第n条子信道上的用户数;pi,n表示第i个用户的信号在子信道n的传输功率,若用户i并不占用子信道n,则pi,n=0;si表示传送给用户i的符号;

在车联网通信系统接收端,任一用户k在子信道n的接收信号为:

式中,hk,n为瑞利信道增益与基站到用户之间路径损耗的乘积,zk,n为均值0、方差为的加性高斯白噪声;

定义为对噪声功率归一化的信道响应crnn,假设用户的信道响应crnn大小与用户编号相对应,则对第n条子信道的信道响应crnn进行排序如下:

按照上述信道响应crnn排序的顺序,对任一用户k,消除信道响应crnn比用户k的信道响应crnn小的用户的信号,利用连续干扰消除sic对用户k先进行解码,成功解码后,将第n条子信道的所有信道响应crnn的用户信号减去用户解码成功的用户k的信号,然后继续按照上述方法解码,解码后得到信噪比公式为:

利用香农公式求得非正交多址接入noma方式下第k个用户在子信道n上的最大信息速率为:

则,车联网通信系统的最大信息速率为:

优选的,用户上传的任务进行边缘计算并将计算结果返回至用户,其具体步骤为:

用户k将任务tk上传至主接入节点,主接入节点将任务tk拆分成若干个子任务,用tk,m表示主接入节点将任务tk拆分后分配给雾接入节点m的子任务,则雾接入节点m计算子任务tk,m所需要的时延lk,m为:

若时延lk,m低于设定的最高时延阈值τ,则选中该雾接入节点m为辅助节点,继续上述操作直至即用户k的计算任务全部分配完毕;

辅助节点计算完成后将计算结果返回至主接入节点,主接入节点将计算结果返回至用户。

优选的,利用actor-critic算法优化资源分配方式,得到最佳资源分配方式的具体步骤为:

初始化各参数,动作空间a,状态空间s,actor在时刻t做出的动作at为:

at=(pk,i(t),bk(t))(8)

式中,动作at包含两个参数,分别是分配给k用户的第i个子信道的功率pk,i(t)以及分配给用户k的子信道数bk(t);

用各个用户的信干噪比表示车联网通信系统的状态为:

st=(γ1(t),γ2(t),…,γm(t))(9)

式中,γm(t)为第m个用户的信干噪比,表示第m个用户接收的信号功率除以噪声功率和其他用户的干扰功率之和;

actor按照策略π采取动作,策略π为在不同状态s时选择不同动作a的条件概率,所以策略π写为

π(a|s)=pr(at=a|st=s)(10)

对于策略π,选择正态分布;

按照策略π采取动作后,动作对环境产生影响,并产生相应奖励值rt,该奖励值rt为车联网通信系统总能量利用效率与总时延的比值,能量利用效率定义为车联网通信系统的总传输速率除以总功率;则有:

式中,rsum(t)为所有用户的总传输速率,delayk(t)为所有用户的总时延;

车联网通信系统观测到环境变化,并将变化后的状态返回到actor和critic两个部分,同时奖励值rt也返回critic中;

根据返回奖励值rt的不同值,critic对actor做出的对应动作进行判断,在不断地迭代过程中,使迭代过程的累加奖励值之和最大,利用马尔科夫过程描述该过程,则设置的奖励值函数qπ为:

式中,eσ表示为在沿着路径σ行进的所能获得的奖励值的期望值,β表示对做出的动作之后的可预见程度,σ表示一条路径;

将上述奖励值函数qπ用bellman方程的形式表示为:

qπ(s,a)=e{rt+βqπ(st+1,at+1)}(13)

式中,e表示为{}中迭代方程的期望值;

对奖励值函数qπ求期望,得到目标函数j(π)为:

j(π)=eπ{qπ(s,a)}(14)

用向量θ=(θ1,θ2,…,θm)构建策略π,通过不断修正策略π,使得按照策略π选择的动作使得目标函数j(π)最大;

对目标函数j(π)进行求导,并沿着梯度下降的方向修改向量θ,有:

更新θ,有:

式中,α为学习速率,是为了不让θ变化的太快以至于产生震荡而无法收敛;

通过上述方法不断迭代直至策略π收敛,得到最佳资源分配方式。

与现有技术相比,本发明的有益效果在于:

(1)本发明将非正交多址接入、边缘计算和强化学习进行结合,有效地解决了车联网中存在的接入量巨大的问题,同时降低整个通信过程中的时延,并在不同环境下得到最佳的资源分配方式,提高了能源利用效率。

(2)本发明采用非正交多址接入方式将用户接入车辆网通信系统,可以连接更多的用户同时保证用户的qos,提高频谱利用率和提高车联网通信系统吞吐量,降低运营商的运营成本。

(3)本发明采用边缘计算进行计算,拉近了用户与计算单元的距离,使用户的数据不用穿过多层的网络就能到达计算单元,减少了用户数据上传的时间。同时利用任务拆分的方法利用各个网络边缘接入节点的计算单元共同完成计算任务,减小计算时延,降低了整个通信过程的时延,有效解决了车联网时延问题。

(4)本发明采用强化学习的actor-critic算法优化资源分配方式,解决资源分配问题,在未知信道的情况下采用不断尝试不同的资源分配方法,再从环境中得到反馈,不断修正自己的资源分配方法,直到收敛的方式时十分适合在车联网中应用的,能在不同的环境下得到最佳的分配方式,提高能源的利用率,减少能耗,节约能源成本。

附图说明

图1为本发明边缘计算的网络结构图。

图2为本发明采用actor-critic算法优化资源分配方式的流程框图。

图中,1、核心网,2、云端,3、前传链路,4、雾接入端。

具体实施方式

下面,通过示例性的实施方式对本发明进行具体描述。然而应当理解,在没有进一步叙述的情况下,一个实施方式中的元件、结构和特征也可以有益地结合到其他实施方式中。

本发明揭示了一种基于边缘计算和actor-critic算法的车联网通信优化算法,其具体步骤为:

步骤一、设定车联网通信系统内,用户序列为{1,2,...,k,...,k},共有k个用户;子信道序列为{1,2,...,n,...,n},共有n条子信道;雾接入节点序列{1,2,...,m,...m},共有m个接入节点,节入节点的计算能力序列{1,2,...cm,...,cm};用户上传的任务序列{1,2,,...tk,...,tk},共有tk个任务。

步骤二、采用非正交多址接入noma方式将用户接入车联网通信系统;每个用户至少分配一条子信道,对于子信道n,信道内传输的信号为所有在该信道内传输信号的叠加,即子信道内传输的信号为:

式中,mn表示在第n条子信道上的用户数;pi,n表示第i个用户的信号在子信道n的传输功率,若用户i并不占用子信道n,则pi,n=0;si表示传送给用户i的符号;

在车联网通信系统接收端,任一用户k在子信道n的接收信号为:

式中,hk,n为瑞利信道增益与基站到用户之间路径损耗的乘积,zk,n为均值0、方差为的加性高斯白噪声;

定义为对噪声功率归一化的信道响应crnn,假设用户的信道响应crnn大小与用户编号相对应,则对第n条子信道的信道响应crnn进行排序如下:

按照上述信道响应crnn排序的顺序,对任一用户k,消除信道响应crnn比用户k的信道响应crnn小的用户的信号,利用连续干扰消除sic对用户k先进行解码,成功解码后,将第n条子信道的所有信道响应crnn的用户信号减去用户解码成功的用户k的信号,然后继续按照上述方法解码,解码后得到信噪比公式为:

利用香农公式求得非正交多址接入noma方式下第k个用户在子信道n上的最大信息速率为:

则,车联网通信系统的最大信息速率为:

步骤三、用户上传的任务进行边缘计算并将计算结果返回至用户,边缘计算网络的结构图参见图1;其具体步骤为:

用户k将任务tk上传至主接入节点,主接入节点将任务tk拆分成若干个子任务,用tk,m表示主接入节点将任务tk拆分后分配给雾接入节点m的子任务,则雾接入节点m计算子任务tk,m所需要的时延lk,m为:

若时延lk,m低于设定的最高时延阈值τ,则选中该雾接入节点m为辅助节点,继续上述操作直至即用户k的计算任务全部分配完毕;

辅助节点计算完成后将计算结果返回至主接入节点,主接入节点将计算结果返回至用户。

步骤四、利用actor-critic算法优化资源分配方式,得到最佳资源分配方式;参见图2,其具体步骤为:

初始化各参数,动作空间a,状态空间s,actor在时刻t做出的动作at为:

αt=(pk,i(t),bk(t))(8)

式中,动作αt包含两个参数,分别是分配给k用户的第i个子信道的功率pk,i(t)以及分配给用户k的子信道数bk(t);

用各个用户的信干噪比表示车联网通信系统的状态为:

st=(γ1(t),γ2(t),…,γm(t))(9)

式中,γm(t)为第m个用户的信干噪比,表示第m个用户接收的信号功率除以噪声功率和其他用户的干扰功率之和;

actor按照策略π采取动作,策略π为在不同状态s时选择不同动作a的条件概率,所以策略π写为

π(a|s)=pr(at=a|st=s)(10)

对于策略π,选择正态分布;

按照策略π采取动作后,动作对环境产生影响,并产生相应奖励值rt,该奖励值rt为车联网通信系统总能量利用效率与总时延的比值,能量利用效率定义为车联网通信系统的总传输速率除以总功率;则有:

式中,rsum(t)为所有用户的总传输速率,delayk(t)为所有用户的总时延;

车联网通信系统观测到环境变化,并将变化后的状态返回到actor和critic两个部分,同时奖励值rt也返回critic中;

根据返回奖励值rt的不同值,critic对actor做出的对应动作进行判断,在不断地迭代过程中,使迭代过程的累加奖励值之和最大,利用马尔科夫过程描述该过程,则设置的奖励值函数qπ为:

式中,eσ表示为在沿着路径σ行进的所能获得的奖励值的期望值,β表示对做出的动作之后的可预见程度,σ表示一条路径;

将上述奖励值函数qπ用bellman方程的形式表示为:

qπ(s,a)=e{rt+βqπ(st+1,at+1)}(13)

式中,e表示为{}中迭代方程的期望值;

对奖励值函数qπ求期望,得到目标函数为:

j(π)=eπ{qπ(s,a)}(14)

用向量θ=(θ1,θ2,…,θm)构建策略π,通过不断修正策略π,使得按照策略π选择的动作使得目标函数j(π)最大;

对目标函数j(π)进行求导,并沿着梯度下降的方向修改向量θ,有:

更新θ,有:

式中,α为学习速率,是为了不让θ变化的太快以至于产生震荡而无法收敛;

通过上述方法不断迭代直至策略π收敛,得到最佳资源分配方式。

上述方法中,步骤二和步骤三的顺序可以互换,不分先后。

本发明上述方法将非正交多址接入、边缘计算和强化学习进行结合,有效地解决了车联网中存在的接入量巨大的问题,同时降低整个通信过程中的时延,并在不同环境下得到最佳的资源分配方式,提高了能源利用效率。

下面以一个具体的实施例对本发明上述方法做出进行一步说明。

实施例:车辆网通信系统内,假设共有20个用户,10条子信道,用i表示用户编号,n表示子信道编号。将10条信道按照随机分配方式分配给20个用户,保证每个用户至少分配一条子信道。针对于子信道,信道内传输的信号为所有在该子信道内传输信号的叠加。所以,子信道n内传输的信号其中pi,n表示第i个用户的信号在子信道n的传输功率,若用户i并不占用子信道n,则pi,n=0。si表示传送给用户i的符号。

在车联网通信系统的接收端,针对任一用户k在子信道n的接收信号为:

式中,hk,n为瑞利信道增益与基站到用户之间路径损耗的乘积,zk,n是均值0、方差为的加性高斯白噪声。

定义为对噪声功率归一化的信道响应crnn,对crnn进行排序,对于第n条子信道,信道响应crnn进行排序如下:

|h1,n|≥|h2,n|≥…≥|hk,n|≥|hk+1,n|≥…≥|h20,n|(18)

按照这个信道响应crnn的顺序,对任一用户k,消除信道响应crnn比用户k的信道响应crnn小的用户的信号,利用连续干扰消除sic对用户k先进行解码,成功解码后,将第n条子信道的所有信道响应crnn的用户信号减去用户解码成功的用户k的信号,然后继续按照上述方法解码,解码后得到信噪比为:

利用香农公式求得非正交多址接入noma方式下第k个用户在子信道n上的最大信息速率,

则整个车联网通信系统的总最大信息速率为

假设共有5个雾接入节点,第m个节点的计算能力用cm表示,第k用户上传的任务量用tk表示。用户将任务上传至它的主接入节点后,主接入节点从剩下的4个接入节点中寻找辅助节点协同完成计算。用tk,m表示主节点将用户k的计算任务量tk拆分后分配给辅助节点m的任务量。则辅助节点m计算tk,m过程所需要的时延如果lk,m低于预设时延阈值τ,则选中这个接入节点作为辅助节点。

时,表示用户k的任务还没有分配完毕。继续上述操作直到即用户k的计算任务全部分配完毕。之后由主接入节点将计算结果返回至用户。

强化学习actor-critic算法优化资源分配方式中,初始化各参数,动作空间a,状态空间s,actor在时刻t做出的动作

at=(pk,i(t),bk(t))(8)

式中,动作at包含两个参数,分别是分配给k用户的第i个子信道的功率pk,i(t)以及分配给用户k的子信道数bk(t)。

用各个用户的信干噪比来表示车联网通信系统的状态为:

st(γ1(t),γ2(t),…,γm(t))(9)

式中,γm(t)为第m个用户的信干噪比,表示第m个用户接收的信号功率除以噪声功率和其他用户的干扰功率之和。

actor按照策略π采取动作,策略π为在不同状态s时选择不同动作a的条件概率,所以策略π写为:

π(a|s)=pr(at=a|st=s)(10)

对于策略π,选择正态分布。

按照策略π采取动作后,动作对环境产生影响,并产生相应奖励值rt,因为本发明的目的是在保障时延的同时能够提高能源的利用效率,所以本发明中奖励值rt为车联网通信系统总能量利用效率与总时延的比值,能量利用效率的定义为车联网通信系统的总传输速率除以总功率。则有:

式中,rsum(t)为所有用户的总传输速率,delayk(t)为所有用户的总时延。

智能体观测到环境变换,并将变化后的状态返回到actor和critic两个部分。同时,奖励值rt也会返回到critic中。

根据返回奖励值的不同值,critic会对actor做出的对应的动作进行判断,因为在不断地迭代过程中,我们的目标是使迭代过程的累加奖励值之和最大。利用马尔科夫过程描述该过程,则设置的奖励值函数qπ为:

式中,eσ表示为在沿着路径σ行进的所能获得的奖励值的期望值,β表示对做出的动作之后的可预见程度,σ表示一条路径。

这个奖励值函数qπ能够评估在状态s时做出的动作a的好坏程度。将上述的奖励值函数qπ用bellman方程的形式写出来,表示为:

qπ(s,a)=e{rt+βqπ(st+1,at+1)}(13)

式中,e表示为{}中迭代方程的期望值。

bellman方程体现是一种迭代的过程。因为奖励值函数qπ表示的是沿着某条路径σ所获得的奖励值之和的期望,所以如果想要得到针对策略π的奖励值之和的期望就要对奖励值函数qπ求期望,也得到目标函数j(π)为:

j(π)=eπ{qπ(s,a)}(14)

用向量θ=(θ1,θ2,…θ20)来构建策略π,所以为了使目标函数j(π)最大,我们的方法是通过不断修正策略π,使得按照策略π选择的动作可以使得目标函数最大。所以,对目标函数进行求导,并沿着梯度下降的方向来修改向量θ,有:

之后,更新θ,

式中,α为学习速率,是为了不让θ变化的太快以至于产生震荡而无法收敛;

通过上述方法不断迭代直到策略π收敛,得到最佳的资源分配方式。

以上所举实施例仅用为方便举例说明本发明,并非对本发明保护范围的限制,在本发明所述技术方案范畴,所属技术领域的技术人员所作各种简单变形与修饰,均应包含在以上申请专利范围中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1