一种非正交多址接入辅助的车联网低能耗安全卸载方法

文档序号:33639643发布日期:2023-03-29 01:42阅读:62来源:国知局
一种非正交多址接入辅助的车联网低能耗安全卸载方法

1.本发明属于车联网领域,具体涉及一种非正交多址接入辅助的车联网低能耗安全卸载方法。


背景技术:

2.随着技术的不断进步以及应用需求的增加,大数据在车联网上的应用促使车辆产生越来越多的延迟敏感任务来支持包括交通流预测在内的新型服务,这些任务能够通过两种方法得到解决,一种是增强车载芯片的计算能力,这使得车辆可以在本地快速地处理这些任务。另外一种是通过使用移动边缘计算技术来处理任务。移动边缘计算技术是利用无线接入网络就近提供给用户所需服务和云端计算功能,进而创造出一个具备高性能、低延迟与高带宽的通信服务环境。移动边缘计算技术能有效地解决车辆计算能力不足的问题,但是由于无线信道的开放特性,计算卸载的过程存在信息泄露的问题。
3.现有的技术方案在信息保密方面主要是通过密钥来加密信息,使得信息的安全得到保障,但是随着计算芯片的不断发展,以复杂度作为信息加密基础的密钥方法不再安全。目前,也有部分研究通过物理层安全技术来增强信息的安全性,物理层安全技术通过利用无线信道的特性保护用户的隐私,提升信息传输的安全性,如利用信号处理、信道编码、多天线调制等技术,但是它们主要采用传统数学优化算法来解决问题,但传统数学优化算法寻优缓慢,会消耗大量的时间,难以适应车联网中快速变化的环境,并且它们主要考虑的是位置固定不变的用户,只能在某一个位置提高安全性,无法做到实时快速反馈,因此无法适应车联网场景。


技术实现要素:

4.为了解决现有技术中存在的上述问题,本发明提供了一种非正交多址接入辅助的车联网低能耗安全卸载方法。本发明要解决的技术问题通过以下技术方案实现:
5.一种非正交多址接入辅助的车联网低能耗安全卸载方法,包括:
6.设定单基站车联网通信场景,利用排队论对车辆到达道路的过程进行建模;其中,所述单基站车联网通信场景包括用户车辆的集合、空闲辅助车辆的集合和窃听者车辆的集合;
7.在车辆到达道路过程的建模结果基础上,采用noma方式将用户车辆和空闲辅助车辆接入车联网通信系统,在预设系统场景条件下,将空闲辅助车辆与用户车辆的noma配对选择、发送功率选择和用户车辆对边缘服务器的计算资源块选择作为优化目标,至少基于计算时延建立约束条件,构建最小化系统能耗的优化问题;其中,所述预设系统场景条件,包括:每个用户车辆占用一个频带且彼此间无干扰;窃听者车辆仅被动窃听用户车辆发送至基站的信息;所述车联网通信系统包括多个noma簇,每个noma簇由多个空闲辅助车辆与一个用户车辆组成;空闲辅助车辆用于干扰窃听者;同一个noma簇中,基站对用户车辆最后解码;用户车辆利用物理层安全技术将信息保密卸载至基站;
8.利用所述车联网通信系统中部分车辆环境下的状态信息对预先设计的目标a3c网络进行训练,得到训练完成的目标模型;其中,部分车辆环境下的状态信息包括用户车辆发送的数据包大小以及车辆的信道信息;所述目标a3c网络经结构设计、动作设计和奖励设计得到;动作与所述优化问题的优化目标对应;奖励基于系统能耗和计算时延设计得到;
9.将所述车联网通信系统中待处理车辆的状态信息输入所述目标模型,输出相应的动作作为决策结果。
10.在本发明的一个实施例中,所述车辆到达道路过程的建模结果,包括:
11.车辆到达时间间隔的概率密度函数f
t
(t):
[0012][0013]
其中,车辆到达的时间间隔t服从负指数分布,λ为预设系数。
[0014]
在本发明的一个实施例中,所述优化问题的表达式,包括:
[0015][0016]
c1:
[0017]
c2:
[0018]
c3:
[0019]
c4:
[0020]
c5:
[0021]
c6:
[0022]
c7:
[0023]
其中,表示第i个用户车辆消耗的总能量;nu表示用户车辆的数量;x、y、z分别表示空闲辅助车辆与用户车辆的noma配对选择、发送功率选择和用户车辆对边缘服务器的计算资源块选择;min表示求最小值;c1~c7表示约束条件;二进制指示zi[k]表示边缘服务器的第k个资源块是否被分配给第i个用户车辆使用;fk表示第k个资源块的计算速率;表示边缘服务器最大计算速率;nb表示边缘服务器的资源块数量;二进制指示ρj[i]表示第j个空闲辅助车辆与第i个用户车辆是否进行noma配对;nh表示辅助空闲辅助车辆的数量;二
进制指示表示第i个用户车辆是否选择第m个发送功率pm作为其发送功率;n
p
表示发送功率pm的总数;二进制指示表示第j个空闲辅助车辆是否选择第m个发送功率pm作为其发送功率;表示第i个用户车辆的计算任务在边缘服务器上计算的时间;t表示计算时延阈值;各二进制指示值为1和0时分别表示对应的指示结果为是和否。
[0024]
在本发明的一个实施例中,所述优化问题的构建过程,包括:
[0025]
根据第i个用户车辆的发送功率第i个用户车辆到基站的信道增益g
i,b
和噪声σ2,确定第i个用户车辆通过第i个频带到基站的卸载链路速率
[0026]
根据第i个用户车辆的发送功率第j个空闲辅助车辆的发送功率第i个用户车辆到第n个窃听者车辆的信道增益g
i,n
、第j个空闲辅助车辆到第n个窃听者车辆的信道增益g
j,n
、噪声σ2以及第j个空闲辅助车辆与第i个用户车辆是否进行noma配对的二进制指示ρj[i],确定第n个窃听者车辆在第i个频带上对第i个用户车辆进行窃听时的速率并根据物理层安全技术确定第i个用户车辆的保密卸载速率
[0027]
根据第i个用户车辆计算任务的大小bi与保密卸载速率的比值,确定第i个用户车辆将信息传输到基站的时间
[0028]
根据第i个用户车辆将信息传输到基站的时间第i个用户车辆是否选择第m个发送功率pm作为其发送功率的二进制指示确定第i个用户车辆在将信息卸载到基站过程中消耗的能量
[0029]
根据第i个用户车辆将信息传输到基站的时间第j个空闲辅助车辆的发送功率第j个空闲辅助车辆与第i个用户车辆是否进行noma配对的二进制指示ρj[i]、第j个空闲辅助车辆是否选择第m个发送功率pm作为其发送功率的二进制指示确定与第i个用户车辆配对的空闲辅助车辆消耗的能量
[0030]
基于第i个用户车辆计算任务的大小bi、第k个资源块是否被分配给第i个用户车辆使用的二进制指示zi[k]、第k个资源块的计算速率fk,确定第i个用户车辆的计算任务在边缘服务器上计算的时间并确定第i个用户车辆在边缘服务器上消耗的能量
[0031]
将第i个用户车辆消耗的能量和之和作为其消耗的总能量将所有用户车辆消耗的总能量作为系统能耗构建优化问题,并设置所述优化问题的优化目标和约束条件c1~c7;其中,约束条件c1保证分配给所有用户车辆的处理速率不超过边缘服务器最大计算速率约束条件c2、c3、c4、c5保证每个用户车辆只能选择选择一个频带、一个发送功率和一个资源块,约束条件c6限制计算时延小于等于计算时延阈值t,约束条件c7指定优化目标的决策变量为二元变量。
[0032]
在本发明的一个实施例中,第i个用户车辆通过第i个频带到基站的卸载链路速率的计算公式,包括:
[0033][0034][0035]
第n个窃听者车辆在第i个频带上对第i个用户车辆进行窃听时的速率的计算公式,包括:
[0036][0037][0038]
第i个用户车辆的保密卸载速率的计算公式,包括:
[0039][0040]
其中,w表示频带带宽;表示窃听时受到的干扰;ve表示所有窃听者车辆的集合;ρj[i]=1表示第j个空闲辅助车辆与第i个用户车辆进行了noma配对,ρj[i]=0表示第j个空闲辅助车辆没有与第i个用户车辆进行noma配对。
[0041]
在本发明的一个实施例中,第i个用户车辆在将信息卸载到基站过程中消耗的能量的计算公式,包括:
[0042][0043][0044]
其中,表示第i个用户车辆选择第m个发送功率pm作为其发送功率,表示第i个用户车辆没有选择第m个发送功率pm作为其发送功率。
[0045]
在本发明的一个实施例中,与第i个用户车辆配对的空闲辅助车辆消耗的能量的计算公式,包括:
[0046][0047]
[0048]
其中,表示第j个空闲辅助车辆选择第m个发送功率pm作为其发送功率,表示第j个空闲辅助车辆没有选择第m个发送功率pm作为其发送功率。
[0049]
在本发明的一个实施例中,第i个用户车辆的计算任务在边缘服务器上计算的时间的计算公式,包括:
[0050][0051]
其中,zi[k]=1表示第k个资源块被分配给第i个用户车辆使用,zi[k]=0表示第k个资源块没有被分配给第i个用户车辆使用;u表示计算能力;
[0052]
第i个用户车辆在边缘服务器上消耗的能量的计算公式,包括:
[0053][0054]
其中,η表示处理器电容系数。
[0055]
在本发明的一个实施例中,所述目标a3c网络为三层的全连接网络;所述目标a3c网络的动作设计,包括:
[0056]
采用一个三维坐标来表示所述目标a3c网络的动作,其中x轴代表空闲辅助车辆与用户车辆的noma配对选择,共有na种;y轴代表空闲辅助车辆与用户车辆的发送功率选择,共有n
p
种,z轴代表用户车辆对边缘服务器的计算资源块,共有nb种。
[0057]
在本发明的一个实施例中,所述目标a3c网络的奖励设计,包括:
[0058]
将所述目标a3c网络的奖励分为与系统能耗相关的正奖励re,以及与计算时延有关的负奖励rd,总奖励为r
t
=w1re+w2rd;其中,w1和w2为加权系数;
[0059]
根据系统能耗大小将正奖励re划分为多个档次;其中,正奖励re划分出的多个档次表示为:
[0060][0061]
根据计算时延大小将负奖励rd划分为多个档次;其中,负奖励rd划分出的多个档次表示为:
[0062][0063]
其中,e1和e2表示两种能量阈值大小;ζ1表示最大正奖励值大小;表示所有用户车辆最大的计算时延;ζ2表示最大负奖励值大小;t表示计算时延阈值。
[0064]
现有技术中尚未有在车联网中使用noma技术和物理层安全技术确保信息安全的同时降低系统整体能耗的方案。本发明实施例所提供的方案首先设定单基站车联网通信场景,利用排队论对车辆到达道路的过程进行建模,使得场景更加接近实际的场景。之后在建模基础上,采用noma方式将用户车辆和空闲辅助车辆接入车联网通信系统,在预设系统场景条件下,将空闲辅助车辆与用户车辆的noma配对选择、发送功率选择和用户车辆对边缘服务器的计算资源块选择作为优化目标,至少基于计算时延建立约束条件,构建最小化系统能耗的优化问题,并且优化问题构建过程中考虑利用物理层安全技术进行用户车辆信息卸载。然后,利用所述车联网通信系统中部分车辆环境下的状态信息对预先设计的目标a3c网络进行训练,得到训练完成的目标模型。最后,将所述车联网通信系统中待处理车辆的状态信息输入所述目标模型,输出相应的动作作为决策结果以分配给待处理车辆进行信息传输使用。
[0065]
本发明实施例通过联合空闲辅助车辆与用户车辆的noma配对、用户车辆和配对的空闲辅助车辆的发送功率以及边缘服务器的资源块分配,优化整体的系统能耗问题,并且对计算卸载的时间等进行了约束。本发明实施例方法能够在通过适当的训练后,使得目标模型能够在保证信息安全的同时,快速做出决策解决问题。而且本发明实施例将优化问题建模为单智能决策问题,并通过深度强化学习的方法进行求解,所采用的目标a3c网络由于其a3c算法有异步多线程的特点,可以加快训练过程,因此能够降低系统整体能耗并保证传输过程的安全性。
附图说明
[0066]
图1为本发明实施例所提供的一种非正交多址接入辅助的车联网低能耗安全卸载方法的流程示意图;
[0067]
图2为本发明实施例的单基站车联网通信场景示意图;
[0068]
图3为本发明实施例的目标a3c网络的结构示意图;
[0069]
图4为本发明实施例提供的不同方案在不同的交通图案下的系统性能和各车辆性能对比示意图;
[0070]
图5为本发明实施例提供的不同方案在不同容量阈值限制下的平均连接概率示意图。
具体实施方式
[0071]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0072]
如图1所示,本发明实施例所提供的一种非正交多址接入辅助的车联网低能耗安全卸载方法,可以包括如下步骤:
[0073]
s1,设定单基站车联网通信场景,利用排队论对车辆到达道路的过程进行建模;
[0074]
需要说明的是,本发明实施例所提供的一种非正交多址接入辅助的车联网低能耗安全卸载方法的执行主体可以为一种非正交多址接入辅助的车联网低能耗安全卸载装置,
所述装置可以运行于电子设备中。其中,该电子设备可以为一服务器或终端设备,比如可以为所述基站中的对应设备,当然并不局限于此。
[0075]
其中,所述单基站车联网通信场景包括用户车辆的集合、空闲辅助车辆的集合和窃听者车辆的集合。其中,用户车辆的集合表示为nu表示用户车辆的数量;空闲辅助车辆的集合表示为nh表示辅助空闲辅助车辆的数量;窃听者车辆的集合表示为ne表示窃听者车辆的数量。该单基站车联网通信场景请参见图2的示意图理解。图2中user vehicle表示用户车辆;eavesdropper vehicle表示窃听车辆;jammer vehicle表示空闲辅助车辆;mec server表示边缘服务器;base station表示基站;noma cluster表示noma簇;eavesdropping path表示窃听路径;cooperative jamming表示协同干扰。
[0076]
本发明实施例中,用户车辆需要将信息发送至基站,以卸载到与基站连接的边缘服务器进行信息计算,在此无线通信过程中,窃听者车辆有可能会窃听到用户车辆发送的信息,造成信息泄露,因此,需要采用一定的安全保护技术进行用户车辆信息卸载。
[0077]
首先,为了更好地模拟实际车辆到达道路的过程,本发明实施例利用排队论对车辆到达道路的动态过程进行建模,使场景更加接近实际场景。
[0078]
所述车辆到达道路过程的建模结果,包括:
[0079]
车辆到达时间间隔的概率密度函数f
t
(t):
[0080][0081]
其中,车辆到达的时间间隔t服从负指数分布,λ为预设系数,比如可以为0.5。
[0082]
s2,在车辆到达道路过程的建模结果基础上,采用noma方式将用户车辆和空闲辅助车辆接入车联网通信系统,在预设系统场景条件下,将空闲辅助车辆与用户车辆的noma配对选择、发送功率选择和用户车辆对边缘服务器的计算资源块选择作为优化目标,至少基于计算时延建立约束条件,构建最小化系统能耗的优化问题;
[0083]
其中,所述预设系统场景条件,包括:每个用户车辆占用一个频带且彼此间无干扰;窃听者车辆仅被动窃听用户车辆发送至基站的信息;所述车联网通信系统包括多个noma簇,每个noma簇由多个空闲辅助车辆与一个用户车辆组成;空闲辅助车辆用于干扰窃听者;同一个noma簇中,基站对用户车辆最后解码;用户车辆利用物理层安全技术将信息保密卸载至基站。
[0084]
在现有研究中,目前还没有研究将物理层安全技术和非正交多址技术(non-orthogonal multiple access,noma)在车联网边缘计算网络中结合。本发明实施例采用noma方式是因为其能够进一步提升保密性能,在noma方案中,多个用户车辆可以访问同一频带并利用连续干扰(sic)消除来缓解同信道干扰。因此,通过适当的设计,用户车辆不会受到干扰信号的干扰,而窃听者会受到干扰,进而提高安全卸载速率。
[0085]
具体的,本发明实施例提出了一种预设系统场景条件,在该预设系统场景条件下,每一个用户车辆占用一个频带,不同用户车辆之间没有干扰,多个空闲辅助车辆可以与一
个用户车辆组成一个noma簇;用户车辆和空闲辅助车辆均会向基站发送信息,空闲辅助车辆用于干扰窃听者;但由于noma使用串行干扰消除技术,因此最后一个解码的信号不会受到其他信号的干扰,基于这个原理,本发明实施例将同一个noma簇中,用户车辆设计为基站最后一个解码的对象,这样基站接收到的信号不会因为存在其他空闲辅助车辆的信号而受到干扰,基站能够清晰识别出来自用户车辆的信号,并解码出用户车辆发送的信息。同时,在该预设系统场景条件中,本发明实施例考虑存在多个恶意的窃听者车辆,这些窃听者车辆会被动窃听用户车辆发送到基站的信息,但是它们不会窃听空闲辅助车辆,在此种情况下,窃听者车辆无法通过sic解码出用户车辆的信号,因此会受到所有在同一个簇的空闲辅助车辆信号的干扰,从而提高信息传输的安全性。
[0086]
其中,在本发明实施例的车联网通信系统中,通信信号在发射端和接收端间的信道增益gk由大尺度衰落αk和小尺度衰落hk组成,即gk=α
khk

[0087]
可以理解的是,针对本发明实施例的场景而言,具有通信联系的发射端和接收端可以包括:用户车辆和基站、空闲辅助车辆和基站、用户车辆和窃听者车辆、空闲辅助车辆和和窃听者车辆。
[0088]
基于上述预设系统场景条件,本发明实施例考虑车联网通信系统中各发射端和接收端之间的通信状况和信道状况,构建了最小化系统能耗的优化问题。
[0089]
其中,所述优化问题的构建过程,包括:
[0090]
s21,根据第i个用户车辆的发送功率第i个用户车辆到基站的信道增益g
i,b
和噪声σ2,确定第i个用户车辆通过第i个频带到基站的卸载链路速率
[0091]
具体的,第i个用户车辆通过第i个频带到基站的卸载链路速率的计算公式,包括:
[0092][0093][0094]
其中,w表示频带带宽;表示信噪比。
[0095]
s22,根据第i个用户车辆的发送功率第j个空闲辅助车辆的发送功率第i个用户车辆到第n个窃听者车辆的信道增益g
i,n
、第j个空闲辅助车辆到第n个窃听者车辆的信道增益g
j,n
、噪声σ2以及第j个空闲辅助车辆与第i个用户车辆是否进行noma配对的二进制指示ρj[i],确定第n个窃听者车辆在第i个频带上对第i个用户车辆进行窃听时的速率并根据物理层安全技术确定第i个用户车辆的保密卸载速率
[0096]
具体的,在预设系统场景条件下,第n个窃听者车辆在第i个频带上对第i个用户车辆进行窃听时的速率的计算公式,包括:
[0097]
[0098][0099]
其中,表示窃听时受到的干扰;ρj[i]=1表示第j个空闲辅助车辆与第i个用户车辆进行了noma配对,ρj[i]=0表示第j个空闲辅助车辆没有与第i个用户车辆进行noma配对。其中,noma配对即为组成一个noma簇。
[0100]
本发明实施例中,第i个用户车辆的保密卸载速率的计算公式,包括:
[0101][0102]
其中,ve表示所有窃听者车辆的集合;本发明实施例通过计算用户车辆卸载链路速率与所有窃听者车辆窃听时的最大速率之差,再将差值和零值的较大者作为用户车辆的保密卸载速率,如果大于0则表示信息的传输是安全的,不会被其他窃听者窃听,这就通过物理层安全技术实现了信息的保密传输。
[0103]
s23,根据第i个用户车辆计算任务的大小bi与保密卸载速率的比值,确定第i个用户车辆将信息传输到基站的时间
[0104]
具体的,
[0105]
s24,根据第i个用户车辆将信息传输到基站的时间第i个用户车辆是否选择第m个发送功率pm作为其发送功率的二进制指示确定第i个用户车辆在将信息卸载到基站过程中消耗的能量
[0106]
具体的,第i个用户车辆在将信息卸载到基站过程中消耗的能量的计算公式,包括:
[0107][0108][0109]
其中,表示第i个用户车辆选择第m个发送功率pm作为其发送功率,表示第i个用户车辆没有选择第m个发送功率pm作为其发送功率。本发明实施例中预设有n
p
种发送功率的选择。
[0110]
s25,根据第i个用户车辆将信息传输到基站的时间第j个空闲辅助车辆的发送功率第j个空闲辅助车辆与第i个用户车辆是否进行noma配对的二进制指示ρj[i]、第j个空闲辅助车辆是否选择第m个发送功率pm作为其发送功率的二进制指示确定
与第i个用户车辆配对的空闲辅助车辆消耗的能量
[0111]
由于空闲辅助车辆也会向基站发送信息,也会存在能量消耗。具体的,与第i个用户车辆配对的空闲辅助车辆消耗的能量的计算公式,包括:
[0112][0113][0114]
其中,表示第j个空闲辅助车辆选择第m个发送功率pm作为其发送功率,表示第j个空闲辅助车辆没有选择第m个发送功率pm作为其发送功率。空闲辅助车辆与用户车辆均会在n
p
种发送功率中进行选择。
[0115]
s26,基于第i个用户车辆计算任务的大小bi、第k个资源块是否被分配给第i个用户车辆使用的二进制指示zi[k]、第k个资源块的计算速率fk,确定第i个用户车辆的计算任务在边缘服务器上计算的时间并确定第i个用户车辆在边缘服务器上消耗的能量
[0116]
其中,第i个用户车辆的计算任务在边缘服务器上计算的时间的计算公式,包括:
[0117][0118]
其中,zi[k]=1表示第k个资源块被分配给第i个用户车辆使用,zi[k]=0表示第k个资源块没有被分配给第i个用户车辆使用;可以理解的是,本发明实施例中,边缘服务器的资源会预先分为nb个资源块,每个用户车辆的计算任务可以从中选择一个资源块进行信息计算;u表示边缘服务器中处理器处理信息的计算能力;
[0119]
第i个用户车辆在边缘服务器上消耗的能量的计算公式,包括:
[0120][0121]
其中,η表示处理器电容系数;表示fk的3次方。
[0122]
s27,将第i个用户车辆消耗的能量和之和作为其消耗的总能量将所有用户车辆消耗的总能量作为系统能耗构建优化问题,并设置所述优化问题的优化目标和约束条件c1~c7;其中,约束条件c1保证分配给所有用户车辆的处理速率不超过边缘服务器最大计算速率约束条件c2、c3、c4、c5保证每个用户车辆只能选择选择一个频带、一个发送功率和一个资源块,约束条件c6限制计算时延小于等于计算时延阈值t,约束条件c7指定优化目标的决策变量为二元变量。
[0123]
具体的,第i个用户车辆消耗的总能量
[0124]
所述优化问题的表达式,包括:
[0125][0126]
c1:
[0127]
c2:
[0128]
c3:
[0129]
c4:
[0130]
c5:
[0131]
c6:
[0132]
c7:
[0133]
为了便于理解该优化问题,在此对其中涉及的参数整体进行介绍。
[0134]
其中,表示第i个用户车辆消耗的总能量;nu表示用户车辆的数量;x、y、z分别表示空闲辅助车辆与用户车辆的noma配对选择、发送功率选择和用户车辆对边缘服务器的计算资源块选择;min表示求最小值;c1~c7表示约束条件;二进制指示zi[k]表示边缘服务器的第k个资源块是否被分配给第i个用户车辆使用;fk表示第k个资源块的计算速率;表示边缘服务器最大计算速率;nb表示边缘服务器的资源块数量;二进制指示ρj[i]表示第j个空闲辅助车辆与第i个用户车辆是否进行noma配对;nh表示辅助空闲辅助车辆的数量;二进制指示表示第i个用户车辆是否选择第m个发送功率pm作为其发送功率;n
p
表示发送功率pm的总数;二进制指示表示第j个空闲辅助车辆是否选择第m个发送功率pm作为其发送功率;表示第i个用户车辆的计算任务在边缘服务器上计算的时间;t表示计算时延阈值;各二进制指示值为1和0时分别表示对应的指示结果为是和否。
[0135]
s3,利用所述车联网通信系统中部分车辆环境下的状态信息对预先设计的目标a3c网络进行训练,得到训练完成的目标模型;
[0136]
其中,部分车辆环境下的状态信息包括用户车辆发送的数据包大小以及车辆的信道信息;所述目标a3c网络经结构设计、动作设计和奖励设计得到;动作与所述优化问题的
优化目标对应;奖励基于系统能耗和计算时延设计得到。
[0137]
可选的一种实施方式中,所述目标a3c网络为三层的全连接网络。具体结图3中,global network表示公共的神经网络,其包括actor网络和critic网络两部分;图3中涉及的各名词含义请参见现有技术中a3c网络相关概念进行理解,在此不做详细说明。
[0138]
其中,所述目标a3c网络的动作设计,包括:
[0139]
采用一个三维坐标来表示所述目标a3c网络的动作,其中x轴代表空闲辅助车辆与用户车辆的noma配对选择,共有na种;y轴代表空闲辅助车辆与用户车辆的发送功率选择,共有n
p
种,z轴代表用户车辆对边缘服务器的计算资源块,共有nb种。所述目标a3c网络的动作中x轴、y轴和z轴分别和优化问题中的x、y、z对应。可以理解的是,针对用户车辆和空闲辅助车辆,会分别有x、y、z三个动作的选择,因此,对于任意需要服务的用户车辆或空闲辅助车辆,动作可能为na×np
×
nb种。
[0140]
a3c算法(asynchronous advantage actor-critic,异步优势动作评价)作为异步深度强化学习的算法的一种,由于其具有异步多线程的特点,可以加快训练过程,因此本发明实施例使用a3c算法构建的目标a3c网络来解决优化问题。在训练过程中,需要利用奖励机制完成网络收敛,因此,需要先对待用网络进行奖励设计。
[0141]
其中,所述目标a3c网络的奖励设计,包括:
[0142]
1)将所述目标a3c网络的奖励分为与系统能耗相关的正奖励re,以及与计算时延有关的负奖励rd,总奖励为r
t
=w1re+w2rd;其中,w1和w2为加权系数;
[0143]
2)根据系统能耗大小将正奖励re划分为多个档次;其中,正奖励re划分出的多个档次表示为:
[0144][0145]
3)根据计算时延大小将负奖励rd划分为多个档次;其中,负奖励rd划分出的多个档次表示为:
[0146][0147]
其中,e1和e2表示两种能量阈值大小;ζ1表示最大正奖励值大小;表示所有用户车辆最大的计算时延;ζ2表示最大负奖励值大小;t表示计算时延阈值。
[0148]
在完成结构设计、动作设计和奖励设计得到所述目标a3c网络后,进行训练的过程可以包括以下步骤:
[0149]
a1,初始化主线程和子线程的网络参数。
[0150]
具体的,针对主线程和子线程,具体被初始化的网络参数可以参见a3c算法相关描
述,在此不做详细说明。
[0151]
a2,将子线程网络参数更新为主线程的网络参数。在每个子线程训练开始的回合,随机地从当前时刻道路上选出三种车辆,并根据此获取到当前所选车辆环境下的状态信息,其包括所有车辆的信道信息、用户车辆发送的数据包大小。
[0152]
a3,每个子线程根据当前的状态信息和策略选择此时的动作,并根据所选择的动作更新当前所选车辆环境下的状态信息。
[0153]
动作包括空闲辅助车辆与用户车辆的noma配对选择、发送功率选择和用户车辆对边缘服务器的计算资源块选择,构成一个分配组合方案。
[0154]
a4,每个子线程获得系统能耗和计算时延,并根据系统能耗大小和计算时延获得正奖励值re和负奖励值rd,最终计算出子线程的梯度大小。
[0155]
具体的,针对正奖励值re,需要根据当前的系统能耗es具体确定正奖励值re所在的档次,从而确定具体的数值;同样的,针对负奖励值rd,需要根据当前的所有用户车辆最大的计算时延ts,具体确定负奖励值rd所在的档次,从而确定具体的数值。具体请参见前文奖励设计部分。
[0156]
利用正奖励值re和负奖励值rd计算子线程的梯度大小属于现有技术,在此不做具体说明。
[0157]
a5,将各个子线程得到的梯度发送到主线程中,主线程网络根据梯度信息更新网络参数,当l轮返回的奖励值趋近于不变时,此时停止迭代。其中,l表示训练轮数。
[0158]
具体训练过程可以结合现有的a3c网络训练过程理解,在此不做详细说明。本发明实施例在网络训练收敛后可以得到目标模型。
[0159]
s4,将所述车联网通信系统中待处理车辆的状态信息输入所述目标模型,输出相应的动作作为决策结果。
[0160]
其中,待处理车辆可以为系统指定的某些用户车辆或空闲辅助车辆,也可以为系统中自行发送决策申请的用户车辆或空闲辅助车辆,当然,也可以为系统中所有用户车辆或空闲辅助车辆,这都是合理的。
[0161]
比如,针对某一作为待处理车辆的用户车辆,将其当前在所述车联网通信系统中的状态信息输入所述目标模型,所述目标模型可以快速得到一个较优动作,即输出noma配对选择、发送功率选择和该用户车辆对边缘服务器的计算资源块选择。因此,该用户车辆可以依据该决策结果将信息发送至基站,利用边缘服务器进行卸载计算,实现降低系统能耗的同时提高信息安全性的目的。
[0162]
现有技术中尚未有在车联网中使用noma技术和物理层安全技术确保信息安全的同时降低系统整体能耗的方案。本发明实施例所提供的方案首先设定单基站车联网通信场景,利用排队论对车辆到达道路的过程进行建模,使得场景更加接近实际的场景。之后在建模基础上,采用noma方式将用户车辆和空闲辅助车辆接入车联网通信系统,在预设系统场景条件下,将空闲辅助车辆与用户车辆的noma配对选择、发送功率选择和用户车辆对边缘服务器的计算资源块选择作为优化目标,至少基于计算时延建立约束条件,构建最小化系统能耗的优化问题,并且优化问题构建过程中考虑利用物理层安全技术进行用户车辆信息卸载。然后,利用所述车联网通信系统中部分车辆环境下的状态信息对预先设计的目标a3c网络进行训练,得到训练完成的目标模型。最后,将所述车联网通信系统中待处理车辆的状
态信息输入所述目标模型,输出相应的动作作为决策结果以分配给待处理车辆进行信息传输使用。
[0163]
本发明实施例通过联合空闲辅助车辆与用户车辆的noma配对、用户车辆和配对的空闲辅助车辆的发送功率以及边缘服务器的资源块分配,优化整体的系统能耗问题,并且对计算卸载的时间等进行了约束。本发明实施例方法能够在通过适当的训练后,使得目标模型能够在保证信息安全的同时,快速做出决策解决问题。而且本发明实施例将优化问题建模为单智能决策问题,并通过深度强化学习的方法进行求解,所采用的目标a3c网络由于其a3c算法有异步多线程的特点,可以加快训练过程,因此能够降低系统整体能耗并保证传输过程的安全性。
[0164]
以下通过仿真结果说明本发明实施例方法的效果。
[0165]
请参见图4,图4为本发明实施例提供的不同方案在不同的交通图案下的系统性能和各车辆性能对比示意图。其中,横轴的random traffic pattern表示随机交通模式;纵轴的systern energy consumption表示系统能耗;computation delay表示计算延迟;eeso表示节能安全卸载即本发明实施例所提出的方案;optimal表示能量最小方案。图4上面的左侧子图显示eeso方案的系统计算延迟小于t,t表示计算时延阈值,而右侧子图显示能量最小方案未考虑计算延迟,这表明本发明实施例方案考虑了计算时延的因素。
[0166]
图4的下图中,dqn表示使用深度q网络来降低能耗的对比方案;wnj表示没有空闲辅助车辆时的对比方案,从图4的下图对比可见,四种方法中,本发明实施方案eeso优于wnj和dqn方案,与optimal方案相差较小。
[0167]
图5为本发明实施例提供的不同方案在不同容量阈值限制下的平均连接概率示意图。图5的横轴secrecy rate threshold表示保密率阈值;纵轴的average secrecy probability表示平均保密概率。平均保密概率定义为ps=p(rs》βs),其中,βs是保密速率阈值,rs是保密率,p(rs》βs)表示rs》βs的概率,即此处p表示事情发生的概率。从图5可见dqn方案、optimal方案和wnj方案的保密性能比eeso方案差,因为它们主要关注如何最小化系统的能量消耗,这导致它们更喜欢选择较小的发射功率。
[0168]
整体来说,本发明实施例方案在能耗上与最小能量方案较为接近,但是在系统整体时延和信息传输安全性上有最好表现,因此本发明实施例方案是可行的。
[0169]
综上,本发明实施例在车联网场景下,通过异步深度强化学习将noma和物理层安全技术相结合,仿真结果表明,本发明实施例提出的方法能够在保证车辆安全进行边缘卸载计算的同时,降低整个过程中消耗的能量。
[0170]
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1