一种基于智能反射面的架构及任务卸载方法

文档序号:31196501发布日期:2022-08-20 00:43阅读:227来源:国知局
一种基于智能反射面的架构及任务卸载方法

1.本发明涉及自动驾驶技术领域,具体为一种基于智能反射面的架构及任务卸载方法。


背景技术:

2.自动驾驶汽车受益于车联网(internet of vehicle,iov)技术的快速发展,它们需要高质量的无线电传输、智能导航系统和实时图像、音频或传感器数据分析能力,然而,受限于iov有限的通信与计算资源以及高移动性的信道环境,如何有效地实时处理车联网产生的数据以便高效地为用户任务进行卸载决策,提高资源利用率是车联网中研究的关键。
3.数字孪生(digital twin,dt)技术的出现,可以有效解决数据实时处理,资源协同调度的问题,dt是一种高保真的数字表示的物理现实,使用集成的模拟和服务数据,同时监测物理实体的整个生命周期,在自动驾驶场景下,数字孪生能够对行驶过程以及车辆状态进行准确的预测,包括对车辆任务的资源调度预测和对车辆的保养以及检修评估,以确保车辆的安全运行以及车联网系统的高效资源调度。
4.目前基于数字孪生支持下车联网中的任务卸载方案,大多从资源分配进行研究,通过以提高资源利用率为目标,自适应地为任务分配卸载策略,然而由于车联网中车辆机动性强,使得车辆与边缘服务器间的信道容易受到建筑物等障碍物干扰,这样大大降低了无线信道质量,而目前的工作方案在考虑资源受限的同时并没有考虑障碍物对信道的干扰,也会影响卸载决策的分配问题。


技术实现要素:

5.针对现有技术的不足,本发明提供了一种基于智能反射面的架构及任务卸载方法,解决了目前方案在考虑资源受限的同时并没有考虑障碍物对信道的干扰的问题。
6.为实现以上目的,本发明通过以下技术方案予以实现:一种基于智能反射面的架构及任务卸载方法,包括以下步骤:
7.s1、建立用于任务卸载的车辆-智能反射面-边缘计算服务器的无线通信信道;
8.s2、建立任务卸载以及智能反射面(intelligent reflecting surface,irs)控制的目标优化函数以降低系统的时延;
9.s3、映射平面层将边缘设备进行数字孪生体映射,这些映射表示边缘网络en的运行状态信息,数字孪生网络dtn不仅实时监控网络的状态,还记录网络的历史运行状态,供基于深度强化学习drl的任务卸载以及智能反射面控制联合优化算法学习,并将数字表示转换为深度强化学习drl平面层可以处理的张量tensor形式;
10.s4、深度强化学习drl算法从历史数据中随机选择数据,在深度强化学习drl平面层上训练模型;
11.s5、数字孪生网络dtn通过控制平面层对边缘网络en进行卸载决策以及智能反射
面的反射表明元素的反馈,边缘网络en根据反馈的信息进行智能反射面的控制,对车辆的任务卸载进行资源分配;
12.s6、重复步骤s1-s6直至达到终止条件,终止条件可为车联网生命周期的结束。
13.优选的,所述s3中运行状态信息包括车辆运行状态信息vehicle state information,vsi)、智能反射面运行状态信息(irs state information,isi),所述s3中历史运行状态包括深度强化学习drl智能体的实时奖励reward、时延latency以及能耗energy consumption。
14.本发明提供了一种基于智能反射面的架构及任务卸载方法。具备以下有益效果:
15.1、本发明通过引入数字孪生技术,动态地监控车联网中的车辆状态以及智能反射面状态,协同调度车联网计算资源,合理分配卸载决策以及通过智能反射面增强任务卸载信道质量。
16.2、本发明通过基于(double deep q network,ddqn)的两阶段算法,同时进行任务卸载以及irs调控,自适应环境的动态变化,降低系统整体任务卸载时延。
17.3、本发明通过创新地将深度强化学习和迁移学习相结合,提高模型的复用性,进而提高模型训练效率。
附图说明
18.图1为本发明的dtvif结构图;
19.图2为本发明的步骤示意图。
具体实施方式
20.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
21.本发明提出一个数字孪生驱动的车辆任务卸载和智能反射面配置框架(digital twin-driven vehicular task offloading and irs configuration framework,dtvif)来有效地监测、学习和管理iov,采用移动边缘计算mec和智能反射面irs,为车辆提供增强的计算能力,并在车辆与移动边缘计算mec服务器进行通信时提高传输性能,数字孪生dt用于实现iov物理操作环境的实时数据采集和数字表示,以更好地支持决策,参考图1,dtvif包括三个组成部分:核心云网络ccn、边缘网络en和数字孪生网络dtn,dtn和en由ccn控制,dt控制器安装在ccn中,ccn提供了云服务器中的dtn管理,dtn由三个平面组成:映射平面、drl平面和控制平面,三个平面的细节说明如下:
22.映射平面:en由车辆、基站bss、irss、mec服务器等通信设备组成,mec服务器被放置在bss中,irs可安装在建筑物的外墙上,由于车辆的计算能力有限,mec服务器帮助提供增强的资源来支持车辆,在车联网场景中,车辆可以选择最近的红外线进行通信,irs可以选择最近的mec服务器来建立通道。
23.drl平面:在该平面上,实时状态被融合并输入到基于深度强化学习drl算法中,基于drl的任务卸载以及智能反射面控制联合优化算法部署在drl平面上,可以分析和学习历
史数据和实时数据以便进行任务卸载决策以及任务传输所需的信道质量,在dtvif中,目的是通过调整反射元件系数和卸载决策来最小化能量消耗和延迟。
24.当需要汽车无线电、gps导航、路线规划等个性化服务时,基于drl的任务卸载以及智能反射面控制联合优化算法可以根据环境做出任务卸载和irs配置的决策,环境的反馈可以决定任务的执行是否需要一个mec服务器。
25.实施例:
26.如图1-2所示,本发明实施例提供一种基于智能反射面的架构及任务卸载方法,包括以下步骤:
27.s1、建立用于任务卸载的车辆-智能反射面-边缘计算服务器的无线通信信道;
28.本实施例的本步骤中,通过如下建立任务卸载的车辆-智能反射面-边缘计算服务器的无线通信信道:
29.hk=h
k,m
+ghθhh
r,m
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
30.hk为车辆k到边缘服务器的信道增益。其中gh表示irs和车辆k之间的信道增益,θh表示irs的反射系数,而h
r,m
表示irs到边缘服务器的信道增益。
[0031][0032]rk,m
(t)车辆k和边缘服务器之间的传输速率,其中w
k,m
(t)为t时刻的带宽;波束形成向量,且必须满足:
[0033]
s2、建立任务卸载以及智能反射面控制的目标优化函数以降低系统的时延;
[0034]
本实施例的本步骤中,由于车辆具有一定的计算能力,因此直接在车辆本地执行任务时,产生的时延为:
[0035][0036]
车辆k将任务大小为xk(t)的数据卸载到边缘服务器执行时,其传输时延则为:
[0037][0038]
其中fs(t)为mec服务器cpu的频率,θ(t)为cpu的转速,f
l
(t)为本地cpu的频率。
[0039][0040]
其中c1为一个离散变量,式(5)是一个非凸优化问题,约束c2确保mec服务器和车辆之间的通道功率pk不大于最大功率p
max
,约束c3确保mec服务器和车辆k之间的信道带宽w
k,m
不大于生命周期内的最大带宽w
max
,c4限制了最大的车辆数目v以及生命周期t。
[0041]
s3、映射平面层将边缘设备进行数字孪生体映射,这些映射表示边缘网络en的运行状态信息,数字孪生网络dtn不仅实时监控网络的状态,还记录网络的历史运行状态,供基于深度强化学习drl的任务卸载以及智能反射面控制联合优化算法学习,并将数字表示转换为深度强化学习drl平面层可以处理的张量tensor形式;
[0042]
本实施例的本步骤中,每一时隙t内,通过智能体获取当前车辆的状态:位置p,计算资源c,通信资源w,然后融合成[p,c,w]的tensor形式,送入到卸载决策odm模块以供训练,同时,irs配置icm模块也需要获取[p,c,w]以及智能反射面状态i进行训练、
[0043]
s4、深度强化学习drl算法从历史数据中随机选择数据,在深度强化学习drl平面层上训练模型;
[0044]
本实施例的本步骤中,在odm中,本实施例利用ψ
pri
提取特征,在ψ
pri
中,利用卷积神经网络cnn中提取空间相关性,最后利用全连接网络fc层进行特征变换使之符合策略输出维度,然后利用以下公式进行第一阶段的双重深度q网络ddqn的训练:
[0045][0046][0047][0048]
其中ψ
tar
中的网络参数每隔一定时间同步来自ψ
pri
的参数,r为奖励,即r=-l(t),γs为折扣因子,利用l1求解误差,并利用梯度下降法即可更新ψ
pri
中的参数,而ψ
pri
的输出即为任务卸载策略,[p,c,w]

为智能体在状态[p,c,w]下采取策略y后的状态,因此ψ
tar
的作用是让ψ
pri
的学习更加稳定,在第二阶段中,将第一阶段的网络参数迁移到φ
pri
结构相同的部分,在φ
pri
中,利用卷积神经网络cnn分别提取[p,c,w]以及智能反射面状态i的空间相关性,最后分别利用全连接fc神经网络进行特征变换并聚合使之符合反射元素表面输出维度,然后利用以下公式进行第二阶段ddqn的训练:
[0049]
[0050][0051][0052]
其中φ
tar
中的网络参数每隔一定时间同步来自φ
pri
的参数,r为奖励,即r=-l(t),γ
p
为折扣因子,利用l2求解误差,并利用梯度下降法即可更新φ
pri
中的参数,而φ
pri
的输出即为反射表明元素的输出[p,c,w]

和i

为智能体在车辆状态[p,c,w]和智能反射面运行状态i下采取使得ψ
pri
输出值最大的策略后的车辆状态状态以及智能反射面运行状态。
[0053]
s5、数字孪生网络dtn通过控制平面层对边缘网络en进行卸载决策以及智能反射面的反射表明元素的反馈,边缘网络en根据反馈的信息进行智能反射面的控制,对车辆的任务卸载进行资源分配;
[0054]
本实施例的本步骤中,将得到的卸载决策y以及irs表明元素系数分别反馈给en中的车辆以及智能反射面。
[0055]
s6、重复步骤s1-s6直至达到终止条件,终止条件可为车联网生命周期的结束。
[0056]
本实施例中,重复步骤s1-s6直至达到最大生命周期t。
[0057]
s3中运行状态信息包括车辆运行状态信息vsi、智能反射面运行状态信息isi,s3中历史运行状态包括深度强化学习drl智能体的实时奖励reward、时延latency以及能耗energy consumption。
[0058]
本实施例中,通过数字孪生动态监控车联网运行状态,综合考虑了计算卸载过程中资源受限以及信道质量问题,建立车辆-智能反射面-mec服务器间的任务卸载信道,内嵌于数字孪生网络中的双重q学习网络(double deep q network,ddqn)强化学习算法能够进行计算卸载策略分配以及irs调控,并自适应移动性的车联网环境,双重q学习网络(double deep q network,ddqn)中采用了卷积层提取车辆以及智能反射面的空间相似性,训练过程中参数同步以及参数迁移提高了训练的效率以及稳定性。
[0059]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1