一种无人机辅助车辆数字孪生的信息感知优化方法

文档序号:36260463发布日期:2023-12-05 17:45阅读:34来源:国知局
一种无人机辅助车辆数字孪生的信息感知优化方法

本发明涉及无人机辅助车辆设备领域,具体为一种无人机辅助车辆数字孪生的信息感知优化方法。


背景技术:

1、5g,6g的发展,加速了新兴应用如增强现实,虚拟现实,混合现实,数字孪生的实现。与此同时自动驾驶车辆搭配数字孪生技术辅助车辆实时做决策也成为可能。这些新兴应用的关键问题是需要借助传感器收集当前的环境数据,实时传输数据到云端服务器,然后向物理世界做出及时的反馈与决策。这些数据是时间敏感的,如在数字孪生辅助的自动驾驶车辆环境中,车辆时刻感知周围的环境信息,及时传输信息到中央控制中心形成数字孪生世界,辅助做决策再回馈给车辆。

2、但是时刻更新数据到数字孪生端会造成不必要的花销与资源浪费。错误信息年龄是对信息年龄的一种改进,信息年龄即从发送端成功传输数据包到接收端的那一个时间戳其到当前时间所经过的时间。其衡量了信息的陈旧程度,但是没有考虑到信息的内容重要性。错误信息年龄即考虑到了新鲜信息性的更新,接收端每时刻对接收方的状态进行估计,当估计状态与真实状态不同时惩罚值才会累加。与此同时,无人机具有灵活移动,在高处减少信号干扰且覆盖广泛的特性,以无人机作为移动中继调度车辆传输数据到数字孪生端可以有效降低传输时延和错误率。

3、现有的技术方案多是只考虑固定节点的状态更新包传输,没有考虑到节点高度移动性,异构功能和信息重要程度度量。本专利技术权衡了系统内每辆车的错信息年龄和无人机的能量消耗,联合优化无人机的飞行轨迹,调度车辆数据更新和数据处理,以实现在无人机能量限制下系统总错误信息年龄和最小化。我们提出把问题建模为马尔可夫决策过程,提出了一种近端策略优化算法来获得最小化系统内长期总错误年龄和的策略。


技术实现思路

1、本发明的目的在于提供一种无人机辅助车辆数字孪生的信息感知优化方法,自动驾驶车辆配有虚拟传感器和数据采集传感器,在真实场地中训练驾驶决策,智能程度不同的自动驾驶车辆收集并处理突发路况数据,借助无人机实时中继到元宇宙控制中心并选择是否对数据进行处理,动态更新数据到元宇宙中的虚拟世界来辅助训练自动驾驶车辆,为了减少数据传输成本和冗余,用类似于错误信息年龄的度量方式来衡量信息的重要程度,并且使用无人机作为中继和数据处理,实现在无人机飞行能量有限制的情况下系统内的数据能够得到有效传输以降低传输成本,且同时满足数字孪生同步映射的需求。

2、本发明的目的可以通过以下技术方案实现:

3、一种无人机辅助车辆数字孪生的信息感知优化方法,包括以下步骤:

4、步骤1:建立车辆到无人机到数字孪生控制单元的通信系统模型;

5、步骤1.1:输入目标区域的坐标范围,将区域分为等大小的单元格,每个单元格的中心位置表示为(x,y),输入自动驾驶车辆n,自动驾驶车辆在区域中t时隙的位置表示为lnt=(xn,yn),无人机在区域中t时隙的位置表示为lut=(xu,yu),数字孪生控制单元的位置为固定坐标(xc,yc);

6、步骤1.2:n个车辆的智能程度不同,有些具有语义提取模块,即提取重要的信息压缩数据量,其中有语义提取功能的自动驾驶车辆表示为λn=1,不具备数据处理功能的表示为λn=0,无人机自身携带语义提取模块,无人机选择是否对数据进行处理,ρt=1表示无人机进行语义提取,ρt=0表示不处理,把时间分为离散的,固定时间的τ的时间戳,每个τ内包括两段子时隙,第一段为从车辆传输数据到无人机花费的时间,第二段为从无人机到数字孪生控制单元的传输时间以及无人机选择是否语义提取花费的时间;

7、步骤1.3:车辆与无人机之间的信道增益由视距链路引导,其计算公式为:

8、

9、其中β0为参考距离为1米时的信道增益,du,n是无人机和车辆n之间的距离;

10、步骤2:计算无人机在不同阶段消耗的能量,包括无人机飞行和盘旋消耗的能量,无人机使用语义提取模块消耗的能量和无人机传输数据到数字孪生控制单元消耗的能量,无人机的最大速度限制在每时隙最多移动到相邻格,在有限的无人机能量下优化无人机飞行轨迹使得总目标aoii最小化,

11、步骤2.1:无人机的移动方向定义为五种,即原地盘旋,东,西,南,北,其表示为:

12、

13、进而得到无人机的飞行能量公式:

14、

15、其中em表示无人机东,南,西,北移动所消耗的能量,eh表示无人机盘旋时消耗的能量;

16、步骤2.2:从车辆到无人机上行传输数据,得到在时隙t下车辆的数据传输速率公式为:

17、

18、其中w和σ2分别是从车辆n到无人机的信道带宽和噪声功率pn车辆n的数据传输功率,进而得到从车辆n到无人机的数据传输时间公式,其表示为:

19、

20、κnt表示车辆n对数据进行语义提取后的数据大小,αnt表示车辆n对数据不进行语义提取的数据大小,当λn=1,车辆n具有语义提取功能,传输的数据大小即为κnt;

21、步骤2.3:得到剩余的从无人机传输数据到数字孪生控制单元的时间tu→c=τ-tn→u,进一步地,得到无人机的数据传输速率计算公式:

22、

23、无人机的传输功率put根据香农公式和步骤2.2的公式计算为:

24、

25、其中gu,ct表示无人机到数字孪生控制单元的信道增益,根据步骤2.2和上述公式,得到从无人机到数字孪生控制中心所消耗的能量计算公式为:

26、

27、其中б是单位能量大小,这里把能量离散化;

28、步骤3:建立车辆收集信息的错误信息年龄度量(aoii);

29、步骤3.1:在车辆方面,每辆车都会遇到不同的路况,数字孪生控制中心维护整个区域的数字世界,并根据车辆的实时位置提供车辆所在区域的数字世界,车辆n在时隙t时的数字世界路况定义为xu^t,xnt为车辆在时隙t时的实际路况,当xu^t与xnt不相等时,表示车辆n有意外路况产生,需要更新数据到数字孪生控制中心,数字孪生控制中心监控所有车辆的请求,最后由无人机决定选择对哪辆车进行数据传输,假设车辆只保留最新的传输数据,当新的路况产生时,它会覆盖之前的数据,任务处理指示函数公式表示为:

30、

31、其中记录了车辆的累计任务,当ynt=0时,表示车辆当前没有数据传输任务,当ynt>0时,表示车辆有传输任务,当ynt>1时,车辆只保留最新数据;

32、步骤3.2:类似于aoii(age of incorrect information),考虑了新信息更新的概念,即当估计过程状态与实际过程状态完全匹配时,信息不会受到惩罚,相反,当信息处于错误状态时,会让惩罚随时间增加,车辆n产生的最后一次传输任务的时间戳表示为:

33、

34、车辆新信息更新度量aoii计算公式为:

35、

36、步骤4:基于近端策略优化(ppo)算法,把该过程建模为单智能体马尔可夫决策过程,其中无人机作为智能体,通过策略与环境交互以获得奖励,在每个时隙都会得到一个马尔可夫决策过程的元组,其中包括状态s、动作a、奖励c和转换概率pr,在无人机能量受限的情况下,无人机作为移动中继并具有数据处理能力,根据一种策略,选择移动方向并将车辆采集的数据立即传输给数字孪生控制单元,无人机的策略与车辆的高度移动性、突发路况的产生以及无人机的剩余能量有关;

37、步骤4.1:设置系统的状态空间s:

38、在系统中,它包括无人机和车辆的状态空间,在无人机状态中,包括无人机的位置和剩余能量,剩余能量的计算公式表示为:

39、

40、即无人机的状态空间为此外,车辆n的状态捕获了车辆的位置和当前的aoii,表示为因此,系统状态可以表示为在时隙t时的系统状态s,

41、步骤4.2:设置无人机的动作空间a:

42、无人机在时隙t获得观测值st,然后根据策略π决定动作at,无人机的行动包括移动方向、选择车辆进行数据更新调度以及选择是否使用语义提取模块,动作空间表示为

43、步骤4.2:设置无人机的奖励函数c:

44、当无人机在状态st下决定动作at后,系统将获得瞬时奖励c,其定义为:

45、在权衡无人机在系统中的aoii和无人机能耗后,对无人机飞行轨迹、无人机数据更新调度和数据处理进行了联合优化,系统的总目标是使总aoii最小;

46、步骤5:构建并训练ppo网络模型;

47、步骤5.1:搭建初始环境,输入一片划分等大小单元格的区域定义坐标,设置n辆车在区域内遵循马尔科夫移动模型移动和规定好移动速度,输入数字孪生控制单元的坐标,输入无人机的飞行速度最大能量起始位置和充电桩的位置,根据初始参数形成无人机的状态空间,车辆状态空间和无人机的动作空间;

48、步骤5.2:初始化神经网络参数θ和φ,用actor网络πθ近似策略π,用critic网络vφ近似状态价值函数,当无人机将观察的状态st输入到πθ时,得到一个与动作概率分布相对应的正态分布,无人机在采样一个动作at后会得到一个瞬时奖励ct和下一个状态st+1,存储为一个序列[(st,at,ct,st+1),...]存放到记忆m中,再将st+1输入到actor网络πθ,生成下一条序列,依次生成一定量的序列存放到m中,无人机的目标是得到系统长期最大回报训练一个最优策略满足目标要求;

49、步骤5.3:根据策略梯度定理计算j(θ)的梯度,并且用优势函数代替期望回报,梯度公式为:

50、

51、其中ξ(s,a,π)是优势函数,详细表示为:

52、ξ(s,a,π)=q(s,a,π)-v(s,π),

53、之后引入重要修采样定理和裁剪替代目标函数,其公式表示为:

54、

55、重要性采样函数为其中是旧策略,上一次更新前的策略,用旧策略进行采样工作,是限制策略更新幅度的函数,计算公式为:

56、

57、步骤5.4:计算critic网络更新方式,用critic网络vφ近似价值函数,定义用来更新参数的损失函数为:

58、

59、其中q(s,a,π)近似为动作价值函数,用贝尔曼更新方程和时序差分算法表示为q(s,a;π)≈(1-γ)c(s,a)+γvφ(s′);

60、步骤5.5:根据步骤5.3存储序列,把最后一步状态st输入到critic网络得到状态价值vφ(st),根据步骤5.4计算折扣奖励,得到每时隙的奖励值q=[q(0),q(1),...,q(t)],之后将m中所有存储的状态s输入到critic网络中得到所有状态的vφ,把q和vφ带入到步骤5.3的优势函数中;

61、步骤5.6:根据步骤5.5公式和步骤5.4的损失函数,求损失函数梯度然后反向传播来更新critic网络的参数φ:

62、

63、把m中存储的所有状态s输入到新actor网络和旧actor网络,得到两个正态分布,将m中存储的动作a输入到两个正态分布中得到每个动作对应的概率,带入步骤5.3中重要性采样公式,计算步骤5.3中的裁剪替代目标和重要性采样的目标函数,反向传播给新actor网络:

64、

65、循环更新m中的一定存储后,结束更新把新actor中的参数更新给旧actor参数返回到步骤5.2,用旧actor网络进行采样循环步骤5.2至步骤5.6,直到参数θ和φ达到收敛。

66、本发明的有益效果:本专利考虑到车辆的高度移动性和异构功能,把动态的不确定的位置信息作为状态空间更好的求解优化目标;

67、本专利考虑了信息重要程度度量;在数字孪生端构建虚拟世界不用时刻都更新所有数据,减小数据更新成本和冗余,只选择重要信息更新;

68、本专利权衡了系统内每辆车的错信息年龄和无人机的能量消耗,联合优化无人机的飞行轨迹,调度车辆数据更新和数据处理,以实现在无人机能量限制下系统总错误信息年龄和最小化;

69、本专利针对状态空间和动作空间巨大的问题,采用近端优化策略的算法求解已建模的马尔可夫决策过程,解决了传统强化学习收敛速度慢的问题;

70、本专利考虑了车辆的仿真实验的移动与突发路况的产生传输数据调度,更接近现实的动态场景;

71、本专利考虑到系统的全局优化问题,更关注系统内所有车辆的总的aoii性能最小化。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1