一种基于深度强化学习的无人机服务功能链自适应编排方法

文档序号:38625138发布日期:2024-07-12 11:28阅读:85来源:国知局

本发明属于无人机网络功能虚拟化,具体涉及一种基于深度强化学习的无人机服务功能链自适应编排方法。


背景技术:

1、低空智联网作为一种新兴的模式,聚焦于低空空域,为无人机等空中物联网设备提供高效服务,为无人机应用提供了更广泛的通信支持,并为城市交通管理、灾害监测、农业监视等提供了更智能的解决方案。与此同时,随着无人机技术的快速发展,无人机成为低空智联网中不可或缺的组成部分。

2、在实际应用中,无人机网络面临着许多挑战,特别是在动态网络和任务变化的情况下,无人机的高机动性和灵活性导致网络拓扑变化频繁,增加了网络管理的复杂性。此外,不确定的任务要求网络能够快速适应不同的场景,对网络的适应性要求很高。然而,传统的网络架构无法灵活地满足这些实时需求。


技术实现思路

1、本发明所要解决的技术问题是针对上述现有技术的不足,提供一种基于深度强化学习的无人机服务功能链自适应编排方法。

2、为实现上述技术目的,本发明采取的技术方案为:

3、一种基于深度强化学习的无人机服务功能链自适应编排方法,包括以下步骤:

4、步骤1:建立基于nfv技术的无人机自组网通信网络;

5、步骤2:根据无人机自组网通信网络的特点,分析影响用户体验质量qoe的各因素的权重系数;

6、步骤3:对体验质量qoe进行量化评价,建立体验质量qoe与服务质量qos之间的映射关系;

7、步骤4:将无人机自组网通信网络中的虚拟网络功能部署问题转化为最大化目标函数问题;

8、步骤5:根据步骤2得到的权重系数、步骤3得到的映射关系,利用深度强化学习算法求解最大化目标函数问题,得到无人机服务功能链自适应编排结果。

9、为优化上述技术方案,采取的具体措施还包括:

10、上述的步骤1所建立的无人机自组网通信网络中,考虑n架无人机向固定区域提供服务,每架无人机能够部署vi种不同类型的vnf,每种类型最多同时部署m个vnf实例;并将节能模式下的最大等待时间配置为接下来t个sfc请求所需的时间,如果后续的t个sfc请求没有部署到当前无人机节点上,则该节点进入待机模式,能耗设定为峰值能耗的50%。

11、上述的步骤2包括:

12、步骤2-1:根据无人机自组网通信网络的特点,分析影响用户qoe的各因素,建立模糊互补判断矩阵a;所述因素包括带宽,时延和能耗;

13、步骤2-2:求解步骤2-1的模糊互补判断矩阵,得到各因素的权重系数,公式如下:

14、

15、其中rij代表步骤2-1中模糊判断矩阵的元素,n代表影响因素的数量,wi表示因素的权重;

16、步骤2-3:针对步骤2-2计算得到的权重系数,计算相容性指标值,公式如下:

17、

18、

19、其中,i(a,b)表示相容性指标;

20、aij和bji分别为矩阵a和矩阵b中的元素;

21、wij为矩阵b中的元素,由权重系数计算得到;

22、i表示行号,j表示列号;

23、若相容性指标值小于设定阈值,则模糊互补判断矩阵通过一致性检验,否则未通过,需重新建立模糊互补判断矩阵,并计算权重系数。

24、上述的步骤3包括:

25、步骤3-1:将体验质量qoe进行量化评价分为5个等级,分别以1到5的整数表示,1代表非常差,5代表非常优秀,中间的评价等级随数值增大逐渐变得更积极;

26、步骤3-2:对于qoe与qos负相关的情况,qoe与qos的映射关系为:

27、

28、对于qoe与qos正相关的情况,qoe与qos的映射关系为:

29、qoe=α2lnβ2·qos+γ2

30、其中,α1、β、γ1、α2、β2、γ2是表达式的微调系数。

31、上述的步骤4所述最大化目标函数问题为:

32、op:

33、

34、

35、

36、

37、其中,s表示所有能够满足功能需求的服务功能链sfcs的集合,qoes代表一个服务功能链s∈s的端到端的用户体验质量qoe,n为一个sfc服务请求包含的网络功能数量,m表示每个网络功能包含的候选的vnf实例数量;

38、dij∈{0,1}表示是否选择第j个实例来完成sfc请求的第i个功能,0表示未选中,1表示选中;

39、qosq为表示业务功能链的qos指标的l维向量;

40、qosc表示sfc请求的qos约束的l维向量;

41、qosq向量的前k个维度为正指标,即值越大表示性能越好,其余的l-k维度为负指标,值越小表示性能越好。

42、上述的步骤5利用基于深度强化学习的方法求解最大化目标函数问题,并使用马尔科夫决策过程对强化学习问题进行数学建模,具体如下:

43、在深度强化学习中,策略π引导智能体在状态s下选择动作a,根据马尔科夫决策过程建立的模型和确定的策略π,获得一个vnf部署方案,进而步骤4的最大化目标函数问题转化为寻找使总的端到端奖励最大的最优策略π*;

44、进一步地,使用马尔科夫决策过程对强化学习问题进行数学建模,马尔科夫决策过程由五元组<s,a,p,r,γ>组成,其中,状态空间s表示系统环境,包括网络拓扑、vnf实例的当前qos、qoe状态以及正在进行的sfc请求的功能需求;动作空间a对应于直接连续vnf实例的选择,每个函数有m个可能的动作;转移概率pss'表示动态选择vnf实例时qos、qoe状态变化的可能性;折扣因子γ∈[0,1],γ值越大,表明越侧重于长期回报。

45、上述的动作a选择方式如下:

46、

47、其中,ε∈(0,1)表示探索动作的概率,qmax表示选择值函数q(用于评估在给定状态下,采取不同动作的收益期望)最大的动作。

48、上述的奖励函数r如下:

49、qoebde_sfc=wb·qoebandwidth_sfc-(wd·qoedelay_sfc+we·qoeenergy_sfc)

50、其中,wb,wd,we分别表示步骤2所得带宽,时延和能耗的权重系数;

51、qoebde_sfc、qoebandwidth_sfc、qoedelay_sfc、qoeenergy_sfc分别为总qoe、带宽qoe、时延qoe和能耗qoe对应的数值,其中带宽qoe、时延qoe和能耗qoe对应的数值基于步骤3建立的qoe与qos之间的映射关系得到。

52、本发明具有以下有益效果:

53、本发明将网络功能虚拟化(nfv)的引入为无人机网络管理,设计了基于nfv技术的无人机自组网通信网络架构,将传统网络设备的功能与硬件解耦,转化为可虚拟化、可通过软件操作的网络功能,增强了部署和管理网络功能的灵活性,为无人机网络的动态变化奠定了基础。在此基础上,设计业务功能链(sfc)编排机制,解决nfv环境下业务链的动态构建和部署问题,通过sfc将不同的虚拟网络功能按照一定的顺序编排成一条业务链,形成一条逻辑有序的路径,以满足不同任务的需求,该机制使网络能够根据情景需求实时动态调整业务链,增强了适应性和灵活性,解决了传统网络架构难以灵活满足实时需求的难题,可确保有效地执行任务。

54、本发明根据无人机网络通信特点,采用模糊层次分析法分析了影响用户qoe的各因素的权重系数,构建了服务质量与体验质量之间的映射关系数学模型,可量化用户体验质量,并将无人机网络中的虚拟网络功能部署问题转化为最大化目标函数问题,引入马尔可夫决策过程模型来捕捉网络的动态状态转移,然后设计了一种深度强化学习算法,用于自适应在线sfc部署,使得服务功能链编排方案能够在低延迟,低功耗条件下保障用户qoe,最后,研究了深度强化学习算法对无人机网络场景中资源约束的适应性。数值结果表明,与基线算法相比,本发明能增强训练稳定性,保证用户qoe,优化能耗、任务完成度等关键指标。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1