一种时延下的纳什均衡估计方法、设备及存储设备

文档序号:36232308发布日期:2023-12-01 05:54阅读:23来源:国知局
一种时延下的纳什均衡估计方法

本技术涉及智能体领域,尤其涉及一种时延下的纳什均衡估计方法。


背景技术:

1、多智能体系统是由一组自主的、相互作用的智能体组成的系统。每个智能体都可以感知环境,做出决策和执行动作,并与其他智能体合作或竞争,以实现系统的目标。多智能体系统在自动驾驶、无人机编队以及机器人合作中被广泛应用。

2、非合作博弈是博弈论的一个重要模型,描述了参与者之间没有合作时,每个参与者都做出自己的决定的情况,近年来,非合作博弈广泛应用于无人机群、微电网控制、无线通信等多智能体工程中。

3、在多智能体系统中,解决最优决策问题时往往假设多个智能体共同协作完成一个目标,而在智能交通网络和计算机网络的一些情况中,由于智能体的个人理性,智能体之间存在着异质性和利益冲突;通常计算非合作博弈的纳什均衡,以解决这一情况下的多智能体最优决策问题。

4、在通信网络中,由于网络拥塞、传输距离等因素的影响,通信过程会存在时延,这使得系统的稳定性、通信的实时性等受到影响。

5、在时延系统稳定性方面,有研究者提出了一个基于参数可调的引理,并利用该引理建立了线性延迟系统的稳定性判据;有研究者研究了具有一定范围的时变时延系统的稳定性问题。

6、即,在时延系统优化方面,如何优化,如何简化系统优化过程,仍是我们目前需要解决的一大难题。


技术实现思路

1、本技术的目的在于解决如何简化时延系统优化过程这一问题,提供一种时延下的纳什均衡估计方法。

2、本技术的上述目的是通过以下技术方案得以实现的:

3、s1:获取有n个智能体的系统;

4、s2:构建所述系统的时延模型;

5、s3:根据所述时延模型,将纳什均衡在时延下偏离量的估计转化为无投影分布式梯度法在时延下收敛值偏离量的上界;

6、s4:确定时延加入前以及时延加入后,所述系统的邻接矩阵的perron向量之间的关系;

7、s5:根据所述关系,确定所述上界的估计结果。

8、可选的,步骤s1包括:

9、所述有n个智能体的系统包括:

10、所述系统的图ga=(in,ε);

11、其中,in={1,l,n}为点集,ε为弧集;

12、设节点j到节点i的存在信息传输路径,则(j,i)∈ε;

13、图ga的邻接矩阵为a∈rn×n,其中第i行第j列的元素为aij,当所述节点j到所述节点i存在路径时,aij>0,否则,aij=0;

14、假设所述节点i存在自循环,即aii>0;

15、当a为随机矩阵,且ga为强连通图时,a有唯一的与特征值1相关的perron向量,此外,若ga同时为权重平衡图,a为双随机的矩阵。

16、可选的,步骤s2包括:

17、若所述节点j到所述节点i的信息传输存在tij的时延,在所述节点j到所述节点i之间添加tij个节点,即构建tij的时延的时延模型;

18、所述节点j、所述节点i以及tij个节点的梯度为0,所述节点j、所述节点i以及tij个节点的目标函数为0。

19、可选的,在所述节点j到所述节点i之间添加tij个节点的步骤,包括:

20、设所述系统为三阶系统,则所述三阶系统的邻接矩阵,如下:

21、

22、引入时延,令t12=1,t23=2,t31=1,t32=1对所述邻接矩阵进行转换,如下:

23、

24、节点加入顺序为t12,t13,t21,t23,t31,t32,所述自循环中无时延。

25、可选的,步骤s3包括:

26、s31:所述系统的分布式梯度下降法,如下:

27、

28、其中,xi(k+1)表示k+1时刻第i个智能体的状态;xj(k)表示k时刻第j个智能体的状态;di(k)为梯度,即di(k)有一个上界l;若αk过大,会在最优解周围浮动,无法收敛到最优解;若αk太小,不会收敛到最优解,令且

29、s32:在对非合作博弈求解纳什均衡时,各个智能体有对应的策略约束集;将所述分布式梯度下降法与投影结合,以使各个所述智能体的策略总在其策略约束集x内:

30、

31、px(·)表示在集合x上的投影,算法收敛于的解,即纳什均衡点;

32、s33:令目标函数和策略约束集x为凸的,通信网络图ga(k)为权重平衡强连通图,ga(k)的邻接矩阵为随机矩阵,且ga(k)大于0的元素有一个下界λ;

33、加入时延后,得一个新的点集i′n,有

34、

35、

36、其中,新的点集上的第i行第j列的元素为bij;

37、对投影算法,有

38、

39、可选的,步骤s4包括:

40、若所述系统为三阶系统,则所述三阶系统的邻接矩阵,如下:

41、

42、所述三阶系统的邻接矩阵的perron向量为:

43、v(k)=[v1(k),v2(k),v3(k)]′,有(v(k))′a(k)=(v(k))′,即:

44、

45、加入所述时延t,得到新的邻接矩阵b(k),b(k)的perron向量为v′(k)=[v′1(k),v′2(k),v′3(k),l,v′3+t(k)]′,有(v′(k))′b(k)=(v′(k))′,即

46、(1-a11(k))v′1(k)=v′4(k)+v′4+t12(k)

47、

48、

49、a21(k)v′2(k)=v′4(k)

50、

51、

52、

53、

54、

55、上式表明:在时延加入前,有v1(k)=c1(k)v3(k),v2(k)=c2(k)v3(k)和v1(k)+v2(k)+v3(k)=1,其中c1(k),c2(k)为正常数,在时延加入后,有v′1(k)=c1(k)v′3(k),v′2(k)=c2(k)v′3(k)和v′1(k)+v′2(k)+v′3(k)<1;

56、推广到n阶系统,对任意k∈n时刻,时延引入前有perron向量v=[v1,v2,l,vn]′,满足v1=c1vn,v2=c2vn,l,vn-1=cn-1vn,其中ci∈r+,i∈in-1;加入时延后有perron向量v′=[v′1,v′2,l,v′n,l,v′n+t]′,满足v′1=c1v′n,v′2=c2v′n,l,v′n-1=cn-1v′n;不同的是,v1+v2+l+vn=1,而v′1+v′2+l+v′n<1。

57、可选的,步骤s5包括:

58、s51:设转移矩阵,如下:

59、p(k,s)=a(k)a(k-1)l a(s),k≥s

60、其中k,k-1,l,s为时间;

61、有结论1:

62、对任意s,有其中,为正随机向量;对所有满足k≥s的k和s,当p(k,s)的第i行第j列的元素不为0时,有[p(k,s)]ij≥λk-s+1;

63、s52:通过所述结论1,估计所述上界:

64、无时延时,有:

65、

66、有时延时,有:

67、

68、当有相同初值时,有:

69、

70、其中,it={n+1,l,n+t};定义ξ=[p(k,r+1)]ij-[p′(k,r+1)]ij,满足ξ>0的智能体集合为i1,满足ξ≤0的智能体集合为i2;当j∈i1时,有ξ≤[p(k,r+1)]ij-λk-r;因为a(k)是强连通图,所以有0<η<1使既有:

71、

72、由上式可得,当j∈i2时,-ξ≤1-λk-r<1,有0<σ<1使

73、由上式可得,第一公式:

74、

75、s53:获取结论2,如下:

76、令0<ρ<1,{ak}为正序列,如果那么

77、s54:获取结论3,如下:

78、{a(k)}是一个随机矩阵的序列,如果在k≥0时,a(k)有关于特征值1的公共的perron向量v,且与其相关的图序列{ga(k)}是一直联合强连通的,那么,对任意s,有

79、s54:根据所述结论1以及所述结论2,对所述第一公式的两边取极限,由于当k→∞时xi(k+1)会达到其纳什均衡得:

80、

81、s55:当g(k)的邻接矩阵a(k)有公共的perron向量时,根据所述结论3,得

82、

83、s56:根据以上步骤,确定所述上界的估计结果:

84、对于时变图g(k),当g(k)的邻接矩阵a(k)没有公共的perron向量时,有

85、

86、其中和分别为向量和的第j个元素;

87、当g(k)的邻接矩阵a(k)有公共的perron向量时,有

88、

89、

90、其中,vj和分别为公共perron向量v和v1的第j个元素。

91、一种存储设备,存储设备存储指令及数据用于实现一种时延下的纳什均衡估计方法。

92、一种时延下的纳什均衡估计设备,包括:处理器及存储设备;处理器加载并执行存储设备中的指令及数据用于实现一种时延下的纳什均衡估计方法。

93、本技术提供的技术方案带来的有益效果是:

94、构建多个智能体的系统的时延模型,将纳什均衡在时延下偏离量的估计转化为无投影分布式梯度法在时延下收敛值偏离量的上界,计算加入时延后的系统的上界估计结果。根据时延,估计出其对算法收敛值影响的一个上界,利用此上界分析不同时延下的偏差大小,即可使时延造成的损失最小化,为系统优化和资源分配提供更明确的信息。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1