一种蜂窝和无人机一体化网络的选择方法及装置与流程

文档序号:17150064发布日期:2019-03-19 23:20阅读:262来源:国知局
一种蜂窝和无人机一体化网络的选择方法及装置与流程
本发明属于网络选择
技术领域
,更具体地,涉及一种蜂窝和无人机一体化网络的选择方法及装置。
背景技术
:为了提供更好的网络数据服务,避免蜂窝网络出现拥塞现象,可以采用借助配备了收发机的低空无人机来卸载拥塞的蜂窝网络上的业务的方案。针对蜂窝和无人机一体化网络,为了充分地利用无人机资源,一个重要的挑战是如何进行高效公平的网络选择。一种解决网络选择问题的方法是基于博弈论的方法。在基于博弈论的方法中,首先将网络选择问题构建为一个博弈,然后通过集中式/分布式的方法实现均衡。例如,man等人在用户移动信息不完整的条件下,将网络选择问题构建为一个贝叶斯博弈。然后他们提出了一种具有良好收敛性的分布式方法来实现贝叶斯纳什均衡。现有的基于博弈论的方法考虑了用户间的相互影响和竞争,然而,他们中绝大多数是在准静态或可预测的网络状态条件下研究网络选择问题。而蜂窝和无人机一体化网络具有高动态性并且网络状态难以预测,导致现有的基于博弈论的方法无法解决蜂窝和无人机一体化网络的选择问题。技术实现要素:本发明提供一种蜂窝和无人机一体化网络的选择方法及装置,旨在解决由于蜂窝和无人机一体化网络具有高动态性并且网络状态难以预测,导致现有的基于博弈论的方法无法解决蜂窝和无人机一体化网络的选择问题。第一方面,本发明提供一种蜂窝和无人机一体化网络的选择方法,包括:获取动态网络模型和动态用户模型;其中,动态网络模型至少包括:无人机网络的位置模型、蜂窝网络的容量模型以及无人机网络的容量模型,动态用户模型至少包括:用户的位置模型、传输速率模型;根据无人机网络的位置模型和用户的位置模型生成用户可接入网络集合;根据蜂窝网络的容量模型、无人机网络的容量模型、用户可接入网络集合以及传输速率模型生成随机事件向量,其中,用户可接入网络集合包括无人机网络和/或蜂窝网络;根据随机事件向量生成动作向量,动作向量用于表示用户选择接入无人机网络和/或蜂窝网络;根据动作向量和随机事件向量获得每个用户的个体效益;构建第一选择模型;其中,第一选择模型包括:第一目标函数和第一约束,第一目标函数为以个体效益的时间平均值为自变量的比例公平函数,第一约束至少包括:第一粗相关均衡约束、第一最小个体时间平均效益约束以及第一动作概率约束,第一粗相关均衡约束用于对个体效益的时间平均值和第一辅助变量进行约束,第一最小个体时间平均效益约束用于对个体效益的时间平均值进行约束,第一动作概率约束用于对在随机事件向量的条件下的动作概率进行约束;个体效益的时间平均值根据个体效益、随机事件概率和在随机事件向量的条件下的动作概率获得,在随机事件向量的条件下的动作概率为用户在随机事件向量发生的条件下执行动作向量的概率;随机事件的概率为随机事件发生的概率;根据第一选择模型获得动作概率的数值,以根据动作概率的数值确定用户选择接入的网络。在本发明提供的网络选择方法中,获取动态网络模型和动态用户模型,基于获取动态网络模型和动态用户模型生成随机事件向量,根据随机事件向量和动作向量构建第一选择模型,根据第一选择模型获得动作概率的数值,以根据动作概率的数值确定用户选择接入的网络。解决了由于蜂窝和无人机一体化网络具有高动态性并且网络状态难以预测,导致现有的基于博弈论的方法无法解决蜂窝和无人机一体化网络的选择问题。第二方面,本发明提供一种蜂窝和无人机一体化网络的选择装置,包括:收发机,用于获取无人机网络的容量信息、蜂窝网络的容量信息、用户可接入网络集合信息以及传输速率信息,以及向用户发送动作向量信息,以使用户根据动作向量信息确定接入网络;处理器,根据无人机网络的容量信息、蜂窝网络的容量信息、用户可接入网络集合信息、传输速率信息以及第四选择模型生成动作向量信息;其中,第四选择模型为总违反量的漂移与收益的差值小于等于惩罚上界量;总违反量的漂移根据总违反量的当前时隙的数值和总违反量的后一时隙的数值获得;总违反量的当前时隙的数值根据当前时隙第一虚拟量、当前时隙第二虚拟量以及当前时隙第三虚拟量获得;第一虚拟队列中当前时隙第一虚拟量根据第二粗相关均衡约束的前一时隙违反量和第一虚拟队列中前一时隙第一虚拟量生成,第二虚拟队列的当前时隙第二虚拟量根据第三辅助变量约束的前一时隙违反量和第二虚拟队列中前一时隙第二虚拟量生成,第三虚拟队列的当前时隙第三虚拟量根据第二最小个体时间平均效益约束的前一时隙违反量和第三虚拟队列中前一时隙第三虚拟量生成,其中,初始时隙第一虚拟量、初始时隙第二虚拟量以及初始时隙第三虚拟量均为零;其中,第三选择模型包括第三目标函数和第三约束,第三目标函数为以第三辅助变量为自变量的比例公平函数的时间平均期望,第三约束至少包括第二粗相关均衡约束、第二最小个体时间平均效益约束、第二辅助变量约束以及第三辅助变量约束,第二粗相关均衡约束用于对个体效益的时间平均期望和第二辅助变量的时间平均期望进行约束,第二最小个体时间平均效益约束用于对个体效益的时间平均期望进行约束,第二辅助变量约束用于对第二辅助变量进行约束,第三辅助变量约束用于对第三辅助变量的时间平均期望与个体效益的时间平均期望进行约束;其中,第一选择模型包括:第一目标函数和第一约束,第一目标函数为以个体效益的时间平均值为自变量的比例公平函数,第一约束至少包括:第一粗相关均衡约束、第一最小个体时间平均效益约束以及第一动作概率约束,第一粗相关均衡约束用于对个体效益的时间平均值和第一辅助变量进行约束,第一最小个体时间平均效益约束用于对个体效益的时间平均值进行约束,第一动作概率约束对约束用于对在随机事件向量的条件下的动作概率进行约束;个体效益的时间平均值根据个体效益、随机事件概率和在随机事件向量的条件下的动作概率动获得,在随机事件向量的条件下的动作概率为用户在随机事件向量发生的条件下执行动作向量的概率;每个用户的个体效益根据动作向量和随机事件向量获得;动作向量根据随机事件向量生成,随机事件向量根据蜂窝网络的容量模型、无人机网络的容量模型、用户可接入网络集合以及传输速率模型生成,用户可接入网络集合根据无人机网络的位置模型和用户的位置模型生成。本发明提供的网络选择方法及装置,网络选择方法获取动态网络模型和动态用户模型,基于获取动态网络模型和动态用户模型生成随机事件向量,根据随机事件向量和动作向量构建第一选择模型,根据第一选择模型获得动作概率的数值,以根据动作概率的数值确定用户选择接入的网络。本发明构建了动态网络模型和动态用户模型,仿真了无人机和用户连接的高动态性,网络容量的波动性,和用户业务的时变性等特性。将网络选择问题构建为一个重复随机博弈问题,很好地仿真了用户间的相互竞争与相互影响。这种方法可以最大化总的用户效益,同时保证用户间的公平性。解决了由于蜂窝和无人机一体化网络具有高动态性并且网络状态难以预测,导致现有的基于博弈论的方法无法解决蜂窝和无人机一体化网络的选择问题的问题。附图说明图1为本发明提供的网络选择方法所基于网络的场景图;图2为本发明根据一示例性实施例示出的网络选择方法的流程图;图3为根据图2所示实施例示出的网络选择方法所服从的重复随机博弈结构的示意图;图4为本发明根据一示例性实施例示出的蜂窝和无人机一体化网络的选择装置的结构示意图;图5为本发明图4所示实施例示出的蜂窝和无人机一体化网络的选择装置中处理器所执行方法的流程图;图6是用户数n=50,无人机的架数md=6时,采用本发明提供的网络选择方法时稳定变量随时间的变化情况的示意图;图7是无人机的架数md=6时,用户数n对本发明提出的网络选择方法运行时间的影响的示意图;图8是用户数n=50时,无人机的架数md对本发明提出的网络选择方法运行时间的影响的示意图;图9是无人机的架数md=6时,用户数n对本发明提出的网络选择方法及对比方法获得总的用户效益的影响的示意图;图10是用户数n=50时,无人机的架数md对本发明提出的网络选择方法及对比方法获得总的用户效益的影响的示意图;图11是无人机的架数md=6时,用户数n对本发明提出的网络选择方法及对比方法获得简氏公平性指标的影响的示意图;图12是用户数n=50时,无人机的架数md对本发明提出的网络选择方法及对比方法获得简氏公平性指标的影响的示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。图1为本发明提供的网络选择方法所基于网络的场景图。如图1所示,本发明考虑一个蜂窝和无人机一体化网络的网络选择场景,在一个给定的面积为l×wm2的区域内,一组用户102在无限的时隙序列t={0,1,2,...}上随机独立地移动,一个蜂窝网络103用于给这些用户提供无线接入,同时,一组无人机101被部署用于缓解蜂窝网络的拥塞情况。同时,本发明假设每架无人机都与地面站直接连接,独立地移动,并部署在相同固定的高度h。令表示网络的集合,其中,j=1表示蜂窝网络;表示第j个无人机网络;j=0表示空网络,代表用户没有接入任何网络。在每个时隙t,用户可以从可接入的网络集合中选择一个网络接入。同时,本发明不考虑当用户改变其接入状态时的切换代价。图2为本发明根据一示例性实施例示出的网络选择方法的流程图。如图2所示,本发明提供的网络选择方法包括:s101、获取动态网络模型和动态用户模型。更具体地,动态网络模型至少包括:无人机网络的位置模型、蜂窝网络的容量模型以及无人机网络的容量模型,动态用户模型至少包括:用户的位置模型、传输速率模型。针对网络覆盖特性,本实施例假设蜂窝网络可以覆盖整个给定区域,而一个无人机网络只能覆盖一个小的区域。具体地,每个无人机网络具有相同并有限的覆盖半径,记为rd。令rij代表第i个用户和第j架无人机间的水平距离。若rij≤rd,则第i个用户可以接入第j个无人机网络;否则,不能接入。针对无人机网络的位置模型,本实施例引入一个具有反射边界的平滑转向移动模型。在此模型中,每架无人机以平滑、随机的轨迹飞行。具体地,假设无人机以恒定的前向速度vd(单位:米每秒)飞行,并且随机地改变其向心加速度。无人机保持当前向心加速度的持续时间(单位:秒)服从均值为1/λd的指数分布。同时,无人机转弯半径(单位:米)的倒数服从均值为0,方差为的高斯分布。针对网络容量模型,本实施例假设蜂窝网络在时隙t的网络容量,记为c1(t),服从限制在区间[μb-2σb,μb+2σb]上的截断高斯分布其中2σb<μb。同时本实施例假设,对于每个无人机网络其时隙t的网络容量cj(t)是独立同分布,并且服从限制在区间[μc-2σc,μc+2σc]上的截断高斯分布其中2σc<μc。针对用户的位置模型,本实施例基于高斯-马尔科夫移动模型设计了一个有界高斯-马尔科夫移动模型。具体地,在高斯-马尔科夫移动模型的基础上,本实施例考虑用户在一个矩形区域内移动,并在边界处反射。从而,在有界高斯-马尔科夫移动模型中,用户的位置lu(t)=((xu(t),yu(t))和用户的速度满足如下的更新公式:lu(t+1)=(-1)k⊙(lu(t)+vu(t)-k⊙(l,w))(1)其中,⊙表示哈达马积(hadamardproduct),表示向下取整运算,αu=(αux,αuy)为二维记忆级别向量,σu=(σux,σuy)为速度的二维渐进标准差向量,二维记忆级别向量和速度的二维渐进标准差向量均为常量,表示一个二维不相关高斯过程,并且和相互独立,均为零均值和单位方差。针对用户的传输速率模型,本实施例假设在时隙t,每个用户的所需数据传输速率记为ri(t)满足独立同分布,并且服从限制在区间[μr(t)-2σr(t),μr(t)+2σr(t)]上的截断高斯分布其中σr(t)=ρrμr(t),此外,μr(t)是一个在有限集合上取值的马尔科夫过程,并且本实施例定义它的一步转移概率矩阵为其中为给定其当前值为下一个时隙将转移到值的概率。s102、根据无人机网络的位置模型和用户的位置模型生成用户可接入网络集合;根据蜂窝网络的容量模型、无人机网络的容量模型、用户可接入网络集合以及传输速率模型生成随机事件向量。更具体地,假设本实施例提出的网络选择为一个重复随机博弈问题,图3为根据图2所示实施例示出的网络选择方法所服从的重复随机博弈结构的示意图。如图3所示,重复随机博弈结构包括环境201,博弈管理者202和若干博弈者203。本实施例中将n个用户视为博弈者203,将用户采取的网络选择策略视为动作。在每个时隙t∈{0,1,2,...},每个博弈者可以从环境201中观察到一个随机事件ωi(t)∈ωi,而博弈管理者202可以从环境201中观察到全部的随机事件向量ω(t)=(ω0(t),ω1(t),...,ωn(t))∈ω,其中,ω0(t)∈ω0表示仅博弈管理者202知道的随机事件,ω=ω0×ω1×…×ωn。具体地,在本实施例中,仅博弈管理者202知道的随机事件ω0(t)包括蜂窝网络的容量和无人机网络的容量,即ω0(t)=(c1(t),c2(t),...,cm(t)),并对于所有的令其中,表示博弈者203-i可接入的非空网络的集合,即s103、根据随机事件向量生成动作向量。更具体地,动作向量用于表示用户选择接入无人机网络和/或蜂窝网络。当博弈管理者202在时隙t观察到随机事件向量ω(t)后,它向每个博弈者203-i发送一个建议其中,表示博弈者203-i可采用的动作的有限集合。例如,si(t)=j表示博弈管理者202建议博弈者203-i选择网络j。此外,为了方便表述,本实施例将简化为对于每个博弈者它将基于建议si(t)选择动作例如,αi(t)=j表示博弈者203-i选择接入网络j。本实施例令s(t)=(s1(t),s2(t),...,sn(t))和α(t)=(α1(t),α2(t),...,αn(t))分别表示建议向量和动作向量,并定义s104、根据动作向量和随机事件向量获得每个用户个体效益。在时隙t,随机事件向量ω(t)和动作向量α(t)确定了每个博弈者203-i的个体效益ui(t)。形式上,个体效益ui(t)的表达式如下:更明确地,本实施例采用如下表达式定义ui(t)。定义1:对于所有的个体效益ui(t)可以被定义为:其中,f(x)为有效传输比例函数,定义为:xb是一个代表网络繁忙比例阈值的常数。1{αk(t)=αi(t)}表示一个0-1指示函数。若αk(t)=αi(t),该指数函数等于1;否则,等于0。表示αi(t)所对应网络的容量。本实施例假设对于每个博弈者203-i,其所需数据传输速率ri(t)的上界为则由定义1,可以得到:s105、构建第一选择模型。更具体地,随机事件向量ω(t)的概率密度函数,记为π(ω),定义如下:其中,表示“定义为等于”。本实施例进一步将动作概率pr[α|ω]定义为和ω∈ω上的条件概率密度函数,其中,由概率论,该动作概率满足第一动作概率约束:其中,表示观察到随机事件ωi后博弈者203-i可采用的动作的有限集合。由pr[α|ω]的定义,本实施例定义变量表示个体效益ui(t)的时间平均值。由大数定理,若在每个时隙t,动作向量α(t)是根据相同的条件概率密度函数pr[α|ω]独立地选择的,则可以保证,对于所有的可以以概率1地(withprobability1,w.p.1)表达为如下形式:此外,考虑到博弈管理者202的目标是制定pr[α|ω]以最大化总的用户效益,同时保证用户间的公平性,本实施例为博弈管理者202设计了一个递增的,上凸的比例公平函数作为第一选择模型的第一目标函数。明确地,本实施例假设比例公平函数为对数函数的和:然而,每个博弈者203-i的目标是最大化自己的时间平均效益因此,博弈者203可以选择是否接受博弈管理者202的建议。对于每个博弈者203-i,存在如下两种类型的选择:参与:若博弈者203-i在每个时隙t∈{0,1,2,...}总是选择接受建议si(t),则称其为参与。也就是说,对于所有的t∈{0,1,2,...},αi(t)=si(t)。不参与:若博弈者203-i在每个时隙t∈{0,1,2,...}通过其观察到的随机事件ωi(t)选择动作αi(t),则称其为不参与。本实施例假设不参与的博弈者203不会收到建议si(t)。为了激励所有博弈者203参与,博弈管理者202制定的pr[α|ω]需要是一个粗相关均衡,其定义如下:定义2:对于随机博弈,如果存在第一辅助变量使得对于所有的满足如下条件,则pr[α|ω]是一个粗相关均衡:其中,αi=α\{αi}表示动作向量α中除了αi的所有元素,为不参与的博弈者203-i预设的特定动作,υi∈ωi为不参与的博弈者203-i预设的特定事件。直观地,表示不参与的博弈者203-i当观察到ωi=υi时,可以得到的最大条件期望效益。由定义2,粗相关均衡约束(13)和(14)的总个数为是关于集合ωi和大小的线性函数,其中|·|表示集合中元素数量。然而,在本实施例的系统模型中,的值过大,意味着粗相关均衡约束的计算复杂度很高。本实施例接下来讨论如何减少的值。首先,本实施例简化预设事件υi的取值空间ωi。根据本实施例中网络模型的描述,所有的无人机都是同质的。因此,针对预设事件υi,本实施例仅考虑用户可接入无人机网络的数量而不是它们索引的不同。并且,用户i被超过两架无人机同时覆盖的可能性较小,从而,的集合可以被简化为{0,1,2+},其中“0”,“1”和“2+”分别表示覆盖用户i的数量为0,1和不小于2。此外,针对预设事件υi,本实施例将区间分为kr段。若其中,ik=1,2,...,kr,则称ri(t)属于第ik段。综上所述,本实施例将预设事件υi的取值空间ωi简化为注:ωi的取值空间仍为ωi,对于所有的ωi∈ωi和约束(14)中的ωi=υi表示ωi为υi简化前的形式,约束(13)中的其中υi=ωi表示υi为ωi简化后的形式。然后,本实施例简化预设动作βi的取值空间由于无人机的同质性,针对预设动作βi,本实施例不区分用户i选择接入的无人机网络的索引。同时由于当用户i在时隙t接入空网络时,由定义1,其个体效益ui(t)=0,因此本实施例不考虑接入空网络的预设动作,即βi≠0。从而,本实施例可以将预设动作βi的取值空间简化为其中“蜂窝”和“无人机”分别代表用户i选择接入蜂窝网络和无人机网络。此外,当用户i选择接入无人机网络时,其等概率地接入一个可接入的无人机网络。注:αi的取值空间仍为从而,的值被减少为同时,当用户i没有可接入的无人机网络时,预设动作βi=无人机不可行。因此,本实施例忽略如下的预设事件-预设动作匹配:通过这种方式,的值被进一步减少为6kr-kr=5kr。最终,粗相关均衡(13)和(14)的总个数被减少为在实际场景中,某些用户存在最小个体时间平均效益需求,本实施例将这些用户的集合记为因此,博弈管理者202必须保证这些用户的效益满足最小时间平均效益约束:基于上述分析,所构建的第一选择模型包括:第一目标函数和第一约束。第一约束包括:第一粗相关均衡约束、第一最小个体时间平均效益约束以及第一动作概率约束,第一选择模型具体如下:满足如下约束:s106、根据第一选择模型获得动作概率的数值,以根据动作概率的数值确定用户选择接入的网络。博弈管理者202的目的是求解第一选择模型得到动作概率pr[α|ω],并根据pr[α|ω]选择建议向量s(t)=α(t),依据建议向量确定用户选择接入的网络。在本实施例提供的网络选择方法中,获取动态网络模型和动态用户模型,基于获取动态网络模型和动态用户模型生成随机事件向量,根据随机事件向量和动作向量构建第一选择模型,根据第一选择模型获得动作概率的数值,以根据动作概率的数值确定用户选择接入的网络。解决了由于蜂窝和无人机一体化网络具有高动态性并且网络状态难以预测,导致现有的基于博弈论的方法无法解决蜂窝和无人机一体化网络的选择问题的问题。尽管上述问题(16)是一个凸优化问题,但由于以下两个原因,其求解仍非常具有挑战性:1)π[ω]对于求解问题(16)是必不可少的,然而,由于π[ω]受网络容量,无人机和用户的移动,用户业务等各种因素的影响,其可能无法得到。2)变量pr[α|ω]的规模为其随着用户数呈指数增长。为了解决这些问题,本实施例将这个具有挑战性的问题转换为一个新问题,新问题的规模大大降低,并且不需要知道π[ω]。本实施例根据另一示例性实施例示出的网络选择方法,其与图2所示实施例存在的区别在于:在s104之后包括:s1051、构建第二选择模型。更具体地,对于一个时隙t∈{0,1,2,...}上的实值随机过程u(t),本实施例定义其前t时隙的时间平均期望为:对于所有的和本实施例定义:利用随机过程理论,本实施例将第一选择模型(16)等价转换为第二选择模型,其中,第二选择模型包括第二目标函数和第二约束,第二目标函数为以个体效益的时间平均期望为自变量的比例公平函数,第二约束至少包括第二粗相关均衡约束、第二最小个体时间平均效益约束以及第二辅助变量约束,第二粗相关均衡约束用于对个体效益的时间平均期望和第二辅助变量的时间平均期望进行约束,第二最小个体时间平均效益约束用于对个体效益的时间平均期望进行约束,第二辅助变量约束用于对第二辅助变量进行约束。在每个时隙t∈{0,1,2,...},博弈管理者202观察到随机事件向量ω(t)∈ω,并对动作向量和变量求解,其中,表示在时隙t的第二辅助变量。满足如下约束:s106、根据第二选择模型获得动作向量的数值,以根据动作向量的数值确定用户选择接入的网络。在本实施例提供的网络选择方法中,构建的第二选择模型基于个体效益的时间平均期望,可以在随机事件向量概率未知的情况下获得动作向量,以根据动作向量的数值确定用户选择接入的网络。本实施例根据又一示例性实施例示出的网络选择方法,其与上一实施例存在的区别在于:在s1051之后,还包括:s1052、构建第三选择模型;更具体地,上述问题(19)的目标是最大化一个关于时间平均的非线性函数,为将其等价转换为最大化一个关于非线性函数的时间平均,本实施例引入第三辅助向量γ(t)=(γ1(t),...,γn(t)),其中,对于所有的并定义g(t)=φ(γ1(t),...,γn(t))。由琴生不等式,可以得到:利用琴生不等式,本实施例将第二选择模型(19)等价转换为第三选择模型(21)。其中,第三选择模型包括第三目标函数和第三约束,第三目标函数(22.1)为以第三辅助变量为自变量的比例公平函数的时间平均期望,第三约束至少包括第二粗相关均衡约束(21.4)和(21.5)、第二最小个体时间平均效益约束(21.7)、第二辅助变量约束(21.6)以及第三辅助变量约束(21.2)和(21.3)。在每个时隙t∈{0,1,2,...},博弈管理者202观察到随机事件向量ω(t)∈ω,并对动作向量变量和辅助向量γ(t)求解:满足如下约束:其中,第二粗相关均衡约束(21.4)和(21.5)对个体效益的时间平均期望和第二辅助变量的时间平均期望进行约束,第二最小个体时间平均效益约束(21.7)用于对个体效益的时间平均期望进行约束,第二辅助变量约束(21.6)用于对第二辅助变量进行约束,第三辅助变量约束(21.2)和(21.3)用于对第三辅助变量的时间平均期望与个体效益的时间平均期望进行约束;s106、根据第三选择模型获得动作向量的数值,以根据动作向量的数值确定用户选择接入的网络。在本实施例提供的网络选择方法中,以第三辅助变量为自变量的比例公平函数的时间平均期望作为第三目标函数,可以简化目标函数,便于根据第三选择模型获得动作向量。本实施例根据另一示例性实施例示出的网络选择方法,其与上一实施例存在的区别在于:在s1052之后包括:s1053、利用漂移加惩罚技术将第三选择模型转化为第四选择模型。考虑漂移加惩罚技术的原理,针对约束(21.5),本实施例对于所有的定义第一虚拟队列第一项qi(t):若以下平均速率稳定条件成立,则约束(21.1)满足:其中,非负运算[x]+=max{x,0}。同样的,针对约束(21.4),(21.2)和(21.7),本实施例分别定义其他三种类型的虚拟队列。对于所有的和定义第一虚拟队列第二项对于所有的定义第二虚拟队列zi(t):zi(t+1)=zi(t)+γi(t)-ui(t)(25)对于所有的定义第三虚拟队列hi(t):若以下平均速率稳定条件成立,则约束(21.4),(21.2)和(21.7)满足:为了简单起见,本实施例假设所有虚拟队列均初始化为0。由公式(22),(24),(25)和(26)可知,第一虚拟队列中当前时隙第一虚拟量根据第二粗相关均衡约束的前一时隙违反量和第一虚拟队列中前一时隙第一虚拟量生成。第二虚拟队列的当前时隙第二虚拟量根据第三辅助变量约束的前一时隙违反量和第二虚拟队列中前一时隙第二虚拟量生成,第三虚拟队列的当前时隙第三虚拟量根据第二最小个体时间平均效益约束的前一时隙违反量和第三虚拟队列中前一时隙第三虚拟量生成。本实施例将函数l(t)定义为在时隙t,四种类型的队列[qi(t)]+,zi(t)和[hi(t)]+的平方和(为方便起见,除以2),称其为李雅普诺夫函数,作为总违反量:其中,对于所有的令hi(t)=0。此外,本实施例定义漂移加惩罚表达式为δ(t)-vg(t),其中,δ(t)=l(t+1)-l(t)表示李雅普诺夫漂移,即总违反量的漂移量,-g(t)代表“惩罚”,g(t)表示以第三辅助变量为自变量的比例公平函数,v为非负惩罚系数,其影响约束违反和最优性之间的权衡。漂移加惩罚表达式满足如下条件:最小化约束违反,最大化目标。因此,构建如下第四选择模型:其中,惩罚上界量包括:常数项、第一惩罚上界项、第二惩罚上界项以及第三惩罚上界项,常数项为第一惩罚上界项为第二惩罚上界项为第三惩罚上界项为s106、根据第四选择模型获得动作向量的数值,以根据动作向量的数值确定用户选择接入的网络。在本实施例提供的网络选择方法中,第四选择模型为不等式形式,模型简单,便于根据第四选择模型获得动作向量。本实施例根据再又一示例性实施例示出的网络选择方法,其与上一实施例存在的区别在于:s106、根据第四选择模型获得动作向量的数值,以根据动作向量的数值确定用户选择接入的网络,具体包括如下步骤:s1061、在每个时隙t,博弈管理者202观察到第一虚拟队列中当前时隙第一虚拟量第一项qi(t),第一虚拟队列中当前时隙第一虚拟量第二项第二虚拟队列中当前时隙第二虚拟量zi(t),第三虚拟队列中当前时隙第三虚拟量hi(t)和随机事件向量ω(t)∈ω。本实施例通过在每个时隙t贪婪地最小化δ(t)-vg(t)的上界求解问题(21.1)。同时,δ(t)-vg(t)的上界可以分解为四个独立的项。在每个时隙t,第一项是常数,第二项关于第三辅助向量γ(t)的函数,第三项是关于第二辅助变量的函数,第四项是关于个体效益ui(t)和的函数。s1062、对于所有的根据当前时隙第二虚拟量以及第一惩罚上界项选择求解第三辅助变量γi(t)的数值:问题(32)的闭式解为,对于所有的s1063、对于所有的和根据当前时隙的随机事件向量、当前时隙第一虚拟量以及第二惩罚上界项选择求解第二辅助变量的数值:问题(34)的闭式解为,对于所有的和s1064、根据当前时隙的随机事件向量、当前时隙第一虚拟量、当前时隙第二虚拟量、当前时隙第三虚拟量以及第三惩罚上界项选择求解动作向量α(t)的数值:s1065、向每个博弈者203-i发送αi(t),以使博弈者203-i根据动作向量αi(t)确定选择接入的网络。分别根据公式(4)和(18)计算个体效益ui(t)和分别根据公式(22),(24),(25)和(26)更新虚拟队列qi(t),zi(t)和hi(t)。问题(36)是一个非线性整数规划问题,其中,ui(t)和是关于α(t)的复杂的非线性函数。求解问题(36)的遍历算法的复杂度是其随着用户数呈指数增长。尽管可以利用启发式算法(如遗传算法)近似求解该问题,但由于启发式算法收敛速度慢,可能需要较长的时间。为了加速优化过程,本实施例针对问题(36),设计了一种线性近似机制。由定义1,若则网络拥塞。为了避免这种情况,博弈管理者202制定的建议动作向量α(t)应满足如下第一动作向量约束:对于每个参与的博弈者若αi(t)=0,则由定义1,ui(t)=0。若αi(t)≠0,则由约束(37)和定义1,ui(t)=ri(t)。因此,两种情况下的效益函数ui(t)可以通过如下方式计算,进而形成参与的博弈者的个体效益与传输速率之间映射表:ui(t)=1{αi(t)≠0}ri(t)(38)对于每个不参与的博弈者每个和本实施例考虑的定义(18)。若υi≠ωi(t),则若υi=ωi(t),则此时本实施例根据以下两种不同的情况估计进而形成不参与的博弈者的个体效益与传输速率之间映射表。1)若博弈者203-i接入的网络恰好与博弈管理者202建议的网络相同,即βi=αi(t),则2)若博弈者203-i接入的网络与博弈管理者202建议的网络不同,即βi≠αi(t),则本实施例估计博弈者203-i在时隙t接入网络j=βi的有效传输比例具体地,定义时隙t网络的剩余容量为并假设则:其中,表示βi对应网络的容量。因此,可以通过如下方式估计:接下来,本实施例讨论如何通过引入一组辅助变量aij,其中,{aij}为建议矩阵,进而将问题(36)转换为一个整数线性规划问题。对于所有的和定义建议矩阵与动作向量的映射关系为:其中aij=1表示博弈管理者202建议博弈者203-i接入网络j,aij=0表示博弈管理者202建议博弈者203-i不接入网络j。由aij的定义和约束可以得到建议矩阵约束:然后,利用变量aij代替(37)中的α(t),可以得到第二动作向量约束:然后,利用变量aij代替(38)中的α(t),可以得到参与的博弈者的个体效益为:此外,对于所有的和本实施例令利用变量aij代替(40)中的α(t),可以得到不参与的博弈者的个体效益:根据(41)-(46),本实施例将问题(36)转换为如下整数线性规划问题:满足如下约束:其中,cij被定义为:其中,ei(t)=[qi(t)]++zi(t)+[hi(t)]+,为第四惩罚上界项,构成第二动作向量约束,构成建议矩阵约束。在初始时隙(t=0),由于所有的虚拟队列被初始化为零,因此所有权重cij将为零。为了解决这一问题,本实施例定义在时隙t=0的权重cij为:问题(47)是一种关于辅助变量aij的整数线性规划问题,其可以利用mosek数学优化软件包(mosekoptimizationtools)求解。此外,在mosek中,其利用分支定界法松弛整数变量,从而将整数线性优化问题松弛为可解的线性优化问题。本实施例利用李雅普诺夫优化方法和线性近似机制对构建的问题进行转换,不需要预先知道网络和用户的状态概率π(ω),并极大地降低了问题的计算复杂度。在求解问题(21.1)的主要框架的基础上,结合问题(32),(34)和(36)的求解方法,本发明提出了一种基于图4所示的高效公平的网络选择(efficientandfairnetworkselection,efns)方法的蜂窝和无人机一体化网络的选择装置。图4为本发明根据一示例性实施例示出的蜂窝和无人机一体化网络的选择装置的结构示意图。如图4所示,网络选择装置300包括收发机311和存储器312,收发机311用于收集无人机网络容量信息cj(t),蜂窝网络容量信息c1(t)、用户可接入网络集合信息以及传输速率信息ri(t),以形成随机事件向量ω(t)。此外,收发机311负责将博弈管理者202制定的建议动作信息发送到每个用户设备330。存储器312可以是任意形式的计算机可读入介质,用于存储参数,状态数据,动作数据和虚拟队列数据等信息。网络选择装置300还包括处理器313,处理器313可以是任意形式的中央处理单元,用于处理efns方法中的数据。具体地,处理器313根据无人机网络的容量信息、蜂窝网络的容量信息、用户可接入网络集合信息、数据传输速率信息以及第四选择模型获得动作向量。每个用户设备330中包含网络接入系统331,该系统用于根据接收到的动作向量,控制用户设备330选择网络接入。其中,第四选择模型已经在上述实施例中详细描述,在此不再赘述。继续参考图4,本实施例提供的网络选择装置,还包括:人机交互模块314,人机交互模块314包括显示器和操作员输入接口,显示器可以向计算机操作员340显示结果,操作员输入接口可以从一个或多个输入设备(如键盘和鼠标等)获取计算机操作员340的输入信息。继续参考图4,本实施例提供网络装置还包括:存储器312。图5为本发明图4所示实施例示出的网络选择装置中处理器313所执行efns方法的流程图,如图5所示,处理器313执行如下动作:接收当前时隙t的状态信息ω(t)和虚拟队列信息qi(t),zi(t),hi(t),输出信息为当前时隙t博弈管理者202的建议动作向量α(t)和下一时隙t+1的虚拟队列信息qi(t+1),zi(t+1),hi(t+1)。s201、获取数据传输速率的上界分段值kr、惩罚系数v并初始化第一虚拟队列至第三虚拟队列。更具体地,将其存储于存储器312中,这些参数可以预先给定默认值,并且计算机操作员340可以通过人机交互模块314修改这些参数。初始化虚拟队列qi(0)=0,zi(0)=0和hi(0)=0,存储于存储器312。在每个时隙t=0,1,、,t-1,重复步骤2-7,其中,t为总时隙数。s202、收集网络和用户的状态信息以形成随机事件向量。更具体地,处理系统310通过收发机311收集网络和用户的状态信息ω(t)∈ω。具体地,ω(t)将暂时存储于存储器312直到步骤6结束。s203、根据当前时隙第二虚拟量以及第一惩罚上界项获取第三辅助变量γi(t)。更具体地,对于每个处理器313根据公式(33)计算第三辅助变量γi(t),第三辅助变量γi(t)将暂时存储于存储器312直到步骤6结束。s204、根据当前时隙的随机事件向量、当前时隙第一虚拟量以及第二惩罚上界项选择获取第二辅助变量。更具体地,对于每个和处理器313根据公式(35)计算第二辅助变量第二辅助变量将暂时存储于存储器312直到步骤6结束。s205、根据第四惩罚上界项、第二动作向量约束以及建议矩阵约束获取建议矩阵,根据建议矩阵获取动作向量。更具体地,处理器313通过求解问题(47)得到建议矩阵{aij},根据建议矩阵{aij}获得动作向量α(t),然后收发机311将建议动作αi(t)发送给每个用户设备330-i的网络接入系统331,建议动作向量α(t)将暂时存储于存储器312直到步骤6结束。s206、计算个体效益和第一虚拟队列至第三虚拟队列。更具体地,处理器313分别根据公式(4)和(18)计算ui(t)和并分别根据公式(22),(24),(25)和(26)计算qi(t+1),zi(t+1)和hi(t+1),更新存储器312中的虚拟队列。s207、判断时隙t是否达到预设时隙值,若否,转入s208,否则,停止循环。s208、更新时隙t,并转入步骤s201。下面是利用本实施例提供的efns方法,实现针对蜂窝和无人机一体化网络的网络选择的一个仿真。为了验证网络选择方法的有效性,本实施例设计了三个基准对比方法,只接入蜂窝(cellular-only,co)方法,随机接入(randomaccess,ra)方法与即时卸载(on-the-spotoffloading,otso)方法。对于co方法,在每个时隙,每个用户总是选择接入蜂窝网络。对于ra方法,在每个时隙,每个用户总是等概率地随机接入可接入的网络。对于otso方法,在每个时隙,每个用户检查是否可以接入无人机网络,如果可以,则其等概率地随机接入一个可接入的无人机网络;否则,接入蜂窝网络。仿真中的参数设置如下:所考虑的几何区域的大小为500×500m2,即,l=500m,w=500m。重复随机博弈持续1000秒,每个时隙的持续时间为1秒,因此,仿真运行1000个循环,即,t=1000。在无人机移动模型中,无人机的初始位置独立均匀地分布在所考虑区域,初始方向独立均匀地分布在[0,2π)上,参数在网络容量模型中,蜂窝网络的容量(mb/s)服从一个截断的高斯分布ntru(200,202,±40),每个无人机网络的容量独立并服从一个截断的高斯分布ntru(30,32,±6)。此外,无人机的覆盖半径rd=100m。在用户移动模型中,用户的初始位置独立均匀地分布在所考虑区域,初始速度独立并服从二维高斯分布n(0,0;22,22,0),参数αu=(0.73,0.73),σu=(2,2)。在用户业务模型中,参数ρr=0.2,过程μr(t)(mb/s)从集合{μ1,μ2,...,μ5}={2.5,5,7.5,10,12.5}中取值,μr(t)的一步转移概率矩阵p如表1所示:表1μr(t)的一步转移概率矩阵p0.80.20000.20.60.20000.20.60.20000.20.60.20000.20.8对于定义1中的函数f(x),令网络繁忙比例阈值xb=0.9。对于最小时间平均效益约束,令并对所有的令对于本发明中提供的网络选择方法,对所有的令并令kr=5,惩罚系数v=100。同时,本实施例采用如下四个指标评价所提出方法的性能,包括:队列稳定性:本实施例使用定义在时隙t=1,2,...,t-1上的稳定变量和来度量efns方法的队列稳定性。运行时间:执行efns方法t=1000次循环的总时间。总效益:整个仿真过程所有用户的总效益,即,公平性:本实施例使用简氏公平性指标(jain’sfairnessindex,定义为)来度量网络资源分配的公平性,其中代表整个仿真过程中,用户i的时间平均效益,即,在仿真中,本实施例在随机生成的100组数据集上测试所有的比较方法。对于每个比较方法,本实施例可以得到100个结果,并且最终结果是它们的平均值。图6给出了用户数n=50,无人机的架数md=6时,采用本发明提供的网络选择方法时稳定变量随时间的变化情况,由图6可知:随着时隙t的增长,所有的稳定变量的值迅速降低,经过一段很长的时间,所有的稳定变量趋于0。这一结果说明efns方法可以保证所有队列平均速率稳定,从而约束(21.2)、(21.4)、(21.5)和(21.7)得以满足。图7给出了无人机的架数md=6时,用户数n对本发明提出的网络选择方法运行时间的影响;图8给出了用户数n=50时,无人机的架数md对本发明提出的网络选择方法运行时间的影响。由图7和图8可知:efns方法的平均运行时间随着n或md的增加而增加。这是因为当n或md增加时,问题的规模变大。efns方法可以实现在线的网络选择。图9给出了无人机的架数md=6时,用户数n对本发明提出的网络选择方法及对比方法获得总效益的影响;图10给出了用户数n=50时,无人机的架数md对本发明提出的网络选择方法及对比方法获得总效益的影响。由图9和图10可知:efns方法总可以实现最高的总效益。这是因为efns方法在避免网络拥塞的同时充分利用了网络资源。efns方法的总效益随着n的增加而增长,但因为当n较大时,网络容量限制总效益的增长,因此其增长速率下降。其他三种方法的总效益随着n的增加很快开始下降,这是因为这三种方法没有避免网络拥塞的机制而大量的用户将会导致网络拥塞。除了co方法,所有方法的总效益随着md的增加单调增加,这是因为用户可以将业务卸载到无人机网络上。图11给出了无人机的架数md=6时,用户数n对本发明提出的网络选择方法及对比方法获得简氏公平性指标的影响;图12给出了用户数n=50时,无人机的架数md对本实施例提出的网络选择方法及对比方法获得简氏公平性指标的影响。由图11和图12可知:efns方法可以实现高的公平性。具体地,因为在比例公平函数(12)中考虑了网络资源的公平分配,efns方法的公平性指标接近1。然而,随着n的增加或md的减少,efns方法的公平性指标逐渐下降,这是因为较大的n或较小的md会激活最小时间平均效益约束。尽管ra和otso方法没有考虑公平性,这两种方法依然可以实现高的公平性。这是因为在本实施例的模型中,用户具有同质性,因此在一段很长的时间后,用户的平均效益接近。co方法可以实现最高的公平性。这是因为在每个时隙,所有的用户总是具有相同的有效传输比例。然而,co方法的总效益最低。最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1