无线网络多控制器部署和资源分配方法和装置与流程

文档序号:16928680发布日期:2019-02-22 20:04阅读:202来源:国知局
无线网络多控制器部署和资源分配方法和装置与流程

本发明涉及网络控制技术领域,尤其是涉及一种网络多控制器部署和资源分配装置。



背景技术:

近几年,随着无线网络中的移动数据指数型增长,如蜂窝网络、物联网等。在2020年大概会有500亿物联网设备添加到移动互联网中。传统的管理技术无法满足用户对任务服务质量的要求。为了应对数据急剧膨胀的挑战,软件定义无线网络将传统的无线网络架构的数据层和控制层解耦,通过控制器有效地管理用户请求资源、优化系统性能。

网络的控制功能通过软件定义无线网络的控制器实现,随着网络设备的增加,单个控制器由于其设备本身的能力有限无法高效的管控整个网络,所以在软件定义无线网络中部署多个控制器用于提高控制层的能力是一种解决途径。在有线的软件定义网络中,如何在不同的位置部署合适的控制器影响整个网络的处理性能,该问题称作多控制器部署问题。该问题包括两个部分:确定控制器个数和部署多个控制器,解决方法有粒子群算法、模拟退火算法等。当前多控制器部署问题在软件定义无线网络中刚刚起步,模型主要参考有线网的模型,但并未考虑无线网络中能耗的影响。资源分配问题是提高控制器处理性能的另一个关键问题。现实网络中的系统非常复杂、模型难于精确建立,因此传统的建模方法无法应对现实环境的动态变化做出在线决策。

针对上述问题,还未提出有效的解决方案。



技术实现要素:

有鉴于此,本发明的目的在于提供一种网络多控制器部署和资源分配装置,以缓解了现有的网络多控制器部署和资源分配方法中,网络处理性能较低的技术问题。

第一方面,本发明实施例提供了一种网络多控制器部署和资源分配方法,该方法包括:确定目标参数,其中,所述目标参数包括:目标无线网络的参数,粒子群算法参数,强化学习算法参数,控制器的初始部署位置;基于粒子群优化算法,目标无线网络参数,粒子群算法参数,对所述初始部署位置执行第一预设次数迭代优化,得到每个控制器的最优部署位置;基于所述每个控制器的最优部署位置和每个所述控制器的资源分配策略确定所述目标无线网络的初始动作空间,其中,所述状态空间用于表征所述目标无线网络的资源分配策略,所述资源分配策略表征各个控制器的剩余计算资源总量和完成任务所需的计算资源量;基于强化学习算法,所述初始状态空间和所述强化学习算法参数,对所述初始状态空间执行第二预设次数迭代优化,得到所述目标无线网络的最优资源分配策略。

进一步地,所述粒子群优化算法参数包括:目标参数,更新函数参数,第一预设迭代次数,粒子群中每个粒子的预设位置和每个粒子的预设速度;对所述初始部署位置执行第一预设次数迭代优化每个迭代优化包括:反复执行以下迭代步骤,直至第一迭代次数满足第一预设迭代次数,则基于执行第一预设迭代次数之后得到的粒子群中的每个粒子的目标位置,确定每个所述控制器的最优部署位置:第一计算步骤,利用目标函数对所述目标参数和所述目标无线网络的参数,所述目标参数和粒子群中每个粒子的预设位置进行计算,得到粒子群中每个粒子的目标函数值;第一确定步骤,基于粒子群中每个粒子的目标函数值,确定粒子群中每个粒子的历史最优位置和每个粒子的全局最优位置;第二计算步骤,利用更新函数对所述每个粒子的历史最优位置、所述每个粒子的全局最优位置、所述第一更新函数参数、所述粒子群中每个粒子的预设位置和每个粒子的预设速度进行计算,得到粒子群中每个粒子的目标位置和每个粒子的目标速度;其中,若当前第一迭代次数小于所述第一预设迭代次数,则将所述每个粒子的目标位置确定为所述预设位置,以及将所述每个粒子的目标速度确定为所述预设速度,并返回执行所述第一计算步骤,所述第一确定步骤,和所述第二计算步骤,继续进行迭代计算。

进一步地,所述强化学习算法参数包括:目标q函数参数,损失函数参数,第二预设迭代次数,动作空间参数;对所述初始状态空间执行预设次数迭代优化中每个迭代优化包括:反复执行以下迭代步骤,直至第二迭代次数满足第二预设迭代次数,则基于执行第二预设迭代次数之后得到的状态空间,确定为最优状态空间,并基于所述最优状态空间,确定所述目标无线网络的最优资源分配策略:第三计算步骤,利用目标q函数对所述目标q函数参数,所述回报值和所述状态值进行计算,得到所述初始状态空间对应的目标q函数值;第四计算步骤,利用损失函数对所述损失函数参数和所述目标q函数值进行计算,得到所述初始状态空间对应的损失函数值;第二确定步骤,基于所述初始状态空间对应的损失函数值,确定目标状态空间;其中,若当前第二迭代次数小于所述第二预设迭代次数,则将所述目标状态空间确定为所述初始状态空间,并返回执行所述第三计算步骤,所述第四计算步骤和所述第二确定步骤,继续进行迭代计算。

进一步地,所述目标函数为:

其中,

其中,在目标无线网络中包含个n控制器和m个控制元素,则控制器为c={c1,c2,…,cn},网络元素为s={s1,s2,…,sm},任务定义为qi=(wi,ηi),wi为目标无线网络完成任务需要的cpu周期,ηi为任务的数据量,hi,j为控制器ci和它的控制元素之间的信道增益,p(ci)是控制器的传输功率,σ2是控制元素的噪声,b是信道带宽,代表信道间的干扰,fi为控制器ci的计算能力,ρi是cpu周期的能耗参数。

进一步地,所述更新函数为:

vi(n+1)=wvi(n)+c1ξ1(pin-xi(n))+c2ξ2(pgn-xi(n));

xi(n+1)=xi(n)+vi(n+1);

其中,c1,c2均为0至2之间的常数,ξ1和ξ2为影响力系数,w为权重系数,pin为第i个粒子在第n次迭代后的历史最优位置,pgn为第i个粒子第在第n次迭代后的全局历史最优位置,vi(n+1)为第i个粒子在第n+1次迭代后的目标速度,vi(n)为第i个粒子在第n次迭代后的目标速度,xi(n+1)第i个粒子在第n+1次迭代后的目标位置,xi(n)第i个粒子在第n次迭代后的目标位置。

进一步地,qn+1(sn,an;θ)=(1-η)qn(sn,an;θ)+η[rn+γmaxqn(sn+1,an+1;θ)],其中,

qn(sn,an;θ)=rn+γv(sn+1)

其中,rn为回报值,ωj是控制器中当前排队任务的集合ω中第j个任务,qn+1(sn,an;θ)为第n+1次迭代的目标q函数的函数值,qn(sn,an;θ)为第n次迭代的目标q函数的函数值,sn为第n次迭代后的状态,sn+1为第n+1次迭代后的状态,ai为目标动作,v(sn+1)表示第n+1迭代后的累积回报值,θ为权值系数。

进一步地,所述损失函数为:

l(θ)=e[(qn(sn,an;θ)-q(si,ai;θ))2]。

第二方面,本发明实施例提供了一种网络多控制器部署和资源分配装置,该装置包括:获取单元,第一确定单元,第二确定单元和第三确定单元,其中,所述获取单元用于确定目标参数,其中,所述目标参数包括:目标无线网络的参数,粒子群算法参数,强化学习算法参数,控制器的初始部署位置;所述第一确定单元用于基于粒子群优化算法,目标无线网络参数,粒子群算法参数,对所述初始部署位置执行第一预设次数迭代优化,得到每个控制器的最优部署位置;所述第二确定单元用于基于所述每个控制器的最优部署位置和每个所述控制器的资源分配策略确定所述目标无线网络的初始动作空间,其中,所述状态空间用于表征所述目标无线网络的资源分配策略;所述第三确定单元用于基于强化学习算法,所述初始状态空间和所述强化学习算法参数,对所述初始状态空间执行第二预设次数迭代优化,得到所述目标无线网络的最优资源分配策略。

进一步地,所述第一确定单元还用于:反复执行以下迭代步骤,直至第一迭代次数满足第一预设迭代次数,则基于执行第一预设迭代次数之后得到的粒子群中的每个粒子的目标位置,确定每个所述控制器的最优部署位置:第一计算步骤,利用目标函数对所述目标参数和所述目标无线网络的参数,所述目标参数和粒子群中每个粒子的预设位置进行计算,得到粒子群中每个粒子的目标函数值;第一确定步骤,基于粒子群中每个粒子的目标函数值,确定粒子群中每个粒子的历史最优位置和每个粒子的全局最优位置;第二计算步骤,利用更新函数对所述每个粒子的历史最优位置、所述每个粒子的全局最优位置、所述第一更新函数参数、所述粒子群中每个粒子的预设位置和每个粒子的预设速度进行计算,得到粒子群中每个粒子的目标位置和每个粒子的目标速度;其中,若当前第二迭代次数小于所述第二预设迭代次数,则将所述每个粒子的目标位置确定为所述预设位置,以及将所述每个粒子的目标速度确定为所述预设速度,并返回执行所述第一计算步骤,所述第一确定步骤,和所述第二计算步骤,继续进行迭代计算。

进一步地,所述第三确定单元还用于:反复执行以下迭代步骤,直至第二迭代次数满足第二预设迭代次数,则基于执行第二预设迭代次数之后得到的状态空间,确定为最优状态空间,并基于所述最优状态空间,确定所述目标无线网络的最优资源分配策略:第三计算步骤,利用目标q函数对所述目标q函数参数,所述回报值和所述状态值进行计算,得到所述初始状态空间对应的目标q函数值;第四计算步骤,利用损失函数对所述损失函数参数和所述目标q函数值进行计算,得到所述初始状态空间对应的损失函数值;第二确定步骤,基于所述初始状态空间对应的损失函数值,确定目标状态空间;其中,若当前第二迭代次数小于所述第二预设迭代次数,则将所述目标状态空间确定为所述初始状态空间,并返回执行所述第三计算步骤,所述第四计算步骤和所述第二确定步骤,继续进行迭代计算。

在本发明实施例中,首先,通过粒子群优化算法对目标无线网络中的控制器的部署位置进行优化,得到每个控制器的最优部署位置;接着,根据每个控制器的最优部署位置确定出目标无线网络的初始状态空间,最后,通过强化学习算法对初始状态空间进行优化,得到目标无线网络的最优状态空间,达到了对目标无线网络进行优化的目的,进而解决了现有的网络多控制器部署和资源分配方法中,无线网络的处理性能较低的技术问题,从而实现了提高了无线网络的处理性能的技术效果。

本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种网络多控制器部署和资源分配方法的流程图;

图2为本发明实施例提供的一次控制器部署位置迭代优化的方法的流程图;

图3为本发明实施例提供的一次控制器资源分配迭代优化的方法的流程图;

图4为本发明实施例提供的一种网络多控制器部署和资源分配装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一:

根据本发明实施例,提供了一种网络多控制器部署和资源分配方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种网络多控制器部署和资源分配方法,如图1所示,该方法包括如下步骤:

步骤s102,确定目标参数,其中,所述目标参数包括:目标无线网络的参数,粒子群算法参数,强化学习算法参数,控制器的初始部署位置;

步骤s104,基于粒子群优化算法,所述目标无线网络参数,所述粒子群算法参数,对所述初始部署位置执行第一预设次数迭代优化,得到每个控制器的最优部署位置;

步骤s106,基于所述每个控制器的最优部署位置和每个所述控制器的资源分配策略确定所述目标无线网络的初始动作空间,其中,所述状态空间用于表征所述目标无线网络的资源分配策略,所述资源分配策略表征各个控制器的剩余计算资源总量和完成任务所需的计算资源量;

步骤s108,基于强化学习算法,所述初始状态空间和所述强化学习算法参数,对所述初始状态空间执行第二预设次数迭代优化,得到所述目标无线网络的最优资源分配策略。

在本发明实施例中,首先,通过粒子群优化算法对目标无线网络中的控制器的部署位置进行优化,得到每个控制器的最优部署位置;接着,根据每个控制器的最优部署位置确定出目标无线网络的初始状态空间,最后,通过强化学习算法对初始状态空间进行优化,得到目标无线网络的最优状态空间,达到了对目标无线网络进行优化的目的,进而解决了现有的网络多控制器部署和资源分配方法中,无线网络的处理性能较低的技术问题,从而实现了提高了无线网络的处理性能的技术效果。

需要说明的是,上述的第一预设迭代次数和第二预设迭代次数均可以由工作人员根据实际情况自行设定,在本发明实施例中不做具体限定,第一预设迭代次数和第二预设迭代次数可以相同或不同。

在本发明实施例中,如图2所示,对所述初始部署位置执行第一预设次数迭代优化每个迭代优化包括如下步骤:

反复执行以下迭代步骤,直至第一迭代次数满足第一预设迭代次数,则基于执行第一预设迭代次数之后得到的粒子群中的每个粒子的目标位置,确定每个所述控制器的最优部署位置:

步骤s11,第一计算步骤,利用目标函数对所述目标参数和所述目标无线网络的参数,所述目标参数和粒子群中每个粒子的预设位置进行计算,得到粒子群中每个粒子的目标函数值;

步骤s12,第一确定步骤,基于粒子群中每个粒子的目标函数值,确定粒子群中每个粒子的历史最优位置和每个粒子的全局最优位置;

步骤s13,第二计算步骤,利用更新函数对所述每个粒子的历史最优位置、所述每个粒子的全局最优位置、所述第一更新函数参数、所述粒子群中每个粒子的预设位置和每个粒子的预设速度进行计算,得到粒子群中每个粒子的目标位置和每个粒子的目标速度;

其中,若当前第一迭代次数小于所述第一预设迭代次数,则将所述每个粒子的目标位置确定为所述预设位置,以及将所述每个粒子的目标速度确定为所述预设速度,并返回执行所述第一计算步骤,所述第一确定步骤,和所述第二计算步骤,继续进行迭代计算。

需要说明的是,粒子群优化算法参数包括:目标函数参数,更新函数参数,第一预设迭代次数,粒子群中每个粒子的预设位置和每个粒子的预设速度

在本发明实施例中,通过粒子群优化算法对目标无线网络中的控制器进行迭代优化,每次迭代优化的过程如下:

首先,利用目标函数对所述目标函数参数和所述目标无线网络的参数对粒子群中每个粒子的预设位置进行计算,得到粒子群中每个粒子的目标函数值;

接着,将每个粒子的目标函数值与之前每次迭代得到的目标函数值进行对比,确定出上述的目标函数值中最小的目标函数值,并根据最小的目标函数值确定出每个粒子的历史最优位置和每个粒子的全局最优位置。

然后,将每个粒子的历史最优位置、每个粒子的全局最优位置、第一更新函数参数、粒子群中每个粒子的预设位置和每个粒子的预设速度代入更新函数中进行计算,得到每个粒子的目标位置和每个粒子的目标速度

如果,当前第一迭代次数小于第一预设迭代次数,那么则将上述的每个粒子的目标位置确定为每个粒子的预设位置,以及将上述的每个粒子的目标速度确定未每个粒子的预设速度,并返回执行第一计算步骤,第一确定步骤和所述第二计算步骤,继续进行迭代计算。

如果,当前第一迭代次数等于第一预设迭代次数,那么则根据上述的每个粒子的目标位置,确定出每个控制器的最优部署位置。

现有的无线网络中控制器的部署位置方法,为并未考虑到无线网络在工作过程中能耗的影响,导致通过现有的无线网络中控制器的部署位置方法得到的无线网络的处理性能较低。

本发明通过将无线网络在工作过程中能耗因素加入对无线网络中控制器的部署位置的优化过程中,从而能够通过将控制器部署在最优部署位置上,降低了无线网络在工作过程中的能耗,进而提高了无线网络的处理性能。

需要说明的是,上述的目标函数为其中,

其中,在目标无线网络中包含个n控制器和m个控制元素,则控制器为c={c1,c2,…,cn},网络元素为s={s1,s2,…,sm},任务定义为qi=(wi,ηi),wi为目标无线网络完成任务需要的cpu周期,ηi为任务的数据量,hi,j为控制器ci和它的控制元素之间的信道增益,p(ci)是控制器的传输功率,σ2是控制元素的噪声,b是信道带宽,代表信道间的干扰,fi为控制器ci的计算能力,ρi是cpu周期的能耗参数,为上传数据率,为控制器与元素与之间的传输时延,为控制器与元素之间的传输能耗,为控制器的执行任务qi=(wi,ηi)所需的时间,为控制器与元素之间的计算能耗。

另外,还需要说明的是,上述公式的约束条件如下:

传输时延小于时延最大值,即控制器ci和控制元素之间的距离不能超过最大值,即控制元素个数不能超过控制器的处理能力,即mi≤l(ci)。

上述的更新函数为:

vi(n+1)=wvi(n)+c1ξ1(pin-xi(n))+c2ξ2(pgn-xi(n));

xi(n+1)=xi(n)+vi(n+1);

其中,c1,c2均为0至2之间的常数,ξ1和ξ2为影响力系数,w为权重系数,pin为第i个粒子在第n次迭代后的历史最优位置,pgn为第i个粒子第在第n次迭代后的全局历史最优位置,vi(n+1)为第i个粒子在第n+1次迭代后的目标速度,vi(n)为第i个粒子在第n次迭代后的目标速度,xi(n+1)第i个粒子在第n+1次迭代后的目标位置,xi(n)第i个粒子在第n次迭代后的目标位置。

在本发明实施例中,如图3所示,对所述初始状态空间执行预设次数迭代优化中每个迭代优化包括:

反复执行以下迭代步骤,直至第二迭代次数满足第二预设迭代次数,则基于执行第二预设迭代次数之后得到的状态空间,确定为最优状态空间,并基于所述最优状态空间,确定所述目标无线网络的最优资源分配策略:

步骤s21,第三计算步骤,利用目标q函数对所述目标q函数参数,所述回报值和所述状态值进行计算,得到所述初始状态空间对应的目标q函数值;

步骤s22,第四计算步骤,利用损失函数对所述损失函数参数和所述目标q函数值进行计算,得到所述初始状态空间对应的损失函数值;

步骤s23,第二确定步骤,基于所述初始状态空间对应的损失函数值,确定目标状态空间;

其中,若当前第二迭代次数小于所述第二预设迭代次数,则将所述目标状态空间确定为所述初始状态空间,并返回执行所述选择步骤,所述第三计算步骤,所述第四计算步骤和所述第二确定步骤,继续进行迭代计算。

在本发明实施例中,通过深度学习算法对目标无线网络中的初始状态空间进行迭代优化,每次迭代优化的过程如下:

首先,按照预设概率从动作空间中选择目标动作,以使初始状态空间执行目标动作,得到所述目标动作对应的回报值和状态值。

需要说明的是,上述的预设概率可以由工作人员根据实际情况自行设定,在本发明实施例中不做具体限定。

接着,将上述的目标q函数参数,上述的回报值和上述的状态值代入目标q函数中进行计算,得到初始状态空间对应的目标q函数值;

然后,将上述目标q函数值代入损失函数中进行计算,得到初始状态空间对应的损失函数值。

最后,基于初始状态空间对应的损失函数值,确定出目标状态空间。

如果,当前第二迭代次数小于第二预设迭代次数,那么则将目标状态空间确定为初始状态空间,并返回执行上述的选择步骤,上述的第三计算步骤,上述的第四计算步骤和上述的第二确定步骤,继续进行迭代计算。

如果,当前第二迭代次数等于第二预设迭代次数,那么则将目标状态空间确定为无线网络的最优状态空间,并根据该最优状态空间确定出目标无线网络的最优资源分配策略。

需要说明的是,上述的目标q函数为:

qn+1(sn,an;θ)=(1-η)qn(sn,an;θ)+η[rn+γmaxqn(sn+1,an+1;θ)],其中,

qn(sn,an;θ)=rn+γv(sn+1);

其中,rn为回报值,ωj是控制器中当前排队任务的集合ω中第j个任务,qn+1(sn,an;θ)为第n+1次迭代的目标q函数的函数值,qn(sn,an;θ)为第n次迭代的目标q函数的函数值,sn为第n次迭代后的状态,sn+1为第n+1次迭代后的状态,ai为目标动作,v(sn+1)表示第n+1迭代后的累积回报值,θ为权值系数。

上述的损失函数为:l(θ)=e[(qn(sn,an;θ)-q(si,ai;θ))2]。

实施例二:

本发明还提供了一种网络多控制器部署和资源分配装置,该装置用于执行本发明实施例上述内容所提供的网络多控制器部署和资源分配方法,以下是本发明实施例提供的网络多控制器部署和资源分配装置的具体介绍。

如图4所示,该装置包括:获取单元10,第一确定单元20,第二确定单元30和第三确定单元40,其中,

所述获取单元10用于确定目标参数,其中,所述目标参数包括:目标无线网络的参数,粒子群算法参数,强化学习算法参数,控制器的初始部署位置;

所述第一确定单元20用于基于粒子群优化算法,目标无线网络参数,粒子群算法参数,对所述初始部署位置执行第一预设次数迭代优化,得到每个控制器的最优部署位置;

所述第二确定单元30用于基于所述每个控制器的最优部署位置和每个所述控制器的资源分配策略确定所述目标无线网络的初始动作空间,其中,所述状态空间用于表征所述目标无线网络的资源分配策略;

所述第三确定单元40用于基于强化学习算法,所述初始状态空间和所述强化学习算法参数,对所述初始状态空间执行第二预设次数迭代优化,得到所述目标无线网络的最优资源分配策略。

在本发明实施例中,首先,通过粒子群优化算法对目标无线网络中的控制器的部署位置进行优化,得到每个控制器的最优部署位置;接着,根据每个控制器的最优部署位置确定出目标无线网络的初始状态空间,最后,通过强化学习算法对初始状态空间进行优化,得到目标无线网络的最优状态空间,达到了对目标无线网络进行优化的目的,进而解决了现有的网络多控制器部署和资源分配方法中,无线网络的处理性能较低的技术问题,从而实现了提高了无线网络的处理性能的技术效果。

可选地,所述第一确定单元还用于:反复执行以下迭代步骤,直至第一迭代次数满足第一预设迭代次数,则基于执行第一预设迭代次数之后得到的粒子群中的每个粒子的目标位置,确定每个所述控制器的最优部署位置:第一计算步骤,利用目标函数对所述目标参数和所述目标无线网络的参数,所述目标参数和粒子群中每个粒子的预设位置进行计算,得到粒子群中每个粒子的目标函数值;第一确定步骤,基于粒子群中每个粒子的目标函数值,确定粒子群中每个粒子的历史最优位置和每个粒子的全局最优位置;第二计算步骤,利用更新函数对所述每个粒子的历史最优位置、所述每个粒子的全局最优位置、所述第一更新函数参数、所述粒子群中每个粒子的预设位置和每个粒子的预设速度进行计算,得到粒子群中每个粒子的目标位置和每个粒子的目标速度;其中,若当前第二迭代次数小于所述第二预设迭代次数,则将所述每个粒子的目标位置确定为所述预设位置,以及将所述每个粒子的目标速度确定为所述预设速度,并返回执行所述第一计算步骤,所述第一确定步骤,和所述第二计算步骤,继续进行迭代计算。

可选地,所述第三确定单元还用于:反复执行以下迭代步骤,直至第二迭代次数满足第二预设迭代次数,则基于执行第二预设迭代次数之后得到的状态空间,确定为最优状态空间,并基于所述最优状态空间,确定所述目标无线网络的最优资源分配策略:第三计算步骤,利用目标q函数对所述目标q函数参数,所述回报值和所述状态值进行计算,得到所述初始状态空间对应的目标q函数值;第四计算步骤,利用损失函数对所述损失函数参数和所述目标q函数值进行计算,得到所述初始状态空间对应的损失函数值;第二确定步骤,基于所述初始状态空间对应的损失函数值,确定目标状态空间;其中,若当前第二迭代次数小于所述第二预设迭代次数,则将所述目标状态空间确定为所述初始状态空间,并返回执行所述第三计算步骤,所述第四计算步骤和所述第二确定步骤,继续进行迭代计算。

另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1